Currently v1.0.0, Published: 2023/08
下载进度(请勿刷新页面!)
丰富的标签数据是AI建模的关键,是推动人工智能技术在水利行业应用的基础。我所人工智能研发团队专注于AI技术在水利行业的应用场景构建,研发了智慧河长系统、虚拟水尺、中小水库智能巡检等产品,积累了大量的标签数据。 为推动水利标签数据共享,降低人工智能技术在水利行业的应用成本,加快水利AI模型迭代速度,我们决定陆续开源相关标签数据。本次开源的是一份水面漂浮物标注数据集(IWHR_AI_Lable_Floater_V1)。
目前,该水面漂浮物数据集开源了3000张漂浮物图像及其相应的标注文件,其中包含23692个标注目标,覆盖了包括塑料瓶、泡沫板等常见的生活垃圾以及水草、藻类等漂浮物。 这些图像由手机、数码相机、监控摄像头等设备拍摄,手机拍摄的图像分辨率为1920×1080、880×1920,数码相机拍摄的图像分辨率为3840×2160, 监控摄像头拍摄的图像分辨率为1920×1080。为了丰富样本多样性,在采集原始图像时,我们通过调整拍摄角度、时间和环境,收集了不同角度、光照条件以及背景的图片(见图1)。
图1 数据集中经典图片
图像采集完成后,采用LabelImg工具对图像中的漂浮物位置和类别进行了人工标注,标注完成后的成果如图2所示。
图2 数据集中经典图片标注样例
根据标注目标掩膜相对于图像的像素比例统计,该数据集有高达94.5%的目标像素占比低于10%,填补了小尺寸水面漂浮物开源数据的空白, 为研究和开发人员提供更接近实际场景的数据资源,数据集中目标位置与尺寸分布如图3所示。
(a)目标中心位置分布
(b)目标尺寸分布
图3 数据集目标位置与尺寸分布
我们采用了9种常用的基于深度学习的目标检测算法(Faster R-CNN、RetinaNet、SSD、CenterNet2、YOLOv5s、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9)对该数据集进行了测试,按照8:1:1的比例,将数据分割为训练集、验证集、测试集,每次训练的迭代次数均为300次,测试结果如下表所示:
模型 | 输入 大小 (pixel) |
mAPtest 50-95 (%) |
速度 NVIDIA RTX3090 (ms/frame) |
参数量 (M) |
---|---|---|---|---|
Faster R-CNN | 600 | 52.7 | 142.9 | 86.3 |
RetinaNet | 640 | 66.3 | 51.4 | 145.7 |
SSD | 300 | 62.9 | 26.0 | 95.0 |
CenterNet2 | 640 | 59.3 | 140.0 | 570.9 |
YOLOv5s | 640 | 67.1 | 4.5 | 7.0 |
YOLOv6s | 640 | 65.2 | 2.7 | 18.5 |
YOLOv7 | 640 | 66.3 | 6.7 | 6.2 |
YOLOv8s | 640 | 68.0 | 4.5 | 11.1 |
YOLOv9 | 640 | 69.1 | 6.3 | 252.2 |
数据集的研发得到了北京市科学技术委员会科技计划课题《大运河智慧巡河系统研发及示范应用》(编号:Z201100001820022)资助。
如果本数据集对您的研究有所贡献,请在相关出版物中引用:
[1]杨明祥,乔广超,王浩,蒋云钟,等.水面漂浮物数据集(IWHR_AI_Lable_Floater_V1)[DB/OL].中国水利水电科学研究院,2023. http://123.56.14.89:8008/wfdownload/
欢迎您与我们共同维护该数据集,如果您有任何问题,请联系我们。
技术交流QQ群:836873384
邮箱:iwhr_floater@163.com
您可以从以下链接下载数据集:
本数据集仅供学术研究使用,严禁用于商业用途,任何未经授权的商业行为,我们将保留追究法律责任的权利。使用者需自行承担因使用本数据集产生的任何责任和风险。