自定义数据集

自定义数据集

制作自己的数据集

一.为计算机视觉项目采集图像与视频数据,核心要确定三件事:定义多少个目标类别、数据从何处获取、如何保证数据集不存在偏差。

1.定义多少个目标类别:
(1)粗分类:车辆、非车辆。(2)细分类:打车、轿车、大巴车、SUV、跑车

2.数据从何处获取:
(1)公开数据集 (2)自行采集专属自定义数据(相机、无人机拍摄图像与视频,网络爬取图片,或是调取企业内部已有存量数据)

3.如何保证数据集不存在偏差:
当数据集里某类目标、场景样本过少或过多时,就会产生数据偏差。存在偏差的模型会在部分样本上检测效果优异,在其余样本上表现很差。

4.采集数据时可通过以下方法消除偏差:
(1)多渠道数据源:从多种渠道采集数据,覆盖不同拍摄角度与应用场景。
(2)样本均衡分布:保证所有相关类别样本数量均衡。以人体检测为例,需覆盖不同年龄、性别、人种的人群样本。
(3)持续核查更新:定期检查、扩充数据集,及时发现并修正新增的数据偏差问题。
(4)偏差缓解手段:采用少数类过采样、数据增强、公平性优化算法等技术方案。
落实以上操作,能够训练出稳定性更强、识别公平性更好的模型,在真实落地场景中拥有优秀的泛化能力。

二.标注自己的数据集。

1.标准统一:保持标注口径统一,为不同类型的数据设定标准化的标注判定依据,确保所有标注都遵循同一套规则。

2.降低偏差:秉持中立客观的标注原则,尽可能弱化主观判断偏差,保障标注结果的公允性。

3.厘清准确度与精确度的区别,以及二者对标注工作的影响,至关重要。
准确度:标注结果与真实值的贴合程度,用于衡量标签对真实场景的还原度。
精确度:标注结果的一致性,用于验证整个数据集中,对同一目标或特征是否始终遵循统一的标注标准。

4.质量控制可通过多种方式开展:
(1)对已标注数据进行抽样检查
借助自动化工具排查常见标注错误,安排人员对标注结果进行交叉复核,若项目由多人协作完成标注,不同标注人员之间的标注一致性尤为重要。良好的标注者间一致性,意味着标注规范清晰明确,所有人员都在按同一标准执行,既能保证全员认知同步,也能保障全量标注结果的标准统一。
(2)核查过程中若发现错误,需及时修正,并同步更新标注规范,避免同类问题重复出现。同时要向标注人员反馈问题,定期开展培训,逐步降低错误发生率。完善的错误处理流程,能够持续保障数据集的准确性与可靠性。