项目介绍
项目简要介绍
前置人像数据采集用于AI模型训练
数据采集要求
安全要求
数据收集遵循合法、正当、必要、透明的原则。
分阶段采集
序号 | 验收阶段 | 验收条件 |
1 | 平均采集(4w) | 数据采集文档涉及场景平均采集。需要保证数据采集质量/多样性,以及没有漏采现象,按周交付。 |
2 | 困难场景采集(1w) | 困难场景,相关场景数据。需保证数据采集质量/多样性,按周交付。 |
验收条件具体说明:
1. 验收要求
(1)场景重复次数要求:
采集场景可以重复使用。我们列举的环境相关已经有40个主场景,同一采集场景复用次数不超过25次,且需保证在场景重复时,主体内容要有较大差异。文档内场景需要全部涉及,不产生漏采问题。
(2)人物出场重复次数上限要求:
同一人单独出现不能超过100次,需要明确同一人出现时需要保证不同的场景或主体内容,动作/头型/衣着等需要不同(假发等),具体参考文档。(允许网络爬图,但不能直接复用开源数据集)
(3)人像年龄段/肤色要求:
年龄段:孩子 青少年 青年 中年 老年 分布上以青年和中年为主
肤色: 肤色上要求黄/白/棕色/黑色人种,白色棕色黑色人种加起来仅占15%即可。
(4)多人比例:
1人 50% ;2人25% ; 3人 20% ; 4人 5% ,这个是平均采集阶段的比例,后续我们会根据实际的样本分布情况,进行适当调整。
(5)宠物要求:
仅考虑猫、狗
(6) 采集方式要求:
手机前置普通拍照采集,关闭人像模式,一定不能开背景虚化。
(7)比例细分(前4w张图):
场景为40种见(1),平均分配即可,允许多种场景交叉。
主体:包含手持物占比25% 包含宠物占比10% 穿戴位姿平均采样即可 允许多种交叉。