百搜数据标注资源库

会员登录
首页 > 语音标注
数据采集-SOR

数据采集-SOR

发布时间:2023-03-23

渠道商: 本内容只会员可见,请去登录

项目周期:详谈

手机: 本内容只会员可见,请去登录

微信: 本内容只会员可见,请去登录

项目介绍

项目简要介绍

前置人像数据采集用于AI模型训练

数据采集要求

安全要求

数据收集遵循合法、正当、必要、透明的原则。

分阶段采集

序号

验收阶段

验收条件

1

平均采集(4w)

数据采集文档涉及场景平均采集。需要保证数据采集质量/多样性,以及没有漏采现象,按周交付。

2

困难场景采集(1w)

困难场景,相关场景数据。需保证数据采集质量/多样性,按周交付。

验收条件具体说明:

1. 验收要求

     (1)场景重复次数要求:

     采集场景可以重复使用。我们列举的环境相关已经有40个主场景,同一采集场景复用次数不超过25次,且需保证在场景重复时,主体内容要有较大差异。文档内场景需要全部涉及,不产生漏采问题。

    (2)人物出场重复次数上限要求:

    同一人单独出现不能超过100次,需要明确同一人出现时需要保证不同的场景或主体内容,动作/头型/衣着等需要不同(假发等),具体参考文档。(允许网络爬图,但不能直接复用开源数据集)

 3)人像年龄段/肤色要求:

   年龄段:孩子 青少年 青年 中年 老年 分布上以青年和中年为主

   肤色肤色上要求//棕色/黑色人种,白色棕色黑色人种加起来仅占15%即可。

 4)多人比例:

    1人 50% 225% ; 3人 20% ; 4人 5% ,这个是平均采集阶段的比例,后续我们会根据实际的样本分布情况,进行适当调整。

 5)宠物要求:

    仅考虑猫、狗

   (6)  采集方式要求:

   手机前置普通拍照采集,关闭人像模式,一定不能开背景虚化。

 7)比例细分(4w张图):

    场景为40种见(1),平均分配即可,允许多种场景交叉。

    主体:包含手持物占比25%  包含宠物占比10% 穿戴位姿平均采样即可 允许多种交叉。