全球最大公开人脸数据集发布:清华大学携手芯翌科技合作推出

金磊在凹非寺表了一篇关于人脸识别领域的报道,提到了中国团队发布了全球最大规模的人脸数据集。这一数据集名为WebFace260M,由芯翌科技清华大学自动化系智能视觉实验室合作推出,并已被CVPR 2021接收。WebFace260M数据集是基于全球互联网公开人脸数据构建的,规模前所未有,包含了数百万ID和数亿张图片。

研究人员提出了一种名为CAST(Cleaning Automatically by Self-Training)的自训练全自动迭代的清洗流程,并在清洗WebFace260M数据集时取得了显著成果。通过这一流程,他们成功创建了WebFace42M数据集,包含200万ID和4200万张图片,创造了全球规模最大、可直接用于训练的干净人脸数据集。

此外,研究人员发布了更贴近实际应用的人脸识别评测准则FRUITS,以及更具挑战性的人脸测试集,促进人脸识别评测更接近真实场景。WebFace42M数据集在IJBC测试集上取得了新的SOTA,错误率降低了40%。在NIST-FRVT上获得的成绩也十分亮眼,为人脸识别技术的进一步发展做出了重要贡献。在精度上已基本趋于饱和。

此外,它们在不同场景下的表现也存在不够细致的问题。

因此,WebFace260M 和 WebFace42M 以及相关 Benchmark 的推出,在一定程度上弥合了公开数据集规模与实际应用产业界之间的鸿沟,进一步推动了以深度学习为核心的人脸识别相关技术的进步,并促进了智能化行业的繁荣发展。

相较于规模上的突破,更大的意义在于“科技向善”和“数据生态”的构建。

经过过去几年的发展,人脸识别及人工智能技术取得了显著进步,并产生了巨大的社会经济价值。但与此同时,技术发展也带来了一系列社会问题。

研究团队希望通过数据集的建立及相关工作,与产业界和社会各界携手构建人脸识别测试和应用标准,规范人脸识别应用市场,治理人脸识别应用乱象,以科技向善,彰显人工智能技术的价值和温度。

全球最大公开人脸数据集发布:清华大学携手芯翌科技合作推出

更进一步而言,在数字经济和智能化高速发展的当下,数字资源已然成为如水、电一般不可或缺的必需品,同时也如同石油一般弥足珍贵,需要有规划地进行生产、使用、分享和交易等活动。

然而,目前国内外普遍对数字资源的重视程度不足,具体表现为行业规范不标准、分享程度不够,且缺乏长期规划,这反过来抑制了数字经济和智能化的发展进程。

当前,国家层面高度鼓励和重视数据集的创新和规范。清华大学和芯翌科技的研究人员积极响应国家号召和政策要求,希望与国家、政府机构、学术界及产业界一道,打造智能化时代开放、共享、安全的数据生态。

文章中提到的AI工具

Face26
Face26

最佳免费在线AI智能照片编辑应用软件

© 版权声明

相关AI热点

暂无评论

none
暂无评论...