全球最大公开人脸数据集发布：清华大学携手芯翌科技合作推出

金磊在凹非寺发表了一篇关于人脸识别领域的报道，提到了中国团队发布了全球最大规模的人脸数据集。这一数据集名为WebFace260M，由芯翌科技与清华大学自动化系智能视觉实验室合作推出，并已被CVPR 2021接收。WebFace260M数据集是基于全球互联网公开人脸数据构建的，规模前所未有，包含了数百万ID和数亿张图片。

研究人员提出了一种名为CAST（Cleaning Automatically by Self-Training）的自训练全自动迭代的清洗流程，并在清洗WebFace260M数据集时取得了显著成果。通过这一流程，他们成功创建了WebFace42M数据集，包含200万ID和4200万张图片，创造了全球规模最大、可直接用于训练的干净人脸数据集。

此外，研究人员发布了更贴近实际应用的人脸识别评测准则FRUITS，以及更具挑战性的人脸测试集，促进人脸识别评测更接近真实场景。WebFace42M数据集在IJBC测试集上取得了新的SOTA，错误率降低了40%。在NIST-FRVT上获得的成绩也十分亮眼，为人脸识别技术的进一步发展做出了重要贡献。在精度上已基本趋于饱和。

此外，它们在不同场景下的表现也存在不够细致的问题。

因此，WebFace260M 和 WebFace42M 以及相关 Benchmark 的推出，在一定程度上弥合了公开数据集规模与实际应用产业界之间的鸿沟，进一步推动了以深度学习为核心的人脸识别相关技术的进步，并促进了智能化行业的繁荣发展。

相较于规模上的突破，更大的意义在于“科技向善”和“数据生态”的构建。

经过过去几年的发展，人脸识别及人工智能技术取得了显著进步，并产生了巨大的社会经济价值。但与此同时，技术发展也带来了一系列社会问题。

研究团队希望通过数据集的建立及相关工作，与产业界和社会各界携手构建人脸识别测试和应用标准，规范人脸识别应用市场，治理人脸识别应用乱象，以科技向善，彰显人工智能技术的价值和温度。