武汉大学&中国移动九天AI团队联合开源:音视频说话人识别数据集VoxBlink2

9个月前发布AI俱乐部
4 0 0
武汉大学&中国移动九天AI团队联合开源:音视频说话人识别数据集VoxBlink2的封面图

在语音识别领域,一个重要的任务是识别说话人。最近,VoxBlink2团队发布了一种新的说话人识别模型,该模型在YouTube上超过11万条语音片段的数据集上进行了训练,并在VoxBlink2上实现了最先进的性能。该模型在9904382个语音样本上进行了训练,性能优于YouTube上的111284条语音的现有模型。该模型的代码和预训练模型已经开源,方便研究人员使用。

VoxBlink2语音识别模型的关键特性包括:

  1. 增强的数据增强:通过结合多种数据增强技术来增加数据多样性,包括混响、噪声添加等。

  2. 模型架构:采用MobileNet架构作为基础模型,可以有效地提取语音特征。

  3. 多分辨率特征:该模型利用多分辨率特征来捕捉不同时间尺度的语音信息。

  4. 自适应损失函数:通过使用自适应损失函数,可以提高模型的泛化能力和鲁棒性。

该模型在多个语音识别任务上都取得了优异的成绩,例如说话人验证、说话人识别和语音分离,准确率从72%提高到92%。

VoxBlink2模型在技术上利用了ResNet的2D卷积架构和ECAPA-TDNN的时间建模能力,并引入了Simple Attention Module。该模型在Vox1-O语音识别数据集上实现了0.17%的EER和0.006%的minDCF。

项目主页:https://VoxBlink2.github.io

代码仓库:https://github.com/VoxBlink2/ScriptsForVoxBlink2

预训练模型及相关资源:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP

论文链接:https://arxiv.org/abs/2407.11510

© 版权声明:
本文地址:https://aidh.net/kuaixun/8u2oflmg

暂无评论

none
暂无评论...