腾讯开源百亿参数模型 KaLM-Embedding,MTEB 多语言榜单夺冠!

5天前发布AI之家
0 0 0
摘要:

腾讯微信团队的KaLM-Embedding-Gemma3-12B-2511模型在MTEB评测中取得全球第一,综合得分为72.32(Mean Task)和62.51(Mean TaskType),展示了其强大的多语言语义理解能力。该模型参数量达到120亿,优化了跨语言语义对齐,使用高质量数据训练,提升了语义表示的一致性。通过多阶段对比学习等训练策略,增强了性能和应用灵活性。KaLM-Embedding广泛应用于文本分类、语义匹配等领域,推动了智能化进程,并采用MIT许可证支持商业用途,促进技术共享与创新。

腾讯开源百亿参数模型 KaLM-Embedding,MTEB 多语言榜单夺冠!的封面图

腾讯开源官方公众号于11月12日发布了令人振奋的消息:来自腾讯微信团队的KaLM-Embedding开源模型在全球范围内再创佳绩。在最新的MTEB多语言通用Embedding模型权威评测中,KaLM-Embedding-Gemma3-12B-2511以其卓越的综合成绩荣获全球第一。

在MTEB的评测体系中,涵盖了全球1038种语言和131项任务,KaLM-Embedding-Gemma3-12B-2511的综合得分分别达到了72.32(Mean Task)和62.51(Mean TaskType),再次证明了其强大的性能。

随着大模型技术的飞速发展,语义理解能力日益成为人工智能系统落地的关键。Embedding模型作为实现语义编码的核心技术,能够将文本转化为高维向量,支持非结构化内容的可度量和可检索特性,为上层应用提供了坚实的基础。

在RAG(检索增强生成)等主流架构中,Embedding模型能够从庞大的知识库中精准提取语义相关信息,动态构建高质量的上下文,从而有效提升大模型生成结果的准确性和可靠性,减少“幻觉”现象的发生。这不仅展示了技术的进步,也让我们对未来的AI应用充满期待。

此外,Embedding技术还广泛应用于文本分类、语义匹配、信息聚类、搜索推荐和多语言理解等领域,成为现代AI系统中不可或缺的语义基础组件。这样的发展无疑为各行业带来了新的机遇,推动了智能化进程的发展。

以下是KaLM-Embedding-Gemma3-12B-2511的一些核心亮点:

  • 模型规模:参数量提升至120亿(12B),使其成为目前MTEB榜单上最大规模的Embedding模型之一,极大增强了模型的表示能力与泛化性能。

  • 跨语言能力:在多语言语义对齐方面实现了显著优化,支持更精准的跨语种语义理解与检索任务。

  • 数据质量:基于经过深度清洗与筛选的大规模高质量语料进行训练,有效提升了语义表示的一致性与可靠性。

  • 训练策略:采用多阶段对比学习、Embedding蒸馏和模型参数融合等技术,进一步提升模型在多维度上的能力表现与综合性能。

  • 维度嵌套:支持多种向量维度选择,涵盖3840、2048、1024、512、256、128及64等多个层级,满足不同场景下的高效应用需求。

对于对KaLM-Embedding的进一步了解,可以访问以下链接:

该模型采用MIT许可证,支持商业用途,助力技术的广泛传播与应用。这样的开源精神不仅促进了技术的共享,更为未来的创新与发展注入了更多正能量。通过这些努力,我们可以期待一个更加智能和高效的未来。

© 版权声明:
本文地址:https://aidh.net/kuaixun/3v0a4jao

暂无评论

none
暂无评论...