DeepSeek V3:开源AI新标杆,14.8万亿Token训练超越Llama3.1

4个月前发布AI俱乐部
3 0 0
DeepSeek V3:开源AI新标杆,14.8万亿Token训练超越Llama3.1的封面图

国内领先的大模型公司DeepSeek近日发布了其最新的模型DeepSeek V3。据称,该模型在多个关键能力上都超越了Meta的Llama3.1,并且在推理能力上能够比肩甚至超越顶尖的GPT-4模型。

DeepSeek V3的突出优势在于其卓越的数学和编程能力。例如,在解决复杂的Codeforces编程问题时,它的表现优于其他同类模型,并且在处理Aider Polyglot代码编辑任务时也展现出强大的实力。该模型使用了高达14.8万亿token的数据进行训练,远超Llama3.1的1.6万亿token。

值得一提的是,DeepSeek能够同时支持中英文两种语言,并且具备55万超长上下文窗口,这为处理复杂的自然语言处理任务提供了强大的支持。

DeepSeek背后的重要投资者是中国知名的风险投资公司High-Flyer Capital Management。该公司斥巨资购买了超过10,000片Nvidia A100 GPU,以及高达1.38万亿token的数据集用于模型训练。High-Flyer致力于支持中国本土AI基础设施的发展,从而推动大模型技术的创新。

DeepSeek V3的发布标志着国产大模型在技术上取得了重要进展,不仅提升了国内AI领域的技术实力,也为各行各业的智能化转型提供了新的选择和可能。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/1hh1mvif

暂无评论

none
暂无评论...