DeepSeek V3：开源AI新标杆，14.8万亿Token训练超越Llama3.1

11个月前发布AI俱乐部

摘要：

国内领先的大模型公司DeepSeek近日发布了其最新的模型DeepSeek V3。据称，该模型在多个关键能力上 […]

DeepSeek V3：开源AI新标杆，14.8万亿Token训练超越Llama3.1的封面图

国内领先的大模型公司DeepSeek近日发布了其最新的模型DeepSeek V3。据称，该模型在多个关键能力上都超越了Meta的Llama3.1，并且在推理能力上能够比肩甚至超越顶尖的GPT-4模型。

DeepSeek V3的突出优势在于其卓越的数学和编程能力。例如，在解决复杂的Codeforces编程问题时，它的表现优于其他同类模型，并且在处理Aider Polyglot代码编辑任务时也展现出强大的实力。该模型使用了高达14.8万亿token的数据进行训练，远超Llama3.1的1.6万亿token。

值得一提的是，DeepSeek能够同时支持中英文两种语言，并且具备55万超长上下文窗口，这为处理复杂的自然语言处理任务提供了强大的支持。

DeepSeek背后的重要投资者是中国知名的风险投资公司High-Flyer Capital Management。该公司斥巨资购买了超过10,000片Nvidia A100 GPU，以及高达1.38万亿token的数据集用于模型训练。High-Flyer致力于支持中国本土AI基础设施的发展，从而推动大模型技术的创新。

DeepSeek V3的发布标志着国产大模型在技术上取得了重要进展，不仅提升了国内AI领域的技术实力，也为各行各业的智能化转型提供了新的选择和可能。