小模型推理能力提升百倍，Q*项目正式发布

当前，有关一家名为Q * 的人工智能实验室，据称与突破性的人工通用智能技术有关的消息，正在引发广泛关注。值得注意的是，OpenAI并未直接确认或否认这一说法。

一些基准测试表明，Q 能够解决某些高难度的数学问题，例如在 GSM8K 数据集上，Q 的表现超越了 Llama-2-7b，达到了80.8%的准确率，甚至超过了 ChatGPT。

在 MATH 数据集上，Q * 的性能也超过了 Gemini Ultra，达到了55.4%的准确率，媲美 DeepSeek-Math-7b。

在 MBPP 数据集上，Q 的性能达到了77.0%，超过了 CodeQwen1.5-7b-Chat，甚至逼近了 GPT-4 的水平。这些基准测试结果表明，Q 在解决复杂推理问题方面具有显著的潜力。

Q 的独特之处在于，它似乎结合了强化学习和大型语言模型的优点，能够通过迭代学习和优化，逐步提升解决问题的能力。换句话说，Q 能够自主地进行学习和改进，从而提高其在各种任务上的表现。这种能力使得 Q * 有可能在未来的智能领域发挥重要作用，甚至超越现有的人工智能技术。

重要提示：

🔍 关于 Q 实验室及其与 OpenAI 的关联性，目前尚未得到官方证实，请以官方信息为准。

🔍 上述基准测试结果仅代表 Q 在特定数据集上的表现，并不能完全反映其整体能力和应用前景。

🔍 更多信息：https://arxiv.org/abs/2406.14283

快讯中提到的AI工具

DeepSeek

深度求索：引领未来人工智能技术的探索与创新

GPT-4

OpenAI 发布的最新一代语言模型

OpenAI

致力于创造对全人类有益的安全 AGI

ChatGPT

OpenAI开发的一款先进AI聊天机器人

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/363del80