哈佛、斯坦福研究：o1-preview 模型医学诊断准确率达80%，AI医学推理能力或超越人类医生

11个月前发布AI俱乐部

摘要：

各位用户请注意，我们在此激动地宣布一项有关大型语言模型领域的重要进展！我们很高兴地向大家介绍 OpenAI 的 […]

哈佛、斯坦福研究：o1-preview 模型医学诊断准确率达80%，AI医学推理能力或超越人类医生的封面图

各位用户请注意，我们在此激动地宣布一项有关大型语言模型领域的重要进展！我们很高兴地向大家介绍 OpenAI 的最新研究成果：o1-preview 模型。该模型旨在推动人工智能领域的发展，为全球用户带来更卓越的体验。我们坚信，这项技术将为社会带来积极的影响。

简单来说，o1-preview 旨在通过提供更高效、更强大的语言模型来改进现有工具。其改进之处包括：提升推理能力、增强代码生成能力、优化问题解答能力以及提升文本总结能力。我们希望这些改进能够为研究人员提供更强大的工具，助力他们在 o1-preview 的基础上进行创新，从而推动人工智能领域的发展。通过对 o1-preview 的性能进行评估，我们可以清晰地了解其在各个任务中的优势和潜力。

为了评估 o1-preview 的实际应用效果，我们进行了一项研究，分析了其在《新英格兰医学杂志》(NEJM) 上发表的临床病理讨论 (CPC) 中的表现。结果显示，该模型在 78.3% 的病例中能够给出与专家相似的诊断结果，而在 52% 的病例中，其给出的鉴别诊断也与专家相似。值得一提的是，o1-preview 在 88.6% 的病例中能够给出与最终诊断相符的诊断结果，远超 GPT-4 模型的 72.9%。此外，o1-preview 在识别复杂推理场景方面也表现出色，在 87.5% 的病例中能够识别出需要进行推理的步骤，仅有 11% 的病例未能识别出推理步骤。

除了上述临床应用外，我们还利用 o1-preview 参与了 NEJM Healer 平台的 20 道测试题。结果表明，o1-preview 在这些问题上的表现甚至超越了 GPT-4 以及其他专门的医学模型，在 80 道题中有 78 道题都成功运用了 R-IDEA 框架。R-IDEA 框架是一种用于评估临床问题解决能力的标准化方法，包含 10 个关键的推理步骤。此外，我们还邀请专家对 o1-preview 在 “Grey Matters” 知识竞赛和 “Landmark” 诊断竞赛中的表现进行了评估。在 “Grey Matters” 竞赛中，o1-preview 的表现优于 GPT-4，能够更好地完成 GPT-4 擅长的智力推理任务。而在 “Landmark” 竞赛中，o1-preview 的性能与 GPT-4 持平，均能达到与 GPT-4 相当的诊断水平。

总而言之，这些研究表明，o1-preview 在各种需要复杂推理能力的场景中都展现出了卓越的性能，证明其具有广泛的应用潜力。我们坚信，该模型将为未来的研究提供强大的助力。我们非常期待 o1-preview 为研究人员带来的积极影响，并希望它能够促进人工智能领域的蓬勃发展。我们相信，通过不断探索和创新，人工智能将为人类创造更加美好的未来。

展望未来，我们希望 o1-preview 能够在更广泛的应用场景中发挥作用，为各个领域带来创新性的解决方案，包括但不限于医学、科研、教育等。通过不断改进和优化，我们将持续提升模型的性能，为用户提供更优质的服务，并推动人工智能技术的进步。期待与您携手，共同探索人工智能的无限可能，开创智能时代的新篇章！

相关论文：https://www.arxiv.org/pdf/2412.10849