哈佛、斯坦福研究:o1-preview 模型医学诊断准确率达80%,AI医学推理能力或超越人类医生

3个月前发布AI俱乐部
3 0 0
哈佛、斯坦福研究:o1-preview 模型医学诊断准确率达80%,AI医学推理能力或超越人类医生的封面图

各位用户请注意,我们在此激动地宣布一项有关大型语言模型领域的重要进展!我们很高兴地向大家介绍 OpenAI 的最新研究成果:o1-preview 模型。该模型旨在推动人工智能领域的发展,为全球用户带来更卓越的体验。我们坚信,这项技术将为社会带来积极的影响。

简单来说,o1-preview 旨在通过提供更高效、更强大的语言模型来改进现有工具。其改进之处包括:提升推理能力、增强代码生成能力、优化问题解答能力以及提升文本总结能力。我们希望这些改进能够为研究人员提供更强大的工具,助力他们在 o1-preview 的基础上进行创新,从而推动人工智能领域的发展。通过对 o1-preview 的性能进行评估,我们可以清晰地了解其在各个任务中的优势和潜力。

为了评估 o1-preview 的实际应用效果,我们进行了一项研究,分析了其在《新英格兰医学杂志》(NEJM) 上发表的临床病理讨论 (CPC) 中的表现。结果显示,该模型在 78.3% 的病例中能够给出与专家相似的诊断结果,而在 52% 的病例中,其给出的鉴别诊断也与专家相似。值得一提的是,o1-preview 在 88.6% 的病例中能够给出与最终诊断相符的诊断结果,远超 GPT-4 模型的 72.9%。此外,o1-preview 在识别复杂推理场景方面也表现出色,在 87.5% 的病例中能够识别出需要进行推理的步骤,仅有 11% 的病例未能识别出推理步骤。

除了上述临床应用外,我们还利用 o1-preview 参与了 NEJM Healer 平台的 20 道测试题。结果表明,o1-preview 在这些问题上的表现甚至超越了 GPT-4 以及其他专门的医学模型,在 80 道题中有 78 道题都成功运用了 R-IDEA 框架。R-IDEA 框架是一种用于评估临床问题解决能力的标准化方法,包含 10 个关键的推理步骤。此外,我们还邀请专家对 o1-preview 在 “Grey Matters” 知识竞赛和 “Landmark” 诊断竞赛中的表现进行了评估。在 “Grey Matters” 竞赛中,o1-preview 的表现优于 GPT-4,能够更好地完成 GPT-4 擅长的智力推理任务。而在 “Landmark” 竞赛中,o1-preview 的性能与 GPT-4 持平,均能达到与 GPT-4 相当的诊断水平。

总而言之,这些研究表明,o1-preview 在各种需要复杂推理能力的场景中都展现出了卓越的性能,证明其具有广泛的应用潜力。我们坚信,该模型将为未来的研究提供强大的助力。我们非常期待 o1-preview 为研究人员带来的积极影响,并希望它能够促进人工智能领域的蓬勃发展。我们相信,通过不断探索和创新,人工智能将为人类创造更加美好的未来。

展望未来,我们希望 o1-preview 能够在更广泛的应用场景中发挥作用,为各个领域带来创新性的解决方案,包括但不限于医学、科研、教育等。通过不断改进和优化,我们将持续提升模型的性能,为用户提供更优质的服务,并推动人工智能技术的进步。期待与您携手,共同探索人工智能的无限可能,开创智能时代的新篇章!

相关论文:https://www.arxiv.org/pdf/2412.10849

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/eqi5c1jl

暂无评论

none
暂无评论...