科大讯飞星火X1升级:数学能力比肩DeepSeek R1与OpenAI o1

人工智能2个月前发布 AI之家
3 0 0

科大讯飞于今日宣布星火 X1 升级,并同步发布星火一体机等系列新品。

本次升级的重点在于深度推理大模型星火 X1 的再次精进,其数学能力已全面对标 DeepSeek R1 和 OpenAI o1

据科大讯飞介绍,此次升级显著提升了数学答题的效能,尤其在应对竞赛级别的难题时表现突出。此外,星火 X1 在中小学数学作业的批改、辅导以及题目推荐等任务中也展现出显著优势。

科大讯飞星火X1升级:数学能力比肩DeepSeek R1与OpenAI o1

测试集合来源:中文测试集采自 2023/2024 年各学段的考试真题、模拟题及竞赛题,英文测试集则源于 AIME 2024/2025 和 MATH 500 竞赛集

在升级后的星火 X1 的赋能下,讯飞晓医、星火教师助手、AI 法官助理等应用与产品亦实现了同步升级。以下为 AI 工具库的官方介绍:

讯飞晓医首发星火医疗大模型 X1

此次升级中,讯飞医疗率先发布了星火医疗大模型 X1,该模型着重解决“大幅降低医疗幻觉问题”,在解答复杂问题时,能够逐步解释循证过程,从而提升医疗复杂场景推理的逻辑正确性、专业性与可解释性。在诊断推荐、健康咨询、检查检验报告解读等推理任务上,其效能已显著超越 GPT-4o 和 DeepSeek R1

科大讯飞星火X1升级:数学能力比肩DeepSeek R1与OpenAI o1

数据来源:晓医、智医助理、安贞心内科等测试集

目前,星火医疗大模型 X1 已正式应用于 AI 健康助手“讯飞晓医”,并与个人健康档案实现更深层次的融合。在用户进行健康咨询时,该模型能够深度洞察用户的健康状况,并预判潜在需求,从而有效解决过往 AI 医疗咨询中“建议答案宽泛而不实用”的弊端,提供更具个性化、更具体实用的医疗建议。

例如,当用户咨询疾病用药时,晓医能够依据循证医学原则,明确指出该疾病的正确用药原则,同时结合个人既往健康状况,提供更适宜、更详尽的处理意见和注意事项。

星火教师助手

基于讯飞星火 X1 的全面升级,面向备授课的星火教师助手也得到了进一步的提升,能够提供更清晰、更详实的 AI 教学思路

科大讯飞星火X1升级:数学能力比肩DeepSeek R1与OpenAI o1
  • 在备课阶段,相较于以往直接线性生成教学设计,当前的星火教师助手能够结合教师意图,明确教学的重难点和目标,并在教学设计生成的过程中逐步进行说明,以便教师理解生成内容的逻辑性,进而启发创新灵感。
  • 在授课过程中,通过思维链的显性化呈现,能够使师生实时观测认知思维的构建过程,从而使课堂互动更加直观,更易于开展探究式课堂。

这些功能已在数学、语文、历史等多个学科中得到应用。

升级后的星火教师助手,实现了教育教学中 AI 工具的“思维可视化”,从学生对基础问题的提问,到对复杂问题的进阶探究,均有迹可循,更有助于教学创新和学生高阶思维能力的培养。

AI 法官助理

在本次升级中,科大讯飞将星火长思维链深度推理技术、法律法规和司法解释等专业知识、以及法律专家的思维链进行深度融合,声称不仅解决了传统大模型存在的知识幻觉问题,同时也提升了证据审查、量刑辅助、裁判观点总结等复杂场景所需的法律推理能力

科大讯飞星火X1升级:数学能力比肩DeepSeek R1与OpenAI o1

例如,在裁判观点总结场景中,AI 能够根据卷宗材料总结案件事实,并根据事实与匹配的法律法规和案例逐条分析对比,同时将过程可视化,输出附有法理依据的裁判观点,从而为办案提供决策依据。

目前,星火大模型的能力已贯穿案情分析、证据审查、庭审提纲辅助生成、裁判辅助等多个环节。

文章中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

讯飞星火
讯飞星火

科大讯飞推出的新一代认知智能大模型

© 版权声明

相关AI热点

暂无评论

none
暂无评论...