复旦大学团队发布中文医疗健康个人助手，共享47万高质量数据集

随着远程医疗的普及，中文医疗健康个人助手的需求日益增长。复旦大学的数据智能与社会计算实验室（FudanDISC）推出的DISC-MedLLM，利用大语言模型（LLM）技术，旨在为患者提供更为便捷和高效的医疗咨询服务。该助手不仅在问答和对话能力上表现优异，还发布了一个包含47万条高质量数据的开源数据集——DISC-Med-SFT，为未来的医疗领域模型训练提供了重要资源。

1. 医疗助手的挑战与背景

在医疗健康咨询领域，助手需要具备丰富的医学知识，并能够通过多轮对话深入理解患者的意图。然而，现有的通用语言模型在处理医疗问题时，常常因缺乏专业知识而导致回答不准确或不相关。在此背景下，复旦大学团队开发的DISC-MedLLM应运而生，旨在通过高质量的数据集和训练方法，提升模型在医学对话中的表现。

2. DISC-MedLLM的功能与特点

DISC-MedLLM是基于高质量数据集DISC-Med-SFT，在通用中文大模型Baichuan-13B上训练得到的医疗模型。其主要特点包括：

丰富的专业知识：通过医学知识图谱构建对话样本，确保模型在回答时能够提供准确的医学信息。
多轮对话能力：模型能够从真实的咨询对话记录中学习，提升多轮问询的能力。
对齐人类偏好：通过人工筛选与小规模指令样本的构建，模型能够满足患者在咨询过程中对信息丰富性的需求。

该模型在单轮问答和多轮对话的评测中，表现出明显的优势，尤其在主动性和准确性方面。

3. 数据集的构造与训练方法

DISC-Med-SFT数据集的构造过程非常复杂，包含以下几个步骤：

重构真实对话：利用GPT-3.5对医生的回答进行重构，确保回答更具一致性和专业性。
知识图谱问答对：根据医学知识图谱生成QA训练样本，以提高数据质量。
行为偏好数据集：通过对现有数据的人工挑选和优化，构建符合人类行为偏好的数据集，从而增强模型表现。

此外，团队还通过引入通用领域数据以丰富训练集的多样性，确保模型在多种场景下的有效性。

4. 模型评测与对比

在评测过程中，DISC-MedLLM与多个通用和中文医学对话模型进行了比较，包括GPT-3.5、GPT-4、Baichuan-13B-Chat等。在单轮问答中，DISC-MedLLM在零样本设置下排名第三，而在多轮对话中则获得了最高的综合得分，显示出其在医学对话中的强大能力。

评测结果表明，DISC-MedLLM在主动性和准确性方面表现优异，尤其是在面对复杂的多轮对话时，能够主动追问以获取更多信息，提升对患者需求的理解。

5. 未来展望与应用潜力

DISC-MedLLM的推出不仅为患者提供了个性化的医疗服务，还为医疗行业的智能化转型提供了重要支持。通过开源高质量数据集，复旦大学团队希望推动医疗领域的研究与应用，降低在线医疗成本，提高医疗资源的利用效率。

随着技术的不断进步，未来的医疗助手将能够更加精准地满足患者的需求，推动大健康事业的发展。该领域的研究为实现医疗服务的普及和公平提供了更多的可能性。

综上所述，DISC-MedLLM在医学对话领域的创新与突破，展示了大语言模型在实际应用中的巨大潜力，未来将为更多人带来便捷而有效的医疗服务。

文章中提到的AI工具

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

复旦大学团队发布中文医疗健康个人助手，共享47万高质量数据集

1. 医疗助手的挑战与背景

2. DISC-MedLLM的功能与特点

3. 数据集的构造与训练方法

4. 模型评测与对比

5. 未来展望与应用潜力

文章中提到的AI工具

谷歌确认大模型具备顿悟能力，特殊方法可提升模型快速泛化，可能揭开大模型黑箱的秘密

陶哲轩：借助GPT-4，轻松节省半小时编写Python代码

相关AI热点

MLCommons发布大型音频数据集，包含超过百万小时的多语种录音资源

GPT-4 MATH准确率飙升至84.3%！港中文、清华等七所顶尖高校推出创新CSV方法

暂无评论

AI热榜

人工智能热点阅读

700亿参数Llama 2训练速度提升195%！全流程训练/微调/推理方案开源，零代码即可轻松实现

面壁李大海：行业大模型是一个阶段性的历史产物

文心一言上线后，我们对百度搜索的「AI伙伴」进行了评测

马斯克直播特斯拉自动驾驶，居然之家创始人宣布裁掉包括CTO在内的IT部门，首批8个大模型正式上线 | AI一周资讯

微软 Dev Box 正式推出：提升开发者工作效率

DeepMind联创揭秘：GPT-5正在秘密训练，规模比GPT-4大100倍！

NLP七十年回顾：斯坦福教授Manning深度探讨十年后基础模型能否实现AGI

硅谷五大科技巨头工程师年薪揭晓：谷歌年薪高达134万美元，AI工具遭37%美国人持悲观态度

越南特斯拉市值达到7000亿美元

独立游戏因调用ChatGPT被Steam下架，开发者感叹：我的存款与三年半的心血全都消失了

马斯克承认利用X数据训练AI：微软不可用，但我可以使用

盛邀齐聚沈阳，共同助力数字中国建设，CNCC2023新闻发布会在北京盛大举行