复旦大学团队发布中文医疗健康个人助手,共享47万高质量数据集

复旦大学团队发布中文医疗健康个人助手,共享47万高质量数据集的封面图

随着远程医疗的普及,中文医疗健康个人助手的需求日益增长。复旦大学的数据智能与社会计算实验室(FudanDISC)推出的DISC-MedLLM,利用大语言模型(LLM)技术,旨在为患者提供更为便捷和高效的医疗咨询服务。该助手不仅在问答和对话能力上表现优异,还发布了一个包含47万条高质量数据的开源数据集——DISC-Med-SFT,为未来的医疗领域模型训练提供了重要资源。

1. 医疗助手的挑战与背景

在医疗健康咨询领域,助手需要具备丰富的医学知识,并能够通过多轮对话深入理解患者的意图。然而,现有的通用语言模型在处理医疗问题时,常常因缺乏专业知识而导致回答不准确或不相关。在此背景下,复旦大学团队开发的DISC-MedLLM应运而生,旨在通过高质量的数据集和训练方法,提升模型在医学对话中的表现。

2. DISC-MedLLM的功能与特点

DISC-MedLLM是基于高质量数据集DISC-Med-SFT,在通用中文大模型Baichuan-13B上训练得到的医疗模型。其主要特点包括:

  • 丰富的专业知识:通过医学知识图谱构建对话样本,确保模型在回答时能够提供准确的医学信息。
  • 多轮对话能力:模型能够从真实的咨询对话记录中学习,提升多轮问询的能力。
  • 对齐人类偏好:通过人工筛选与小规模指令样本的构建,模型能够满足患者在咨询过程中对信息丰富性的需求。

该模型在单轮问答和多轮对话的评测中,表现出明显的优势,尤其在主动性和准确性方面。

3. 数据集的构造与训练方法

DISC-Med-SFT数据集的构造过程非常复杂,包含以下几个步骤:

  • 重构真实对话:利用GPT-3.5对医生的回答进行重构,确保回答更具一致性和专业性。
  • 知识图谱问答对:根据医学知识图谱生成QA训练样本,以提高数据质量。
  • 行为偏好数据集:通过对现有数据的人工挑选和优化,构建符合人类行为偏好的数据集,从而增强模型表现。

此外,团队还通过引入通用领域数据以丰富训练集的多样性,确保模型在多种场景下的有效性。

4. 模型评测与对比

在评测过程中,DISC-MedLLM与多个通用和中文医学对话模型进行了比较,包括GPT-3.5、GPT-4、Baichuan-13B-Chat等。在单轮问答中,DISC-MedLLM在零样本设置下排名第三,而在多轮对话中则获得了最高的综合得分,显示出其在医学对话中的强大能力。

评测结果表明,DISC-MedLLM在主动性和准确性方面表现优异,尤其是在面对复杂的多轮对话时,能够主动追问以获取更多信息,提升对患者需求的理解。

5. 未来展望与应用潜力

DISC-MedLLM的推出不仅为患者提供了个性化的医疗服务,还为医疗行业的智能化转型提供了重要支持。通过开源高质量数据集,复旦大学团队希望推动医疗领域的研究与应用,降低在线医疗成本,提高医疗资源的利用效率。

随着技术的不断进步,未来的医疗助手将能够更加精准地满足患者的需求,推动大健康事业的发展。该领域的研究为实现医疗服务的普及和公平提供了更多的可能性。

综上所述,DISC-MedLLM在医学对话领域的创新与突破,展示了大语言模型在实际应用中的巨大潜力,未来将为更多人带来便捷而有效的医疗服务。

文章中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明

相关AI热点

暂无评论

none
暂无评论...