

通常情况下,人们使用生成式人工智能,尤其是大型语言模型(LLM),来撰写文章或生成其他类型的文本内容。这些模型依赖于大量的训练数据来模拟人类的写作风格和知识。
一项发表在《英国医学杂志》(The BMJ)上的研究表明,一种特定类型的生成式人工智能,即大型语言模型,可以被用来评估医疗保健信息的质量,特别是那些涉及常见健康问题的信息。
这项研究重点关注了大型语言模型在评估患者就诊信息方面的能力,比较了模型生成的信息与专家评估结果之间的差异。研究人员感兴趣的是,大型语言模型是否能准确评估在线健康信息的质量。
人们通常使用搜索引擎查找健康和医疗建议,但这些建议的质量参差不齐,因此,使用人工智能来评估这些信息的质量变得越来越重要。
为了评估大型语言模型的能力,研究人员使用在线健康论坛中的真实患者问题作为提示,并要求模型判断这些信息的可信度,以及是否包含了有用的健康建议(或缺乏健康建议)的信息,从而评估信息的质量。
在这项特定研究中,研究人员使用了商业可用的大型语言模型,包括OpenAI提供的ChatGPT4和4o,以及Anthropic的Claude3.5“Sonnet”和Alphabet的Gemini 1和1.5。
模型通过分析医疗保健信息和常见健康问题,评估其准确性和相关性,并生成关于信息质量的见解。这包括评估信息是否具有误导性、是否提供支持性建议、以及是否包含有害或不准确的内容。总的来说,超过30个问题,每个问题有26条回复参与了评估。
研究人员将大型语言模型的评估结果与人工评估结果进行比较,以确定模型的准确性。结果显示,这些模型在区分优质信息和劣质信息方面表现出色。
在模型对医疗建议和健康信息的评估中,ChatGPT4o在多个指标上都优于其他模型(从30个问题中抽取26个),特别是与ChatGPT4和Claude相比(从30个问题中抽取25个),Gemini 1.0的得分略低(30个问题中抽取16个)。
鉴于大型语言模型在评估健康论坛中的健康信息和医疗建议方面的有效性,这些模型有可能被用于识别高质量的健康信息(例如,由医疗专业人士提供的信息)以及有害的健康信息(例如,包含不准确建议的信息)。Gemini 在处理具体、细微的信息(比如提供一个清晰的用药方案)时表现出色。
鉴于大型语言模型可以快速、经济地从大量在线信息中筛选出有用和有害的信息,这有助于提高在线健康信息的整体质量。
总之,这些研究结果表明:“在评估在线健康论坛中大型语言模型能否提供高质量信息时,我们应该考虑到这些生成式人工智能,因为它们能够准确评估信息的质量,识别信息中的有用和有害之处——这是对医疗保健信息的可信度进行评估的重要一步。”