研究反映了系统需要监控大型语言模型生成的消息的质量

发布时间:2024-05-22 16:55:05 栏目:精选百科

    导读 麻省总医院布里格姆分校的研究人员进行的一项新研究表明,大语言模型(LLM)是一种生成式人工智能,当用于起草对患者消息的回复时,可能有助...

    麻省总医院布里格姆分校的研究人员进行的一项新研究表明,大语言模型(LLM)是一种生成式人工智能,当用于起草对患者消息的回复时,可能有助于减少医生的工作量并改善患者教育。该研究还发现法学硕士的局限性可能会影响患者的安全,这表明对法学硕士生成的通信进行警惕的监督对于安全使用至关重要。发表在《柳叶刀数字健康》上的研究结果强调了法学硕士实施过程中需要采取审慎的方法。

    行政和文件责任的增加导致了医生倦怠的增加。为了帮助简化和自动化医生工作流程,电子健康记录 (EHR) 供应商采用了生成式人工智能算法来帮助临床医生起草给患者的信息;然而,其使用的效率、安全性和临床影响尚不清楚。

    “生成式人工智能有可能提供‘两全其美’的方案,既能减轻临床医生的负担,又能在此过程中更好地教育患者,”通讯作者、麻省总医院医学人工智能 (AIM) 项目的教员、布莱根妇女医院放射肿瘤科的医生Danielle Bitterman 医学博士说道。“但是,根据我们团队使用 LLM 的经验,我们担心将 LLM 集成到消息传递系统中存在潜在风险。随着 LLM 集成到 EHR 中变得越来越普遍,我们在这项研究中的目标是确定相关的优点和缺点。”

    在这项研究中,研究人员使用了 OpenAI 的基础 LLM GPT-4 来生成 100 个关于癌症患者和随附患者问题的场景。研究中没有使用任何来自实际患者的问题。六位放射肿瘤学家手动回答了这些问题;然后,GPT-4 生成了这些问题的答案。最后,相同的放射肿瘤学家收到了 LLM 生成的答案以供审查和编辑。放射肿瘤学家不知道这些答案是 GPT-4 还是人类写的,在 31% 的案例中,他们认为 LLM 生成的答案是人类写的。

    平均而言,医生起草的答复比法学硕士生成的答复要短。 GPT-4 倾向于为患者提供更多的教育背景,但其说明中的指导性较低。医生报告说,LLM 协助提高了他们的感知效率,并认为在 82.1% 的病例中,LLM 生成的回复是安全的,在 58.3% 的病例中,可以发送给患者,无需任何进一步编辑。研究人员还发现了一些缺点:如果不进行编辑,LLM 生成的响应中 7.1% 可能会给患者带来风险,0.6% 的响应可能会带来死亡风险,最常见的原因是 GPT-4 的响应未能紧急指导患者立即寻求医疗护理。

    值得注意的是,与手动回复相比,法学硕士生成/医生编辑的回复在长度和内容上与法学硕士生成的回复更加相似。在许多情况下,医生保留了法学硕士生成的教育内容,这表明他们认为它很有价值。虽然这可能会促进患者教育,但研究人员强调,鉴于法学硕士已被证明的缺点,过度依赖法学硕士也可能带来风险。

    医疗领域人工智能工具的出现有可能积极重塑护理的连续性,必须在其创新潜力与对安全和质量的承诺之间取得平衡。麻省总医院布里格姆分校在负责任地使用人工智能方面处于领先地位,对新兴技术进行严格研究,为将人工智能纳入医疗服务、劳动力支持和管理流程提供信息。麻省总医院布里格姆目前正在领导一项试点,将生成式人工智能整合到电子健康记录中,以起草对患者门户消息的回复,并在整个卫生系统的一系列流动实践中测试该技术。

    展望未来,该研究的作者正在根据法学硕士已知的算法偏差,调查患者如何看待基于法学硕士的沟通,以及患者的种族和人口特征如何影响法学硕士生成的反应。

    “在医学领域使用人工智能时,让人类参与其中是至关重要的安全步骤,但这不是唯一的解决方案,”Bitterman 说道。“随着医疗服务提供者越来越依赖法学硕士,我们可能会错过可能导致患者受到伤害的错误。这项研究表明,需要系统来监控法学硕士的质量,培训临床医生以适当监督法学硕士的产出,提高患者和临床医生的人工智能素养,并从根本上更好地了解如何解决法学硕士所犯的错误。”

免责声明:本文由用户上传,如有侵权请联系删除!