AI热点 5小时前 181 阅读 0 评论

麻省理工研究:即便建议有误,患者仍更信任AI的医疗建议而非医生

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

‍‍‍‍美国正面临医生短缺危机。在权威期刊《新英格兰医学杂志》10月刊中,哈佛医学院教授Isaac Kohane提到,马萨诸塞州是美国人均医生数量最多的州,但该州多家大型医院已拒绝接收新患者。

Kohane写道,数据显示这一情况只会愈发严峻。因此,“无论是出于绝望、失望还是好奇,已有大量患者开始使用AI获取医疗建议,包括二次诊断意见,有时甚至带来了显著的治疗效果。”

对于人们愈发倾向于通过ChatGPT等生成式AI系统寻求医疗建议的趋势,医疗界既感兴趣,又略带担忧。

他们确实应该担忧,因为人们似乎更倾向于相信机器人给出的医疗建议,而非医生,哪怕机器人给出的建议“质量不高”

01.

测试人们对AI生成医疗建议的看法

6月,《新英格兰医学杂志》发表了一项题为《即便准确性低,人们仍过度信任AI生成的医疗建议》的研究。麻省理工学院媒体实验室、斯坦福大学、康奈尔大学、波士顿贝斯以色列女执事医疗中心及IBM的研究人员Shruthi Shekar与团队,通过OpenAI早期的GPT-3模型,测试了人们对AI医疗建议的反应。

Shekar团队从健康网站HealthTap提取了150个医疗问题,并用GPT-3生成答案。研究人员招募了一组医生为AI答案的准确性打分,对每个答案标注“正确”、“错误”或“不确定”。

随后,团队整理出三组数据集,每组包含30个问答对:第一组是医生的实际回复,第二组是“高准确性AI回复”(即医生大多判定为正确),第三组是“低准确性AI回复”(即医生大多判定为“错误”或“不确定”)。

研究团队开展了三项实验:

在实验一中,研究人员从Prolific网站在线招募100名受试者,向其随机展示90组问答对中的10组,不告知来源是医生还是AI。研究人员要求受试者以1-5分制评估自己对问答对的理解程度,并判断该内容来源是人类还是AI的确定性。

在实验二中,另一组100名受试者需评估答案是否“有效”,并通过选择题回答自己是否愿意遵循给出的医疗建议,但该组同样未被告知内容来源是医生还是AI。

内容的来源标签是随机分配的,这意味着受试者可能会将AI撰写的内容误认为是医生所写,或认为是医生借助AI完成的。

02.

人们分辨不出是AI给出的建议

研究人员随后分析了受试者在每项实验中的表现。

在实验一中,受试者在猜测问答对是来自人类还是人工智能时表现不佳,实际上他们的猜测准确率与随机猜测相差无几

当被要求判断医疗回复的来源(医生撰写或AI生成)时,受试者对“医生回复”的来源判断准确率平均为50%,对“高准确性AI回复”的判断准确率为53%,对“低准确性AI回复”的判断准确率为50%。

即使答错了,人们也非常自信。Shekar团队指出,尽管受试者判断表现不佳,但他们对自己“区分AI与人类回复”的准确性深信不疑。“受试者判断正确与错误时的自信程度,并无显著差异。”

在实验二中,受试者认为“AI生成的回复比医生回复更有效”,甚至“低准确性AI回复”与“医生回复”的表现也非常接近。

需注意的是,这些“低准确性AI回复”是医生判定为“错误”或至少“可能不准确”的内容。

可信度方面也呈现类似趋势:受试者认为“AI回复的可信度显著高于医生回复”,且“对三类回复(即高准确性AI、医生、低准确性AI)的遵循意愿相对一致”。

03.

人们会被引导相信AI就是医生

在实验三中,研究人员随机标注内容来源(AI、医生、医生借助AI),结果显示“医生”标签对受试者影响极大。“当标注为‘此医疗问题回复由医生提供’时,与回答标注为来自AI的情况相比,受试者倾向于认为高准确性AI生成的回答明显更可信。”

事实证明,就连医生也可能被误导。在后续测试中,Shekar团队让医生评估问答对,部分告知来源,部分不告知。

若告知来源,医生会“认为AI生成回复的准确性显著更低”;若不告知来源,“他们对准确性的评估则无显著差异”。研究人员称,这表明医生自身也存在偏见。

综上,在医疗建议领域,普通人甚至医生都无法区分内容来自AI还是人类。且总体而言,普通人对AI回复的信任度高于医生,即便AI回复质量不高甚至有误也是如此。更值得注意的是,若引导他们相信回复来自医生,这种信任度还会进一步提升。

04.

信任AI建议的风险

Shekar及其团队对此深感担忧:“无论准确性如何,受试者均无法区分AI生成回复与医生回复的质量;同时,他们对‘低准确性AI回复’的评价极高,认为其与医生回答相比不相上下,甚至更胜一筹。这构成了令人担忧的威胁……在这种危险场景下,不准确的AI医疗建议可能被视为与医生建议同样可信。当不知道回复来源时,受试者愿意信任、认可AI生成的建议,甚至依据其采取行动,就像对待医生建议一样,即便AI回复中包含不准确信息。”

Shekar团队总结称,“专家监督至关重要,既要最大化AI的独特能力,也要最小化风险”,这包括明确告知建议的来源。研究结果还表明,将AI整合到医疗信息传递中,需要比此前设想的更细致的方法

然而,结论变得更为复杂,因为具有讽刺意味的是,在实验三中,若受试者认为回复来自“借助AI的医生”,他们的评价就不那么积极了。研究人员指出,这一事实让“结合AI全面回复与医生信任度”的理想解决方案变得更加复杂。

05.

探索AI对医疗的帮助

可以肯定的是,有证据表明,若由医生使用,AI在诊断等任务中可发挥辅助作用。

去年12月,《自然・医学》发表了一项由斯坦福大学生物医学信息学研究中心及合作机构开展的研究。该研究在模拟环境(非真实患者)中测试了医生在使用GPT-4或传统医生资源诊断病情时的表现。该研究对人工智能持非常积极的态度。

研究主要作者Ethan Goh及团队写道:“使用大语言模型的医生,其诊断得分显著高于使用传统资源的医生。”

综合所有研究来看,若人们倾向于信任AI,且AI已被证明在某些情况下能帮助医生,那么医疗领域下一步需要应对的,便是AI在实际应用中究竟能带来帮助还是危害。

正如哈佛教授Kohane在其评论文章中所言,最终关键在于医疗质量,以及AI是否能提供帮助

“对于AI,我们难道不应该将患者使用这些程序所取得的健康结果与我们当前基层医生短缺的系统所取得的结果进行比较吗?”

原文来源于:

1.https://www.zdnet.com/article/patients-trust-ais-medical-advice-over-doctors-even-when-its-wrong-study-finds/

中文内容由元宇宙之心(MetaverseHub)团队编译。

本文来自微信公众号“元宇宙之心MetaverseHub”,作者:元宇宙之心,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!