Nature：AI击败人类医学专家？科学家：仍需解决4大难题-新闻中心-科技有限公司

Nature：AI击败人类医学专家？科学家：仍需解决4大难题

发布时间：2025-03-27 10:00:29

阅读量：456次

在医学研究和临床治疗中，准确解读医学图像并生成有洞察力的报告对病人的护理是必不可少的，但却给人类临床专家带来了沉重的负担。

人工智能（AI），特别是多模态生成式医学图像解释（GenMI）领域的快速发展，为自动化这一复杂过程的部分工作创造了机会。尽管 GenMI 有望在生成跨学科报告方面达到人类专家水平，但(dàn)仍(réng)在(zài)准(zhǔn)确(què)性(xìng)、透(tòu)明(míng)度(dù)等(děng)方(fāng)面(miàn)面(miàn)临(lín)障(zhàng)碍(ài)。

厘(lí)清(qīng)这些障碍并提出针对性解决方案，对于帮助临床医生改善护理质量、加强医学教育、减少工作量、扩大专业准入并提供(gōng)实(shí)时(shí)专(zhuān)业(yè)知(zhī)识(shi)至(zhì)关重(zhòng)要(yào)。

今天，来自哈佛医学院的研究团队在权威科学期刊 Nature 上发文，全面综述了开发从图像中生成医学报告的 AI 系统方面的进展和挑战(zhàn)。

图(tú)片(piàn)

论(lùn)文链(liàn)接(jiē)：

https://www.nature.com/articles/s41586-024-07618-3

除(chú)了(le)分(fēn)析(xī)医(yī)疗(liáo)报(bào)告(gào)生(shēng)成(chéng)的(de)新(xīn)模(mó)型(xíng)的(de)优(yōu)势(shì)和(hé)应(yīng)用(yòng)之(zhī)外(wài)，他(tā)们(men)倡导一种新的范式，以授权临床医生及其患者的方式部署 GenMI

在临床中发挥 GenMI 的优势

现有的大多数 AI 解决方案都侧重于自动完成医学影像中的单一任务，没有考虑到放射学和临床成像中涉及的更全面的综合分析。

因此，AI 有很大潜力在医学成像和报告方面实现更广泛的用途，例如快速撰写出涉及多科室的权威报告，摄取多种模式和临床数据，生成更加准确、流畅和可解释的报告等。

图｜自动生成医疗报告的应用

目前，医疗报告生成框架主要由视觉编码器和语言解码器组成。其中，编码器将图像中的视觉信息提取为向量表示，而解码器接收一个向量并产生特定的输出。

近年来，科研人员在编码器-解码器方法的基础上不断创新，从而更好地编码图像数据、考虑外部知识、筛选异常等。包括大语言模型（LLM）在内的大型预训练通用 AI 系统，通过推动开发新的 GenMI 解决方案，彻底改变了医学图像解释。

这些 GenMI 方法可以产生更准确的医疗报告，以及使用相同的基础模型执行其他几个下游任务并处理多模态数据。

这些算法大多建立在视觉语言模型（VLM）的基础上，VLM 将单个视觉和语言模型融合到一个统一的框架中，可以对图像和文本输入进行联合编码。

图｜GenMI 的能力

利用 GenMI 协助临床医生和患者，在临床环境中充分发挥它们的优势，可以通过两个范例来理解。

第一个是部署 AI 住院实习医师。AI 住院实习医师首先会专门起草临(lín)床(chuáng)上(shàng)准(zhǔn)确(què)的(de)报(bào)告(gào)，作(zuò)为(wèi)住(zhù)院(yuàn)实(shí)习(xí)医(yī)师(shī)或(huò)医(yī)生(shēng)撰(zhuàn)写(xiě)报(bào)告(gào)的(de)起(qǐ)点(diǎn)。在开发过程中，可以在临床环境中对模型进行前瞻性测试。然后，AI 住院实习医师可以在主治医师的监督下进行微调或校准，并从所需的修正和补充中学习。

图｜部署 AI 住院实习医师

第二个是符合人类偏好。基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO）是应用于此类任务的两种技术。

对话式医疗报告生成模型，使临床医生可以根据需要提供反馈和后续问题，还可以与临床医生合(hé)作(zuò)，通(tōng)过(guò)生(shēng)成(chéng)式(shì) AI 改(gǎi)变输入图像的属性，观察模型预测中的相关差异，并将这些差异与临床医生识别出的突出特征进行比较，从而对 AI 成像工具进行审核，还可以对为患者生成的报告进行调整，使其更直白，包含更少的医学术语，更多围绕患者病情。

总的来说，临床医生可以通过 3 种途径与 AI 系统协作：

利用 AI 模型的诊断能力，获得诊断错误的反馈。模型可以结合多模态输出，其中的解释加上在原始图像上的边界框，可以突出图像中以前可能被忽略的相关区(qū)域；

模(mó)型(xíng)快(kuài)速(sù)解(jiě)析图像和报告的能力，有助于临床医生快速搜索类似病例和图像；

模型可以协助临床医生决策，其提出的探究性问题可以让临床医生深入了解与特定病症相关的诊断模式。

仍需克服 4 大挑战

然而，研究团队表示，要想发挥 GenMI 等 AI 系统的优势，还需要解决基准、人类过度依赖、数据集和模型偏差以及新模型、新科室等挑战。

首先，是基准和评估指标。在安全实施医学报告生成模型，AI 住院实习医师将在住院治疗中发挥更重要的作用之前，必须开展评估下游临床效果的研究，明确(què)衡(héng)量(liàng)标(biāo)准(zhǔn)。

流(liú)行(xíng)的(de) LLM 的(de)性(xìng)能(néng)会(huì)随(suí)着(zhe)时(shí)间(jiān)的(de)推(tuī)移(yí)而(ér)发(fā)生(shēng)显(xiǎn)著(zhe)变(biàn)化(huà)，这(zhè)种(zhǒng)差(chà)异(yì)可(kě)能(néng)会(huì)造(zào)成(chéng)严(yán)重(zhòng)后(hòu)果(guǒ)。例(lì)如(rú)，疾(jí)病(bìng)预(yù)测(cè)模(mó)型(xíng)可(kě)能(néng)会(huì)被(bèi)操(cāo)纵(zòng)以(yǐ)输(shū)出(chū)特(tè)定(dìng)的(de)诊(zhěn)断(duàn)和(hé)结(jié)果(guǒ)测(cè)量(liàng)，从(cóng)而(ér)导(dǎo)致(zhì)处(chù)方(fāng)过(guò)量(liàng)、保(bǎo)险(xiǎn)欺(qī)诈(zhà)和(hé)伪(wěi)造(zào)临(lín)床(chuáng)试(shì)验(yàn)。

因(yīn)此(cǐ)，在(zài)将(jiāng) LLM 作(zuò)为(wèi)人(rén)工(gōng)智(zhì)能(néng)住(zhù)院(yuàn)实(shí)习(xí)医(yī)师(shī)的(de)一(yī)部(bù)分(fēn)进(jìn)行(xíng)部(bù)署(shǔ)时(shí)，必(bì)须(xū)确(què)保(bǎo)采取(qǔ)一(yī)致(zhì)的安全措施和(hé)监(jiān)管(guǎn)。

其(qí)次(cì)，是(shì)临(lín)床(chuáng)医(yī)生和患者的过度依赖。临床医生可能出于对错误问责的模糊性、确认偏差和自动化偏差，过于依赖机器自动化指导等各种原因，不愿意更改 AI 生成报告中的文字，忽略模型无法识别的罕见发现。

虽然 AI 住院实习医师可以让患者直接与真正的临床专家进行交流，但这些交流应该在可控的情况下进行，这样患者就不会依赖 AI 住院实习医师来指导他们的医疗护理。同时，临床医生应向患者传授正确的查询方法，并让他们了解 AI 工具，以便自己进行探索。在部署 AI 住院实习医师的整个过程中，必须承认 AI 系统的局限性，尤其是在直接护理等只有人类才能处理和提供的更广泛的语境、同理心和认知的领域。

然后，是有偏差的数据集和模型。深度学习模型，尤其是 LLM，很容易受到训练数据固有偏差的影响。在 AI 住院实习医师的范例中，这种缺陷尤其容易造成问题，因为模型不仅会在生成的报告中，还会在医学教育和临床医生理解等方面延续这种偏差。

此外，人类的主观反馈是改进 AI 住院医师的关键因素，而这本身就可能造成有偏见的反馈循环。训练数据的(de)质(zhì)量(liàng)、规(guī)模(mó)和(hé)平(píng)衡(héng)也(yě)是(shì)决(jué)定(dìng)模(mó)型(xíng)偏(piān)差(chà)的(de)重(zhòng)要(yào)因(yīn)素(sù)，因(yīn)此(cǐ)亟(jí)需(xū)更(gèng)广(guǎng)泛(fàn)、更(gèng)具(jù)代(dài)表(biǎo)性(xìng)的(de)数(shù)据(jù)集。

目(mù)前(qián)，大(dà)多(duō)数(shù)进(jìn)展(zhǎn)都(dōu)是(shì)由(yóu) MIMIC-CXR 等(děng)数(shù)据(jù)集推(tuī)动(dòng)的(de)，这(zhè)些(xiē)数(shù)据(jù)集仅(jǐn)限(xiàn)于(yú)单(dān)模(mó)态(tài)胸(xiōng)部(bù) X 光(guāng)扫(sǎo)描(miáo)，其(qí)他(tā)数(shù)据(jù)集也(yě)不(bù)平(píng)衡(héng)，除(chú)了(le)配(pèi)对(duì)图(tú)像(xiàng)和(hé)相(xiāng)关报(bào)告(gào)普(pǔ)遍(biàn)不(bù)足(zú)外(wài)，与(yǔ)正(zhèng)常(cháng)扫(sǎo)描(miáo)相(xiāng)比(bǐ)，异(yì)常(cháng)扫(sǎo)描(miáo)要(yào)少(shǎo)得(de)多(duō)，并(bìng)且(qiě)往(wǎng)往(wǎng)会(huì)捕(bǔ)捉(zhuō)到(dào)更(gèng)常(cháng)见(jiàn)的(de)疾(jí)病(bìng)，而(ér)罕(hǎn)见(jiàn)的(de)疾(jí)病(bìng)则(zé)很(hěn)少(shǎo)出(chū)现(xiàn)。异(yì)常(cháng)也(yě)通(tōng)常(cháng)只(zhǐ)局(jú)限(xiàn)于(yú)图(tú)像(xiàng)的(de)一(yī)小(xiǎo)部(bù)分(fēn)，因(yīn)此(cǐ)模(mó)型很难对其进行筛选。

最后，是新的模式和新的科室。目前，将 GenMI 应用于三维成像（包括 MRI 和 CT 扫描）的工作十分有限。部分原因是这一领域缺乏大型标注数据集，只有少数未发布、稀少或难以获取的数据集。

除了三维放射图像，GenMI 还以有限的方式应(yīng)用于其他科室。眼科和皮肤科的报告生成在一定程度上取得了成功，在其考虑中纳入了外部知识和疾病分类等标准技术。尽管纳入新科室和图像类型将扩展 AI 工具的能力，但获取大规模多模态数据集的成本非常高昂，资源充足的公司或有能力收集或授(shòu)权(quán)使(shǐ)用(yòng)这些专有数据集。

自动生成医疗报告在减轻临床负担、扩大专家级临床医疗服务覆盖面方面有广阔前景。GenMI 可以生成更高质量的报告，通过提供交互式(shì)临(lín)床(chuáng)专(zhuān)业(yè)知(zhī)识(shi)授(shòu)权(quán)临(lín)床(chuáng)医(yī)生(shēng)和(hé)患(huàn)者(zhě)，并(bìng)通(tōng)过(guò)扩(kuò)展(zhǎn)教(jiào)育(yù)功(gōng)能(néng)改(gǎi)善(shàn)未(wèi)来(lái)的(de)临(lín)床(chuáng)护(hù)理(lǐ)。

研(yán)究(jiū)团(tuán)队(duì)表(biǎo)示(shì)，在(zài)不(bù)同(tóng)模(mó)式(shì)和(hé)科(kē)室(shì)的(de)临(lín)床(chuáng)环(huán)境中，制定衡量其效果的公开基准、进行持续的临床合作和谨慎的模型验证至关重要，这有助于学术界更透明地(de)衡(héng)量(liàng)报(bào)告(gào)生(shēng)成(chéng)的(de)进(jìn)展(zhǎn)，并(bìng)为(wèi)临(lín)床(chuáng)监(jiān)管(guǎn)机(jī)构(gòu)未(wèi)来的工作提供指导，使其安全有效。

前一篇：中国水周｜人类为水有多拼？科学家的节水“黑科技” 返回列表下一篇：2024年度“中国科学十大进展”发布

官方网站-首页

工业网关

工业互联网平台

工业IoT平台

NEWS CENTER

Nature：AI击败人类医学专家？科学家：仍需解决4大难题

相关新闻

中国“人造太阳”找到突破密度极限方法

听歌时身体的一个小动作，揭穿了大脑的工作真相

向章鱼“取经”，科学家3D打印出能抓蛋黄的水凝胶抓手

云平台应用案例

帮助企业低成本、高效率、专业化建立属于自己的工业互联网平台！