医学影像人工智能(AI)系统的发展面临着许多挑战。其中,应用人工智能系统来协助完成临床任务是非常具有挑战性的。机器学习算法的目的是减少临床推断所需的时间,但在临床中进行应用,有可能无意中会延误患者的治疗。当离开可控制的实验室环境时,人工智能系统的终端用户必须能够控制输入质量,并且能够解决网络延迟等问题,设计出将这些系统整合到既定临床实践中的方法。

早期对可转换的临床机器学习的尝试表明,设计的系统要在既定的临床工作流程中正常工作,就必须要在算法开发之初就做出大量的整合努力。因为在未来部署该系统时,迭代的机会非常有限。

随着开源机器学习软件库的日益增多和计算机性能的不断进步,研究人员越来越容易开发出复杂的针对特定临床问题的人工智能系统。除了检测疾病诊断的特征外,下一代人工智能系统必须考虑训练数据的系统偏见,更为直观地提醒终端用户预测中固有的不确定性,并允许用户能够探索和解释预测的机制。

该观点以这些关键的优先领域为基础,以加速医学领域的基础人工智能研究。我们概述了数据集的细微差别和高维医学成像机器学习的具体架构注意事项,同时讨论了这些系统的可解释性、不确定性和偏差。在此过程中,我们为有兴趣解决构建临床可翻译 AI 系统,所带来的一些问题和挑战的研究人员提供了一个模板。

高维医学影像数据是构建具有配对临床结果的大规模多中心成像数据集的必要步骤。预计,在可预见的未来,可用的高质量 "AI-ready "注释的医学数据集将仍然不能满足需求。回过头来分配临床事实标签需要临床专家投入大量的时间,而且将多机构的数据汇总起来公开发布也存在很大的障碍。除了需要以在硬放射学真实标签上训练的模型为特征的“诊断人工智能”之外,还需要根据潜在的更复杂的临床综合结果目标训练的 "疾病预测人工智能 "。

大规模的多中心成像数据集会产生许多隐私和责任问题,这些问题与文件中嵌入的潜在敏感数据有关。医学数字成像和通信(DICOM)标准普遍被用来捕获、存储和提供医学图像的工作流程管理。成像文件(以.dcm文件或嵌套文件夹结构的形式存储)包含像素数据和相关元数据。众多的开源和专有工具可以帮助对 DICOM 文件进行去识别化。后端医院信息学框架,如Google Healthcare API,是一种清除可能包含敏感信息的元数据域的方法,也通过 "安全列表 "支持DICOM去标识化。

在面向用户方面,MIRC 临床试验处理器匿名器是一种流行的替代方法,尽管它需要使用某些遗留软件。有据可查的Python软件包(如pydicom)也可用于在使用或转给合作机构之前处理DICOM文件。然后可以提取成像数据并以各种机器可读格式存储。这些数据集可以迅速变得庞大且笨拙,虽然数据存储格式的细节超出了本观点的讨论范围,但医学成像 AI 的一个关键考虑因素是图像分辨率的保留。

自动识别方法或脚本的一个常见缺点是受保护的健康信息可能被“刻录”到影像文件中。尽管有DICOM标准,但由于制造商之间的差异,使得通过诸如MIRC临床试验处理器等工具生成简单规则来屏蔽可能位于受保护健康信息的区域变得困难。因此,我们建议采用一个简单的机器学习系统来屏蔽这种“刻录”的受保护健康信息。

以超声心动图为例,有一个预定义的扫描区域,可以在其中查看心脏。其他潜在的选择是基于机器学习的光学字符识别工具,用于识别和屏蔽包含印刷文本的区域。DICOM标签本身可用于提取扫描级信息和特定模式的标签。例如,在超声心动图和心脏磁共振成像(MRI)的情况下,可以从DICOM元数据中轻松提取关键的扫描级别信息,如采集帧速率、日期或MRI序列(T1/T2)。

图1展示了一个基于云的协作式注释工作流程。基于云的工具可以用于生成专家注释数据集,并通过安全连接与临床专家进行评估。图为MD.ai的一个实施方案,其中临床专家对各种2D检测进行评估以测试心脏功能。

对于涉及人工智能系统与临床医生进行正面基准测试的研究,或在临床注释者的帮助下策划大型数据集的工作,我们建议以DICOM格式存储扫描的副本。这样就可以利用可扩展且易于使用的云端注释工具进行部署。目前有几种解决方案用于分配扫描数据供临床专家评估。需求的范围可能从简单的扫描级标签到详细的特定领域的解剖学分割掩码。在我们机构,我们部署了MD.ai(纽约市),这是一个基于云的注释系统,可以原生处理存储在机构批准的云存储提供商(谷歌云存储或亚马逊AWS)上的DICOM文件。其他类似产品提供类似的功能,如ePadLite(加州斯坦福),它可以免费使用。

基于云的注释方法的另一个优势是,扫描可以保持原始分辨率和质量。这使得实时协作模拟“基于团队”的临床决策成为可能,而注释和标签可以轻松导出以用于下游分析。最重要的是,其中许多工具都可以用任何网络浏览器远程访问,并且操作简便,大大提高了用户体验并减轻了临床合作者的技术负担。

最后,较新的机器学习训练范式,如联邦学习,可能有助于规避许多与数据共享相关的障碍。Kaissis等人审查了联邦学习的原则、安全风险和实施挑战。这种方法的主要特点是在每个机构都训练本地算法副本,唯一共享的信息是神经网络在训练过程中学习到的特征。在预定的时间间隔内,从每个机构的算法中学到的信息(训练的权重)被集中起来并重新分配,高效地从一个大型的多中心数据集中学习,而不需要传输或分享任何医学成像数据。这有助于快速训练算法,从胸部计算机断层扫描中检测COVID-19的特征。

尽管在医学成像领域已经有了联合学习的成功示范,但在将这些方法用于常规临床使用时,仍然存在大量技术挑战。特别是在高维成像机器学习系统的背景下,从多个参与中心传输和更新训练的权重而引入的网络延迟,成为训练更大神经网络的基本速率限制步骤。研究人员还必须确保训练后的权重在参与机构之间的传输是安全和加密的,这进一步增加了网络延迟。此外,在设计研究时,如果不能访问源数据,策划数据集的质量和一致性可能极具挑战性。许多概念上类似的联合学习框架仍然假定对源数据有一定程度的访问。

3

计算架构

现代临床机器学习中使用的神经网络架构,主要来自于那些针对大型照片或视频识别任务28进行优化的架构。即使在细粒度分类的其他挑战性任务中,这些架构也非常稳健,其中类具有微妙的类内差异(狗的品种),而不是具有高类间差异的明显不同对象(飞机与狗)。通过对大型数据集(例如ImageNet)进行充分的预训练,这些 "现成 "架构的性能优于为其量身定做的细粒度分类器。其中许多架构可用于流行的机器学习框架,如TensorFlow和Pytorch。最重要的是,这些框架通常为各种不同的神经网络架构提供ImageNet预训练权重,使研究人员能够迅速将它们重新用于专门的医学成像任务。

不幸的是,绝大多数的临床成像方式都不是简单的静态 "图像"。例如,超声心动图是一种心脏的二维(2D)超声影像。这些 "视频 "可以从多个不同的视角拍摄,从而可以对心脏进行更全面的评估。CT和MRI扫描可以被认为是一堆二维图像,必须按图像顺序进行分析,否则医生有可能错过器官之间沿某一轴线的有价值的关系。

这些视频“成像”模式与视频更相似。将它们视为图像进行拆分分析可能会导致空间或时间背景的丢失。例如,将视频的每一帧作为独立的图像进行分析处理,可能导致每帧视频之间的时间信息丢失。在各种基于超声心动图、CT和MRI扫描的任务中,基于视频的神经网络算法比其2D算法有显著改进,但将多个不同的视图平面整合在一起带来了额外的复杂性,使得将其纳入当前框架变得困难。

与广泛的基于图像的预训练网络库不同,对视频算法的支持仍然有限。对于有兴趣部署新架构的研究人员来说,他们可能需要在大型公开的视频数据集(如Kinetics和UCF101(中佛罗里达大学101-动作识别数据集))上执行预训练步骤。此外,视频网络的训练计算成本可能要高几个数量级。尽管使用大型自然景物数据集进行预训练是开发临床成像机器学习系统的一个公认策略,但不能保证性能提升。关于预训练性能改进的报告很常见,尤其是在使用较小的数据集时,但随着训练数据集的增加,优势逐渐减弱。

根据2018年美国国家卫生研究院的路线图,缺乏特定于医学成像的架构被认为是一个关键挑战。我们进一步探讨并提出训练这些架构的方法,这对于将这些系统转化为现实至关重要。我们认为,下一代高维医学成像AI 将需要对更丰富、更有背景意义的目标进行训练,而非仅仅进行简单的分类标签。

如今,大多数医学成像 AI 系统专注于从正常背景下诊断少数疾病。典型的方法是在训练这些算法时分配一个数字标签(疾病:1;正常:0)。这与临床受训人员学习从成像扫描中诊断不同疾病的方式有很大差别。为了提供更多的 "医学知识",而不是简单地对自然图像或视频进行预训练,Taleb等人提出了一系列新型自我监督预训练技术,利用大型无标签医学成像数据集来协助开发基于3D医学成像的人工智能系统。

神经网络首先通过执行一组 "代理任务"来学习 "描述",作为输入的成像扫描。例如,通过让网络像拼图一样 "重新组合" 输入的扫描数据,它们可以被训练成 "理解" 在各种病理和生理状态下哪些解剖结构是相互一致的。将成像扫描的数据与放射学报告配对是另一个有趣的策略,基于胸部X射线的人工智能系统已经取得了相当大的成功。

医学成像机器学习系统的发展历程和现状是一个非常广泛的话题,涉及到很多方面。以下是我对你提出的问题的一些回答:

医学成像机器学习系统的发展历程可以追溯到上世纪80年代,当时主要是通过人工神经网络来进行图像分类。随着深度学习技术的发展,人工智能技术在医学领域取得了很多突破性进展,尤其体现在医学图像处理方面 。目前,医学影像人工智能是当前临床医学研究的热点,在病变识别、辅助诊断和疗效评估等环节均发挥了重要作用。

关于你提到的“神经网络架构和数据集可以很容易地被替换”,这是因为强大的抽象层(例如,Pytorch Lightning)还允许研究小组建立内部标准,以模块化的形式构建其代码。采用这样的模块化方法,神经网络架构和数据集可以很容易地被替换,有助于快速将过去为临床成像模式设计的系统重新用于新的用例。这种方法也有助于通过以新的方式集成子组件来扩展这些系统的功能。

时间-事件分析是一种生存分析方法,它允许研究人员根据预定的时间预测事件的发生。与二元分类器不同的是,时间-事件分析考虑了数据的删减,以考虑到那些失去随访或在观察时间范围内没有经历相关事件的人。这种方法在临床研究中非常常见,也是制定循证实践指南的核心。

为了扩展传统的生存模型,可以利用基于图像和视频的机器学习技术。这可以为组织切片或医学成像扫描中的特征提供强有力的预后价值洞察力。例如,将Cox比例损失函数的扩展整合到传统的神经网络架构中,使得仅从组织病理学切片中预测癌症结果成为可能。这些视觉网络不应该被用于规定如何进行护理,而应该被视为标记临床医生遗漏晚期恶性肿瘤特征的病例的方法。

随着疾病的发展,时间-事件分析在临床上变得越来越重要,因为在疾病不稳定或早期阶段具有的可检测特征,在一定时间后可能会迅速发展。例如,可诊断为黄斑变性的视网膜特征往往需要数年时间才能表现出来。具有初期疾病特征的患者可能会被标记为“正常”,这让神经网络试图预测未来发生黄斑变性并发症的风险。纳入生存和审查的概念可能有助于训练系统更好地将正常人与那些轻度、中度和正在快速发展中的疾病个体分开。

同样,训练视觉网络进行时间-事件分析可能会在肺癌筛查中发挥作用,有助于根据预期的侵略性扩散潜力进行风险分层。这种转化工作的关键是有强大的、经过充分验证的Cox回归的深度学习扩展。过去几年里,已经描述了大量Cox模型的深度学习实现。Kvamme等人提出了一系列的Cox模型的比例和非比例扩展,过去还描述了更多的生存方法的实现,如DeepSurv和DeepHit46(图2)。

图2展示了量化机器学习输出中的不确定性。正如Sensoy等人所描述的那样,即使在使用标准方法训练的机器学习模型在不正确的情况下也可以非常自信。左图展示了当一个数字被旋转180°时,系统自信地分配了一个从“1”到“7”的标签。然而,使用考虑分类不确定性的方法,系统会分配一个不确定性分数,可以帮助提醒临床医生潜在的错误预测。

从可操作的角度来看,时间-事件预测可能存在问题。在肺癌筛查的假设示例中,胸部计算机断层扫描中的可疑结节可能会产生一个预测,即在有或没有适当的治疗干预的情况下的中位生存率。对临床医生来说,了解机器学习系统对个体病人的预测的有多大的把握可能是很有意思的。当对一项任务没有把握时,人类往往会谨慎行事。机器学习系统也反映了这一点,其中输出是 0 到 1 范围内的“类别概率”或“正确的可能性”。然而,目前文献中描述的大多数医学影像机器学习系统,当提供给模型的输入数据超出分布范围时,缺乏说 “我不知道” 的隐含能力。例如,即使输入图像是猫的图像,训练用于从计算机断层扫描(例如)预测肺炎的分类器在设计上也被强制提供输出 (肺炎或非肺炎)。

Sensoy等人在他们的论文中提到了解决这些问题的方法:用一系列损失函数来分配不确定性分数,以此来避免错误的、但有把握的预测。在项目的转化阶段,当人工智能系统被部署在与人类用户一起工作的环境中时,不确定性量化就可以发挥作用了。AlphaFold2是一个蛋白质折叠机器学习系统,它在第14届蛋白质结构预测关键评估(CASP14)挑战中取得了无与伦比的准确性,给 DeepMind 研究团队提供了一种方法来衡量他们应该对正在生成的预测给予多大的信任。许多不确定性量化方法都是基于许可并且兼容常用机器学习框架实现的。纳入不确定性量化可能有助于提高高风险医学成像机器学习系统的可解释性和可靠性,并减少自动化偏差的可能性。

除了量化某些机器学习系统的预测效果外,对于构建这些系统的工程师和使用它们的临床医生来说,他们更感兴趣的是了解这些机器学习系统是如何得出结论的。显著性图和类激活图实际上仍然是解释机器学习算法如何进行预测的标准。

近期,Adebayo等人的研究表明,仅仅依赖于显著性图的视觉外观可能会产生误导,即使乍一看它们与背景相关。在一系列广泛的测试中,他们发现许多流行的生成事后显著性图的方法并没有从模型权重中获得真正的意义,而是与 "边缘检测器"(一种简单映射像素强度之间的尖锐过渡区域的算法)没有区别。此外,即使这些可视化方法奏效,除了机器学习算法正在寻找的 "位置" 之外,也几乎无法破译。在很多示例中,无论是正确还是错误的显著性图看起来几乎是一样的。当 "患病"状态和 "正常"状态之间的差异需要关注图像或视频的同一区域时,这些缺点就更加明显了。

图3展示了事后模型解释的误导性。a部分显示了Adebayo等人用MNIST数据集的真实标签训练的模型(上)和随机噪声训练的模型(下)进行的实验。当通过大多数可视化方法进行评估时,在随机噪声上训练的模型仍然产生圆形形状。b部分展示了超声心动图视图平面的检测:错误的分类(左上)和正确的分类(右上)都产生类似的显著性图(下)。

临床医生应该注意,仅靠热图不足以解释 AI 系统的功能。在尝试用如上图所示的可视化方法来识别故障模式时,必须谨慎。一个更精细的方法可能涉及到连续遮挡测试,即在有意掩盖临床医生用来进行诊断或预测的区域后,评估图像的性能。这个想法非常直观:在已知对诊断某种疾病很重要的区域被遮蔽的图像上运行算法,例如,在试图诊断心力衰竭时遮蔽左心室,应该可以看到性能的急剧下降。这有助于确认人工智能系统正在关注相关领域。特别是在高维医学成像研究的背景下,激活图可能为视频类成像研究的某些时间阶段的相对重要性提供独特的见解。例如,某些疾病可能在心脏收缩时表现出病理特征,而对于其他疾病可能需要人们关注心脏放松时的情况。通常这样的实验可能表明,机器学习系统从临床医生传统上不会使用的图像区域中识别出潜在的信息特征。除了收集关于这些机器学习系统如何产生其输出的信息外,严格的可视化实验可能提供一个独特的机会,可以从被评估的机器学习系统中学习生物学的见解。

另一方面,激活与临床上已知的重要区域的偏差可能预示着网络正在学习非特异性的特征,使它们不太可能很好地归纳到其他数据集。

机器学习系统的特征可能取决于架构的设计。更重要的是,机器学习系统会根据提供给它的训练数据和目标来学习和延续系统性的不平等。随着医疗保健人工智能系统不断向未来的疾病预测发展,必须更加谨慎地考虑到这些群体在获得医疗保健和结果方面的巨大差异。

在最近的评论中,Chen等人深入概述了从问题选择到部署后阶段的潜在偏差来源。在这里,我们重点讨论机器学习系统开发早期的潜在解决方案。一些人主张用一些方法来解释现代机器学习系统的其他 "黑箱" 预测,而其他人则主张一开始就限制使用更可解释的模型。除了在训练整个 AI 系统时结合结构化数据的输入之外,中间方法还涉及使用黑盒模型训练医学成像神经网络。

这可以通过建立 "融合网络" 来实现,其中表格数据被合并到基于图像或视频的神经网络中,或其他具有相同基本目标的更先进的方法(生成组合数据的低维表示的自动编码器)。即使没有将人口统计学输入纳入高维视觉网络,研究小组通过比较不同性别、种族、地域和收入群体的表现来审核他们的模型也很重要。

机器学习系统可能会无意中学会进一步延续和歧视少数民族和有色人种,因此在模型开发过程的早期了解这种偏见是至关重要的。对机器学习系统的信任对于更广泛的采用至关重要,正如探索特定的特征或变量如何以及为什么会导致预测一样,通过结合显著性图和估计特征重要性的模型无关的方法。

另一种方法是在训练逻辑中限制机器学习算法,确保发生优化步骤以控制感兴趣的人口统计学变量。这类似于多变量回归模型,其中感兴趣的风险因素的影响可以独立于基线人口统计学变量来研究。从技术角度看,这将涉及到在训练循环中插入一个额外的惩罚性损失,并牢记与稍低的模型性能的潜在权衡。例如,Fairlearn 是用于评估传统机器学习模型公平性的流行工具包,并且已经开发了基于 Fairlearn 算法 (FairTorch) 的约束优化,这是在训练过程中整合偏差调整的有希望的探索性尝试。有许多开源工具包可以帮助研究人员确定不同变量和输入流(图像预测,以及诸如性别和种族等变量)的相对重要性。这些技术可能允许开发更公平的机器学习系统,甚至可以发现没有预料到的隐藏偏见。

尽管计算架构和获取高质量数据是构建良好模型的关键,但在为高维成像模式开发可转换的机器学习系统方面仍需努力,以更好地代表数据的"视频"性质。此外,在模型开发的早期阶段建立有助于解决偏见、不确定性和可解释性的功能也至关重要。对医学成像和人工智能的质疑是有益的,而且在大多数情况下具有一定道理。

我们希望,通过建立允许研究人员评估临床表现、医院工作流程中的整合、与临床医生的互动以及社会人口伤害的下游风险的功能,可以在改善人工智能的交付方面迈出有意义的步伐。这一观点旨在概述在临床部署方面等待研究人员的潜在挑战,并为解决其中一些问题提供指导性建议。

推荐阅读:雷峰网(公众号:雷峰网)