人工智能系统在医学影像领域的应用可能对某些人群产生不公平的偏见。在本文中,我们将讨论公平性在这一领域的意义,评论潜在的偏见来源以及可用的缓解策略。最后,我们分析了该领域的现状,找出了优势和不足之处,以及未来面临的挑战和机遇。
随着人工智能(AI)系统在医学图像分析方面的发展呈指数级增长,医院和医疗中心已经开始在临床实践中部署这些工具。这些系统通常由一种称为深度学习(DL)的机器学习(ML)技术驱动。DL方法通过使用具有不同抽象级别的多层处理来学习复杂的数据表示,这对于解决广泛的任务非常有用。在医学图像计算(MIC)的背景下,这些任务的例子包括病理分类、解剖分割、病变划定、图像重建、合成、注册和超分辨率等。虽然与应用于不同MIC问题的DL方法有关的科学出版物数量呈指数级增长,但旨在评估医学AI系统的临床试验最近才开始获得动力。事实上,据美国放射学会统计,迄今为止,美国食品和药物管理局批准的与放射学和其他成像领域相关的AI医疗产品不到200个。
最近,公平性在ML研究领域指出,ML系统可能会对某些子群体产生偏见,这意味着它们对受年龄、种族/族裔、性别、社会经济地位等保护属性定义的不同子群体的表现存在差异。在医疗保健领域,算法对不同人群子群体的潜在不平等行为甚至可以被认为是违背生物伦理原则:正义、自治、善行和不作恶。在这种情况下,促进MIC公平显得尤为重要。然而,这远非易事:确保ML部署公平需要在整个设计、开发和实施途径中解决不同的多个方面。虽然公平性在ML对医疗保健领域的广泛意义最近已经被调查和讨论,但在这里我们关注的是医学成像这一子领域。事实上,在涉及可能让某些子群体受益而损害其他人群的偏见ML系统时,医学成像领域也不例外。接下来我们将评论该领域的最新研究工作,强调有价值的未探索研究领域,讨论潜在挑战和可用策略。
首先,让我们在病人子群体由肤色或种族/族裔定义的背景下考虑一个算法公平的问题。最近,一些关于眼科、胸科和/或心血管病病理的MIC系统性能的文章已经进行了比较。例如,在诊断糖尿病视网膜病变方面,数据中存在严重的不平衡。