谷歌用深度学习协助病理学家检测癌症,准确率在89%

病理学家通过检查患者生物组织样本之后所做的检查报告, 通常是许多疾病诊断的黄金标准。尤其是癌症,病理医生的诊断对患者来说意义重大。但是病理切片的审查是一项非常复杂的任务,需要多年的培训才能获得专业知识和经验,所以病理医生数量远远不能满足需求。

就算是经过严格训练的病理医生,他们对同一个患者的诊断也存在差异性,这种差异性是造成误诊的重要原因。例如,医生对某些形式的乳腺癌和前列腺癌的诊断一致性低至48%,另外缺乏一致性并不奇怪,因为要想做出准确的诊断,医生必须得到大量的检查信息。

通常情况下,病理医生负责审查病理切片上可见的所有生物组织,但是每个患者有很多病理切片,在进行 40 倍放大时每个切片都有 100 多亿的像素(10+gigapixels)。想象一下要浏览 1000 多个百万像素的图片,还要为每个像素负责。这需要阅读大量的数据,但是医生的时间往往是不够的。

为了解决有限的时间和诊断准确性的问题,我们正在研究如何将深度学习应用在数字病理学,听过创建一个自动检测的算法,来辅助病理医生工作。我们使用由 Radboud 大学医疗中心提供的图像训练算法,这些训练数据也曾被用于 2016 年 ISBI Camelyon 挑战赛, 该算法经过优化可用来确定是扩散到淋巴结的乳腺癌还是扩展到临近乳房的乳腺癌 。

结果呢?标准的“现成的”深度学习方法,如Inception(也称为GoogLeNet)对于这两个任务工作得相当好,尽管产生的肿瘤概率预测热图有点嘈杂。在额外定制之后,包括训练神经网络在不同放大倍数的图像上进行试验(很像病理学家所做的),都可以用来检查图像。

左:来自两个淋巴结活检的图像。中期:之前深入学习检测肿瘤的结果。右:当前结果,可看到两者之间噪声(潜在的假阳性)的减少。

事实上,由该算法产生的预测热图已经改善了很多,使得该算法的定位得分(FROC)达到89%,这显著超过没有时间约束的病理学家诊断得分73%。我们不是唯一个看到好结果的团队,其他团队在同一数据集中也获得高达81%的分数。

更令人兴奋的是,我们的模型非常好,甚至是从不同的医院使用不同的扫描仪获得的图像。有关详细信息,请参阅我们的论文《Detecting Cancer Metastases on Gigapixel Pathology Images》。(《在千兆像素病理图像上检测癌症转移》)

淋巴结活检的特写。组织包含乳腺癌转移以及巨噬细胞,其看起来与肿瘤相似,却是良性正常组织。我们的算法成功识别肿瘤区域(亮绿色),不被巨噬细胞混淆。

革命尚未成功,以下几点仍需注意

像大多数指标一样,FROC本地化分数并不完美 。FROC分数定义为,在每个载玻片的几个预设定的平均假阳性的灵敏度(所检测的肿瘤的百分比)。病理学家很少做假阳性(把正常细胞作为肿瘤)。例如,上述73%的得分对应于73%的灵敏度和零假阳性。相比之下,当允许更多的假阳性时,我们的算法的灵敏度增加。在每张幻灯片8个假阳性,我们的算法具有92%的灵敏度。

这些算法在之前的训练的过程中表现很好,但缺乏人类病理学家的知识和经验的广度例如,这些算法并不具备识别其他不正常情况的能力,而之前没有详细训练过该模型对这些情况进行分类(例如炎症过程,自身免疫疾病或其他类型的癌症)。

为了确保最佳临床结果,这些算法需要补充病理学家的工作流程,逐渐完善。我们设想我们这样的算法可以提高病理医生的效率和一致性。例如,病理学家可以通过检查排名最靠前的预测肿瘤区域(包括每个载玻片多达8个假阳性区域)来降低其假阴性率(未检测到的肿瘤的百分比)。另一个例子这些算法能够让病理学家简单而准确地测量肿瘤大小,这一因素与预后 (prognosis) 有关。

培训模型只是研究成果转化为真实产品第一步。从临床验证到监管批准,我们还有很长的路要走,但我们已经开始了第一步,我们希望通过分享我们的工作,加快在这个领域的进步。

 

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部