最大规模评测!通用AI大模型Segment Anything在医学影像分割的性能究竟如何?

2023-05-19 13:22 851 阅读 ID:1073
磐创AI
磐创AI

本期为您推荐一篇医学图像分析领域的最新研究成果:

近半年来,ChatGPT、DALL·E等引发了大规模基础AI模型的狂潮。4月初,Meta AI 发布第一个用于图像分割的大规模基础模型Segment Anything Model (SAM)。SAM最大的亮点是它对未知的数据集和任务具有良好的零样本(zero-shot)分割性能。分割过程可全自动(Everything模式)或由不同的手工提示(Prompt模式)驱动,例如,文字、点和方框。

虽然SAM在各种自然图像分割任务上取得了令人印象深刻的结果,但医学图像分割由于多样的成像模式、精细的解剖结构、不明确且复杂的边界以及广泛的物体尺度等而具有极大的挑战性,其在大型医学影像数据集上的表现还有待验证。深圳大学生物医学工程学院倪东教授智能超声团队联合苏黎世联邦理工学院、深圳市人民医院、浙江大学和深圳度影医疗科技等单位整理了一个有55.3万张图像,包含16种影像模态、68种生物医学领域分割目标的超大规模医学影像分割数据集COSMOS 553K,并基于该数据集率先对SAM进行了全面、多角度、大规模的细致评估,旨在促进医学影像分析的发展,并回答一个重要问题:SAM对医学影像分割的性能究竟如何?

数据集展示

为了全面评估分析SAM在医学影像分割上的表现,团队收集并标准化了52个公共数据集,最终整理构建了一个包含16种影像模态和68种生物医学领域分割目标(表1)的大型医学影像分割数据集COSMOS 553K,数据集的展示见图1,统计信息见图2。

    表1 COSMOS 553K包含的分割目标。H:头颈部;C:胸部;A:腹部;P:盆部;B:骨头;O:其它。
图1 COSMOS 553K涵盖了大多数医学影像模态和生物医学领域分割目标。例如,脑肿瘤、眼底血管、甲状腺结节、脊柱、肺、心脏、腹部器官或肿瘤、细胞、息肉和手术仪器等。人体图像来自Freepik,作者为brgfx(网址https://www.freepik.com/free-vector/anatomical-structure-human-body 27539420.htm)。
图2 COSMOS 553K的统计信息。(a)收集到的公开数据集处理后的数据量;(b)目标类别的直方图分布;(c)影像模态的直方图分布;(d)图像分辨率的直方图分布。

方法展示

SAM提供不同类型的分割提示Prompt,包括点和方框等。点的提示包括表示前景的正样本和表示背景的负样本点。方框表示需要分割的物体的区域。我们的测试策略包括Everything模式:自动分割 (S1H, S1B)以及Prompt模式:单个正样本点 (S2)、五个正样本点 (S3)、五个正样本点和五个负样本点 (S4)、单个方框 (S5)、单个方框和单个正样本点(S6),图3展示了我们设计的SAM测试框架。

                                                           图3 本研究设计的SAM详细测试框架。<br>

结果分析

本研究全面地评估了SAM的各种模式在大规模、多样化的医学影像数据集上的分割性能,DICE指标评估结果如图4所示。

                          图4 不同测试策略的DICE箱线图。从上到下:S1H、S2、S3、S4、S5、S6。

基于实验分析,我们的主要结论如下:

  • Everything模式不适用于大多数医学影像分割任务。在这种模式下,SAM对医学分割目标的感知能力较差,会输出大量的假阳性预测掩膜(图5)。
  • 在Everything模式下,作为提示的网格采样点数量会在一定程度上影响分割性能,如图6所示。这是一个分割性能和测试效率的权衡。
  • 在Prompt模式下,加入更多前景点可显著提高SAM的分割结果。但医学影像中的前景和背景很容易混淆,随机加入负样本点可能会引起分割性能下降。此外,方框提示(S5)包含丰富的物体位置信息。因此,在我们的研究中,方框提示在大多数医学分割任务中比点提示表现好。在目前的研究中,混合策略(同时加入点提示和方框提示)的性能没有明显提升。这可能与SAM对混合提示的编码能力有关。图7和图8展示了SAM在各种测试策略下的可视化结果。
  • 分割目标的不同属性可能影响SAM对医学分割目标的感知能力。特别是,SAM可能会对具有复杂形状、小面积或低对比度的目标分割效果不好。图9展示了DICE与目标的不同属性之间的关系。
                                                           图5 Everything模式的可视化结果。
                                            图6 Everything模式下网格采样点数量对分割性能的影响。
                                                                  图7 典型的SAM良好案例。
                                                                      图8 典型的SAM失败案例。
                                                            图9 DICE与目标不同属性的散点图。

总的来说,尽管SAM有可能成为一个通用的医学影像分割模型,但它在医学影像分割任务中的表现目前还不稳定。因此,未来的研究重点应该在如何有效地使用少量医学影像来微调SAM以提高模型的可靠性,搭建属于医学影像的Segment Anything模型。此外,拓展3D-SAM, 并探索其对三维容积数据的分割性能也是一个有趣的方向。我们希望这份报告能较为详尽地帮助读者和社区更好地了解SAM在医学影像分割中的性能优劣,并最终促进新一代医学影像分割基础大模型的发展。

真诚感谢所有公开数据集的组织者和所有者的开源贡献,我们也将筹备开源所整理的数据集,以促进领域和社区发展。同时,也非常感谢Meta AI公开发布了SAM的源代码。

源码链接:https://github.com/facebookresearch/segment-anything

来自深圳大学生物医学工程学院智能超声实验室(MUSIC Lab)的博士研究生黄雨灏、陈超宇,硕士研究生刘恋、周涵、常澳、周心睿、刘思菁和本科生陈汝锶、余俊轩、陈炯权深度参与了本次研究。

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn