首个将分割一切(SAM)模型在下游任务适应调优!魔芯科技SUTD多单位合作
本文介绍一篇分割一切模型(Segment Anything, SAM模型)的最新工作,由魔芯科技,浙江大学,新加坡科技设计大学(SUTD),湖州大学等多单位合作完成。这项研究成果开辟了利用大型预训练图像模型在不同领域和工业应用中进行各种下游分割任务研究的新时代。它为研究人员和从业者提供了有价值的见解,展示了如何利用内部知识和外部控制信号来适应预训练模型,以在具有挑战性的任务中实现最先进的性能。这篇文章发表在国际计算机视觉领域权威期刊上,对于人工智能领域的研究人员和从业者来说是一篇不可错过的重要论文。它提供了有价值的见解,展示了如何利用内部知识和外部控制信号来适应预训练模型,以在具有挑战性的任务中实现最先进的性能。此外,该研究成果还为医学图像处理、农业、遥感等领域的应用提供了新的思路和方法。 人工智能研究已经见证了一个由大规模海量数据上训练的模型所带来的范式上的转变。这些模型,或称为基础模型,如BERT、DALL-E和GPT-3,已经在许多语言或视觉任务中显示出有优秀的结果。 最近,在这些基础模型中,Segment Anything(SAM)作为一个在大型视觉语料库上训练的通用图像分割模型取得了显著的突破。事实证明,SAM在不同的场景下具有成功的分割能力,这使得它在图像分割和计算机视觉的相关领域迈出了突破性的一步。 然而,由于计算机视觉包含了广泛的问题,SAM的不完整性是显而易见的,这与其他基础模型类似,因为训练数据不能包含整个语料库,工作场景也会有变化。在本研究中,作者首先在一些具有挑战性的低层次结构分割任务中测试SAM,包括伪装物体检测(隐蔽场景)和阴影检测,作者发现在一般图像上训练的SAM模型在这些情况下不能完美地 "分割任何东西",包括影子检测、伪装物体检测等领域。 因此,一个关键的研究问题是:如何高效利用大型模型从大规模语料库中获得的能力,并利用它们使下游的任务受益? 在这项工作中,来自魔芯科技,浙江大学,新加坡科技设计大学等机构的研究者提出了SAM-adaptor,它是一个针对上述研究问题的优秀解决方案。这项开创性的工作首次尝试将大型预训练的图像分割模型SAM适应于特定的下游任务,并提高其性能。正如其名,SAM-adaptor是一种非常简单而有效的适应技术,可以同时利用来自大模型的内部知识和针对下游任务设定的外部控制信号。在该方法中,信息是通过视觉提示传达给网络的,这已被证明在用最少的额外可训练参数将一个冻结的大基础模型适应许多下游任务方面是高效和有效的。 ![]() 图:SAM-Adaptor 在伪装物体检测上的性能测试。 图:SAM-Adaptor 在影子检测上的性能测试。 这项工作率先证明了大规模海量数据训练给SAM带来的特殊能力,即以显著的准确性转移到其他特定数据领域的能力。作者在影子检测、伪装物体检测等任务的数据集上实现了超过已有算法的高性能表现。虽然研究者只在几个数据集上进行了测试,但他们相信SAM-adaptor可以作为一个有效的、可适应的工具,用于不同领域的各种下游分割任务,包括医学和农业。这项研究将开创一个在不同研究领域和工业应用中利用大型预训练图像模型的新时代。 |
网友评论