专利 一种基于transformer的指称图像分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210382021.9 (22)申请日 2022.04.13 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路２号 (72)发明人刘芳　孔雨秋　张立和　尹宝才　 (74)专利代理机构辽宁鸿文知识产权代理有限公司 21102 专利代理师隋秀文 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于transformer的指称图像分割方法 (57)摘要本发明属于计算机视觉技术领域，提供了一种基于transformer的指称图像分割方法，对于输入的文本和图像，算法要根据输入的文本来对图像中指定的目标进行分割，算法主要由特征提取、跨模态特征融合、跨层级信息整合三个部分组成。本发明可以在视觉特征提取和跨模态融合阶段提取全局和局部信息，在解码器阶段也可以很好地使不同层级的信息进行有效的整合，从而可以让模型根据文本描述来生成性能更好的分割结果。权利要求书2页说明书5页附图3页 CN 114821050 A 2022.07.29 CN 114821050 A 1.一种基于transformer的指称图像分割方法，该方法共由三部分组成，其特征在于，步骤如下： (1)特征提取阶段将图像和文本分别输入视觉编码器和文本编码器来提取特征；文本编码器采用了预训练的BERT框架，文本描述中的每个单词都会被编码成一个768维的向量；视觉编码器采用了基于transformer的结构，是一个卷积和transformer结合的视觉特征提取器，视觉特征提取器由五个阶段构成，第一个阶段是三个卷积层，第二、三个阶段对应局部transformer 块，第四、五个阶段对应全局transformer块；其中卷积层是用来引入归纳偏置，局部 transformer块用来提取局部的细节特征，全局transformer块用来获取全局的高级语义信息；对于输入的图像，通过不同的线性变换来调整输入特征的维度和分辨率，从而用来获取五个不同层级的特征；对于全局transformer块，其基本结构包括正则化LN、全局自注意力 GMSA和多层感知机 MLP，具体的运算过程如下： z′l＝GMSA(L N(zl‑1))+zl‑1， zl＝MLP(LN(z′l))+z′l，其中， zl‑1表示当前全局transformer块的输入， z ′l表示输入通过GMSA变换的特征， zl表示当前全局transformer块的输出；把式中的GMSA替换成局部自注意力LMSA，即得到局部 transformer块的运算过程；对于全局自注意力，把输入的任意特征Y先经过三个不同的线性变换得到对应的Q、 K和V，线性变换不会改变特征Y的通道数和大小，得到的Q、 K和V的通道数和特征大小是相同的，再来计算自注意力，自注意力的流程如下：其中， C0表示K的通道数， softmax表示对输入进行归一化， T表示求矩阵的转置；局部自注意力也是类似的流程，但其自注意力只发生在特征图中7 ×7的窗口内部，而不是整个特征图；在特征提取阶段，得到五个不同层级的视觉特征，即{Xi， i∈1， 2， 3， 4， 5}，由于后三个层级的特征{X3， X4， X5}包括丰富的语义信息，选取这部分视觉特征来分别与文本特征S在下文的跨模态特征融合阶段进行融合； (2)跨模态特征融合阶段对于输入的文本特征S和视觉特征Xi，先进行级联来得到初步的多模态融合特征Mi，即 Mi＝([Xi， S])W0，其中， W0表示可学习的参数， [ ·]表示级联操作，再通过以下运算流程得到对齐之后的文本特征Li， Ai＝soffmax((SW1)(MiW2)T)， Li＝STAi，其中， W1和W2表示可学习的参数， softm ax表示对输入进行归一化， T表示求矩阵的转置， Ai表示多模态注意力矩阵；初步的多模态融合特征Mi和对齐的文本特征Li被送入跨模态特征融合模块来进一步融合，跨模态特征融合模块也是一个基于transformer的结构，但其中的自注意力MSA被替换权　利　要　求　书 1/2 页 2 CN 114821050 A 2成交叉注意力MCA； MCA和MSA的算法流程非常类似，只是其中Q、 K和V是根据不同的输入进行了变换，即Q是根据文本特征进行的变换，而K和V是根据视觉特征进行的变换；跨模态特征融合模块先使用基于全局交叉注意力G‑MCA的全局交叉transformer 块来获取全局信息，再使用基于局部交叉注意力L‑MCA的局部交叉transformer 块来获取局部的细节信息，基于全局交叉注意力G ‑MCA的全局交叉transformer块、基于局部交叉注意力L ‑MCA的局部交叉 transformer块的基本结构和前文提到的全局transformer块很接近，只有其中的GMSA被分别替换成了G ‑MCA和L‑MCA；在跨模态特征融合阶段，得到三个不同层级的跨模态特征{Fm3， Fm4， Fm5}，为了让网络尽可能保留更多视觉特征的细节信息，在下一个跨层级信息整合阶段让视觉编码器得到的前两层视觉特征{X1， X2}和跨模态特征{Fm3， Fm4， Fm5}进行整合； (3)跨层级信息整合阶段对于编码器阶段得到的视觉或多模态特征{X1， X2， Fm3， Fm4， Fm5}，先用核大小为3 ×3、步长为1的卷积来对这些特征进行降维，得到简化后的特征{Ti， i∈1， 2， 3， 4， 5}，再进一步通过跨层级信息整合模块进行整合；跨层级信息整合模块由四个特征整合操作组成，具体如下：简化后的低层特征Ti先进行上采样，使其和高层特征Ti‑1具有相同的分辨率；使用点乘来使上采样后的低层特征和高层特征进行逐像素相乘，得到过滤后的特征Bi；对于上一次不同层进行特征整合后的特征Di，其中D5＝T5，先进行上采样，使其和Bi有相同的大小，上采样之后的特征Di′再来和过滤后的特征Bi进行点乘，得到提炼后的特征D ′i‑1；本方法使用了残差连接使模型可保留更多的信息，即让整合后的特征Di′和第二次点乘后的特征D ′i‑1进行逐像素相加，来得到该特征整合模块的输出Di‑1；对于最后一个特征整合模块的输出D1，需要再经过头模块来得到最后的分割结果，头模块是由两个卷积层组成，第一个卷积层用来把对应特征图的通道数减少1/2，第二个卷积层输出的通道数为 1，对应了输出的蒙版，再通过双线性上采样来把蒙版的分辨率恢复到输入图像的分辨率，经过sigmoid函数把输出的蒙版进一步限制到(0， 1)的范围，再来和真值计算交叉熵损失函数，其中， yi表示真值， pi表示对分割图进行sigmo id的结果， N表示输入图像像素点的数量。权　利　要　求　书 2/2 页 3 CN 114821050 A 3

专利 一种基于transformer的指称图像分割方法

专利一种基于transformer的指称图像分割方法