说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210382021.9 (22)申请日 2022.04.13 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2 号 (72)发明人 刘芳 孔雨秋 张立和 尹宝才  (74)专利代理 机构 辽宁鸿文知识产权代理有限 公司 21102 专利代理师 隋秀文 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于transformer的指称图像分割方法 (57)摘要 本发明属于计算机视觉技术领域, 提供了一 种基于transformer的指称图像分割方法, 对于 输入的文本和图像, 算法要根据输入的文本来对 图像中指定的目标进行分割, 算法主要由特征提 取、 跨模态特征融合、 跨层级信息整合三个部分 组成。 本发 明可以在视觉特征提取和跨模态融合 阶段提取全局和局部信息, 在解码器阶段也可以 很好地使不同层级的信息进行有效的整合, 从而 可以让模型根据文本描述来生成性能更好的分 割结果。 权利要求书2页 说明书5页 附图3页 CN 114821050 A 2022.07.29 CN 114821050 A 1.一种基于transformer的指称图像分割方法, 该方法共由三部分组成, 其特征在于, 步骤如下: (1)特征提取阶段 将图像和文本分别输入视觉编码器和文本编码器来提取特征; 文本编码器采用了预训 练的BERT框架, 文本描述中的每个单词都会被编码成一个768维的向量; 视觉编码 器采用了 基于transformer的结构, 是一个卷积和transformer结合的视觉特征提取器, 视觉特征提 取器由五个阶段构成, 第一个阶段是三个卷积层, 第二、 三个阶段对应局部transformer 块, 第四、 五个阶段对应全局transformer块; 其中卷积层是用来引入归纳偏置, 局部 transformer块用来提取局部的细 节特征, 全局transformer块用来获取全局的高级语义信 息; 对于输入的图像, 通过不同的线性变换来调整输入特征的维度和分辨率, 从而用来 获取 五个不同层级的特征; 对于全局transformer块, 其基本结构包括正则化LN、 全局自注意力 GMSA和多层感知机 MLP, 具体的运 算过程如下: z′l=GMSA(L N(zl‑1))+zl‑1, zl=MLP(LN(z′l))+z′l, 其中, zl‑1表示当前全局transformer块的输入, z ′l表示输入通过GMSA变换的特征, zl表 示当前全局transformer块的输出; 把式中的GMSA替换成局部自注意力LMSA, 即得到局部 transformer块的运算过程; 对于全局自注意力, 把输入的任意特征Y先经过三个不同的线 性变换得到对应的Q、 K和V, 线性变换不会改变特征Y的通道数和大小, 得到的Q、 K和V的通道 数和特征大小是相同的, 再来计算自注意力, 自注意力的流 程如下: 其中, C0表示K的通道数, softmax表示对输入进行归一化, T表示求矩阵的转置; 局部自 注意力也是类似的流程, 但其自注意力只发生在特征图中7 ×7的窗口内部, 而不是整个特 征图; 在特征提取阶段, 得到五个不同层级的视觉特征, 即{Xi, i∈1, 2, 3, 4, 5}, 由于后三个层 级的特征{X3, X4, X5}包括丰富的语义信息, 选取这部 分视觉特征来分别与文本特征S在下文 的跨模态特 征融合阶段进行融合; (2)跨模态特 征融合阶段 对于输入的文本特 征S和视觉特征Xi, 先进行级联来得到初步的多模态融合特 征Mi, 即 Mi=([Xi, S])W0, 其中, W0表示可学习的参数, [ ·]表示级联操作, 再通过以下运算流程得到对齐之后的 文本特征Li, Ai=soffmax((SW1)(MiW2)T), Li=STAi, 其中, W1和W2表示可学习的参数, softm ax表示对输入进行归一化, T表示求矩阵的转置, Ai表示多模态 注意力矩阵; 初步的多模态融合特征Mi和对齐的文本特征Li被送入跨模态特征融合模块来进一步融 合, 跨模态特征融合模块也是一个基于transformer的结构, 但其中的自注意力MSA被替换权 利 要 求 书 1/2 页 2 CN 114821050 A 2成交叉注 意力MCA; MCA和MSA的算法流程非常类似, 只是其中Q、 K和V是根据不同的输入进行 了变换, 即Q是根据文本特征进行的变换, 而K和V是根据视觉特征进行的变换; 跨模态特征 融合模块先使用基于全局交叉注 意力G‑MCA的全局交叉transformer 块来获取全局信息, 再 使用基于局部交叉注 意力L‑MCA的局部交叉transformer 块来获取局部的细 节信息, 基于全 局交叉注意力G ‑MCA的全局交叉transformer块、 基于局部交叉注意力L ‑MCA的局部交叉 transformer块的基本结构和前文提到的全局transformer块很接近, 只有其中的GMSA被分 别替换成了G ‑MCA和L‑MCA; 在跨模态特征融合阶段, 得到三个不同层级的跨模态特征{Fm3, Fm4, Fm5}, 为了让网络尽 可能保留更多视觉特征的细节信息, 在下一个跨层级信息整合阶段让视觉编码器得到的前 两层视觉特征{X1, X2}和跨模态特 征{Fm3, Fm4, Fm5}进行整合; (3)跨层级信息整合阶段 对于编码器阶段得到的视觉或多模态特征{X1, X2, Fm3, Fm4, Fm5}, 先用核大小为3 ×3、 步 长为1的卷积来对这些特征进行降维, 得到简化后的特征{Ti, i∈1, 2, 3, 4, 5}, 再进一步通 过跨层级信息整合模块进行整合; 跨层级信息整合模块由四个特征整合操作 组成, 具体如 下: 简化后的低层特征Ti先进行上采样, 使其和高层特征Ti‑1具有相同的分辨率; 使用点乘 来使上采样后的低层特征和高层特征进行逐像素相乘, 得到过滤后的特征Bi; 对于上一次 不同层进行特征整合后的特征Di, 其中D5=T5, 先进行上采样, 使其和Bi有相同的大小, 上采 样之后的特征Di′再来和过滤后的特征Bi进行点乘, 得到提炼后的特征D ′i‑1; 本方法使用了 残差连接使模型可保留更多的信息, 即让整合后的特征Di′和第二次点乘后的特征D ′i‑1进 行逐像素相加, 来得到该特征整合模块 的输出Di‑1; 对于最后一个特征整合模块 的输出D1, 需要再经过头模块来得到最后的分割 结果, 头模块是 由两个卷积层组成, 第一个卷积层用 来把对应特征图的通道数减少1/2, 第二个卷积层输出的通道数为 1, 对应了输出的蒙版, 再 通过双线性上采样来把蒙版的分辨率恢复到输入图像的分辨率, 经过sigmoid函数把输出 的蒙版进一 步限制到(0, 1)的范围, 再来和真值计算交叉熵损失函数, 其中, yi表示真值, pi表示对分割图进行sigmo id的结果, N表示输入图像 像素点的数量。权 利 要 求 书 2/2 页 3 CN 114821050 A 3

.PDF文档 专利 一种基于transformer的指称图像分割方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于transformer的指称图像分割方法 第 1 页 专利 一种基于transformer的指称图像分割方法 第 2 页 专利 一种基于transformer的指称图像分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:32:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。