说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210382021.9 (22)申请日 2022.04.13 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2 号 (72)发明人 刘芳 孔雨秋 张立和 尹宝才 (74)专利代理 机构 辽宁鸿文知识产权代理有限 公司 21102 专利代理师 隋秀文 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于transformer的指称图像分割方法 (57)摘要 本发明属于计算机视觉技术领域, 提供了一 种基于transformer的指称图像分割方法, 对于 输入的文本和图像, 算法要根据输入的文本来对 图像中指定的目标进行分割, 算法主要由特征提 取、 跨模态特征融合、 跨层级信息整合三个部分 组成。 本发 明可以在视觉特征提取和跨模态融合 阶段提取全局和局部信息, 在解码器阶段也可以 很好地使不同层级的信息进行有效的整合, 从而 可以让模型根据文本描述来生成性能更好的分 割结果。 权利要求书2页 说明书5页 附图3页 CN 114821050 A 2022.07.29 CN 114821050 A 1.一种基于transformer的指称图像分割方法, 该方法共由三部分组成, 其特征在于, 步骤如下: (1)特征提取阶段 将图像和文本分别输入视觉编码器和文本编码器来提取特征; 文本编码器采用了预训 练的BERT框架, 文本描述中的每个单词都会被编码成一个768维的向量; 视觉编码 器采用了 基于transformer的结构, 是一个卷积和transformer结合的视觉特征提取器, 视觉特征提 取器由五个阶段构成, 第一个阶段是三个卷积层, 第二、 三个阶段对应局部transformer 块, 第四、 五个阶段对应全局transformer块; 其中卷积层是用来引入归纳偏置, 局部 transformer块用来提取局部的细 节特征, 全局transformer块用来获取全局的高级语义信 息; 对于输入的图像, 通过不同的线性变换来调整输入特征的维度和分辨率, 从而用来 获取 五个不同层级的特征; 对于全局transformer块, 其基本结构包括正则化LN、 全局自注意力 GMSA和多层感知机 MLP, 具体的运 算过程如下: z′l=GMSA(L N(zl‑1))+zl‑1, zl=MLP(LN(z′l))+z′l, 其中, zl‑1表示当前全局transformer块的输入, z ′l表示输入通过GMSA变换的特征, zl表 示当前全局transformer块的输出; 把式中的GMSA替换成局部自注意力LMSA, 即得到局部 transformer块的运算过程; 对于全局自注意力, 把输入的任意特征Y先经过三个不同的线 性变换得到对应的Q、 K和V, 线性变换不会改变特征Y的通道数和大小, 得到的Q、 K和V的通道 数和特征大小是相同的, 再来计算自注意力, 自注意力的流 程如下: 其中, C0表示K的通道数, softmax表示对输入进行归一化, T表示求矩阵的转置; 局部自 注意力也是类似的流程, 但其自注意力只发生在特征图中7 ×7的窗口内部, 而不是整个特 征图; 在特征提取阶段, 得到五个不同层级的视觉特征, 即{Xi, i∈1, 2, 3, 4, 5}, 由于后三个层 级的特征{X3, X4, X5}包括丰富的语义信息, 选取这部 分视觉特征来分别与文本特征S在下文 的跨模态特 征融合阶段进行融合; (2)跨模态特 征融合阶段 对于输入的文本特 征S和视觉特征Xi, 先进行级联来得到初步的多模态融合特 征Mi, 即 Mi=([Xi, S])W0, 其中, W0表示可学习的参数, [ ·]表示级联操作, 再通过以下运算流程得到对齐之后的 文本特征Li, Ai=soffmax((SW1)(MiW2)T), Li=STAi, 其中, W1和W2表示可学习的参数, softm ax表示对输入进行归一化, T表示求矩阵的转置, Ai表示多模态 注意力矩阵; 初步的多模态融合特征Mi和对齐的文本特征Li被送入跨模态特征融合模块来进一步融 合, 跨模态特征融合模块也是一个基于transformer的结构, 但其中的自注意力MSA被替换权 利 要 求 书 1/2 页 2 CN 114821050 A 2成交叉注 意力MCA; MCA和MSA的算法流程非常类似, 只是其中Q、 K和V是根据不同的输入进行 了变换, 即Q是根据文本特征进行的变换, 而K和V是根据视觉特征进行的变换; 跨模态特征 融合模块先使用基于全局交叉注 意力G‑MCA的全局交叉transformer 块来获取全局信息, 再 使用基于局部交叉注 意力L‑MCA的局部交叉transformer 块来获取局部的细 节信息, 基于全 局交叉注意力G ‑MCA的全局交叉transformer块、 基于局部交叉注意力L ‑MCA的局部交叉 transformer块的基本结构和前文提到的全局transformer块很接近, 只有其中的GMSA被分 别替换成了G ‑MCA和L‑MCA; 在跨模态特征融合阶段, 得到三个不同层级的跨模态特征{Fm3, Fm4, Fm5}, 为了让网络尽 可能保留更多视觉特征的细节信息, 在下一个跨层级信息整合阶段让视觉编码器得到的前 两层视觉特征{X1, X2}和跨模态特 征{Fm3, Fm4, Fm5}进行整合; (3)跨层级信息整合阶段 对于编码器阶段得到的视觉或多模态特征{X1, X2, Fm3, Fm4, Fm5}, 先用核大小为3 ×3、 步 长为1的卷积来对这些特征进行降维, 得到简化后的特征{Ti, i∈1, 2, 3, 4, 5}, 再进一步通 过跨层级信息整合模块进行整合; 跨层级信息整合模块由四个特征整合操作 组成, 具体如 下: 简化后的低层特征Ti先进行上采样, 使其和高层特征Ti‑1具有相同的分辨率; 使用点乘 来使上采样后的低层特征和高层特征进行逐像素相乘, 得到过滤后的特征Bi; 对于上一次 不同层进行特征整合后的特征Di, 其中D5=T5, 先进行上采样, 使其和Bi有相同的大小, 上采 样之后的特征Di′再来和过滤后的特征Bi进行点乘, 得到提炼后的特征D ′i‑1; 本方法使用了 残差连接使模型可保留更多的信息, 即让整合后的特征Di′和第二次点乘后的特征D ′i‑1进 行逐像素相加, 来得到该特征整合模块 的输出Di‑1; 对于最后一个特征整合模块 的输出D1, 需要再经过头模块来得到最后的分割 结果, 头模块是 由两个卷积层组成, 第一个卷积层用 来把对应特征图的通道数减少1/2, 第二个卷积层输出的通道数为 1, 对应了输出的蒙版, 再 通过双线性上采样来把蒙版的分辨率恢复到输入图像的分辨率, 经过sigmoid函数把输出 的蒙版进一 步限制到(0, 1)的范围, 再来和真值计算交叉熵损失函数, 其中, yi表示真值, pi表示对分割图进行sigmo id的结果, N表示输入图像 像素点的数量。权 利 要 求 书 2/2 页 3 CN 114821050 A 3
专利 一种基于transformer的指称图像分割方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:32:19
上传分享
举报
下载
原文档
(774.9 KB)
分享
友情链接
GB-T 4303-2008 船用救生衣.pdf
GB-T 42029-2022 智能制造 工业数据空间参考模型.pdf
T-CMAX 116-01—2020 自动驾驶车辆道路测试能力评估内容与方法.pdf
GB-T 37973-2019 信息安全技术 大数据安全管理指南 .pdf
GB-T 4780-2020 汽车车身术语.pdf
T-ZZB 2846—2022 车用轻型可变速电动绞盘.pdf
GB-T 42442.1-2023 智慧城市 智慧停车 第1部分:总体要求.pdf
GB-T 6653-2017 焊接气瓶用钢板和钢带.pdf
GB-T 33133.3-2021 信息安全技术 祖冲之序列密码算法 第3部分:完整性算法.pdf
GB-Z 28828-2012 信息安全技术 公共及商用服务信息系统个人信息保护指南.pdf
GB-T 13234-2018 用能单位节能量计算方法.pdf
GB-T 41560-2022 纺织品 遮热性能的测定.pdf
GB-T 30273-2013 信息安全技术 信息系统安全保障通用评估指南.pdf
GB-T 35282-2023 信息安全技术 电子政务移动办公系统安全技术规范.pdf
SY-T 7652-2021 气藏型储气库库容参数设计方法.pdf
法律法规 最高人民法院、最高人民检察院关于办理非法利用信息网络、帮助信息网络犯罪活动等刑事案件适用法律若干问题的解释2019-10-21.pdf
DB14-T 2658—2023 农村公路工程技术标准 山西省.pdf
DB45-T 2211-2020 航空集装箱用铝合金板材技术规范 广西壮族自治区.pdf
T-CYCKSC CYCKSC001—2023 豆腐渣.pdf
GB-T 479-2016 烟煤胶质层指数测定方法.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(774.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。