(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211019034.6
(22)申请日 2022.08.24
(71)申请人 华中师范大学
地址 430079 湖北省武汉市珞喻路152号
(72)发明人 周东波 李千千 孙昊 曾超勇
(74)专利代理 机构 北京力量专利代理事务所
(特殊普通 合伙) 11504
专利代理师 毛雨田
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于地块感知动态记忆的场景理解方
法
(57)摘要
本发明公开了一种基于地块感知动态记忆
的场景理解方法, 研究基于地块组成的土地利用
类型语义感知结构和多场景动态记忆原型结构
组合的土地利用地块感知 记忆网络模 型, 实现对
土地利用地块组成及其分布的理解, 有助于国土
空间利用格局的生成。 该方法包括以下步骤: (1)
提取遥感数据集多层卷积特征; (2)构建土地利
用类型语义感知结构; (3)构建多场景动态记忆
原型结构; (4)训练感知动态记忆原型网络; (5)
预测遥感场景地块类别。 本发明与现有方法相
比, 基于感知动态原型记忆的遥感场景理解方
法, 能够有效应对地物复杂、 图斑组合规则多变,
地块整体性差等问题, 可用于国土空间利用格局
的生成。
权利要求书2页 说明书5页 附图1页
CN 115393713 A
2022.11.25
CN 115393713 A
1.一种基于地 块感知动态 记忆的场景理解方法, 其特 征在于: 包括如下步骤:
(1)提取遥感场景图像的多层 卷积特征, 除去ResNet50的最后一个分类器, 剩余部分作
为特征提取器, 剩余部分的输出作为图像提取的特 征;
(2)构建土地利用类型语义感知结构, 分别 使用大小为7 ×7, 5×5, 3×3, 1×1的卷积核
对第(1)步提取的多层卷积特征进 行融合, 兼顾计算的性能与 精度, 得到遥感场景图像的卷
积语义图斑表达;
(3)构建多场景动态记忆原型结构, 将第(2)步得到的语义 图斑存储在外部存储器, 同
时设计一个可学习的记忆检索 模块来学习存储在外部存储器的语义图斑, 根据自注意力机
制将特征融合后输出的融合特征作为查询条件, 检索与输入图像特征相似度高的语义图
斑, 用于识别高分遥感图像中存在的地 块场景;
(4)训练土地利用地块感知动态记忆原型网络, 基于地块组成的土地利用类型语义感
知结构和多场景动态记忆原型结构共同组成土地利用地块感知记忆原型网络模型, 使用
Adam优化器算法训练感知动态记忆原型网络, 使用反向传播算法更新网络参数, 直至网络
收敛;
(5)预测遥感场景地块类别, 将测试的遥感场景输入到训练完成后的感知动态记忆原
型网络中, 得到 遥感场景地 块类别。
2.根据权利要求1所述的一种基于地块感知动态记忆的场景理解方法, 其特征在于: 步
骤(1)中提取多层卷积特 征, 包括如下步骤:
首先, 利用卷积操作、 池化操作、 全连接操作搭建ResNet50卷积神经网络, 使用
ImageNet数据集对ResNet50进行预训练, 然后将遥感场景图像输入到预训练的ResNet50中
提取多层卷积特征; 使用ResNet50最后一个stage的卷积操作提取特征, 记为x ′∈RM×N×C, 其
中M和N为卷积特征x ′的宽和高, C为卷积特征x ′的通道数, 即ResNet50在ImageNet上预训练
好, 将图像经 过ResNet5 0网络, 得到 输出featuremap, 即:
x′=Conv(I)
其中, Conv表示特征提取过程, I是输入 的遥感场景图像, x ′对表示提取到的多层卷积
特征。
3.根据权利要求1所述的一种基于地块感知动态记忆的场景理解方法, 其特征在于: 步
骤(2)构建土地利用类型语义感知结构, 包括如下步骤:
选用ResNet网络作为空间金字塔的主干网络, 输入大规模遥感影像后经过自底向上的
流程在主干网络的每个 stage中提取不同尺度卷积特征, 将ResNet每个 stage的最后一组特
征图记为{C2, C3, C4, C5}, 然后对前述所提取的卷积特征进行上采样处理, 保证处理后的高
层卷积特征维度与自底向上的低层卷积特征维度相同, 随后将高层卷积特征图与横向连接
传递的低层卷积特征图对应元素加权, 得到具备多尺度信息的融合特征,感知提取模块的
输出特征图记为{P2, P3, P4, P5}, 即
其中, P5=C5, 考虑到金字塔池化, 在不同尺度下保留全局信息, 而识别地类标签需要充
分考虑全局信息, 因此在主干网络的最后一层应用金字塔池化, 得到特 征向量h, 即:
权 利 要 求 书 1/2 页
2
CN 115393713 A
2其中, Conv1×1表示卷积核大小为1 ×1的卷积操作, 对Resnet不同尺度提取的特征进行
Conv1×1卷积操作;
表示加权求和, 此处将卷积操作得到的结果与感知提取下一层级的输
出结果进 行加权求和得到上一层的输出; 考虑到金字塔池化, 在不同尺度下保留全局信息,
而识别地类标签需要充分考虑全局信息, SPP表示金字塔池化过程,
表示第i个输入样本
经过最后一层感知 提取的输出结果, hi表示第i个输入经过金字塔池化的结果, 该结果存入
外部存储器M中。
4.根据权利要求1所述的一种基于地块感知动态记忆的场景理解方法, 其特征在于: 步
骤(3)构建多场景动态 记忆原型结构, 包括如下步骤:
多场景动态记忆原型结构将感知提取模块提取的特征投影成一维向量作为查询条件Q
(X), 用输入的问题Q(X)检索key ‑value存储, 找到和地块相似图斑的key值, 定义key值的通
道维度为 L, value值的通道维度为U, 输入图像X与每 个图斑的相似度计算公式为:
其中, fΦ为投影函数, 提取X的特征表示, 同时, 将外部存储器M转换为键K(M)和值V(M),
经过softmax输出一个S维向量, 即外部记忆存储的长度S, 其中每个 分量表示每个图斑与查
询图像的相关概 率, 对所有值加权求和:
z=R(X,M) ·V(M)
得到输出特征z, 由于内存检索以多头方式进行, 因此最终得到的特 征可以表述 为:
z′=[z1,z2,…zH]
其中, H表示head的数量, 每个head通过将输入图像X和外部记忆存储M转换为多头查询
Qh(fΦ(X))、 键Kh(M)和值Vh(M)来生成检索到的特征, 最后, 输出z'送入一个全卷积网络用于
推断土地利用地 块:
s=FCN(z ′)
其中, FCN表示全卷积网络, s表示全卷积网络的输出向量。
5.根据权利要求1所述的一种基于地块感知动态记忆的场景理解方法, 其特征在于: 步
骤(4)训练土地利用地 块感知动态 记忆原型网络, 包括如下步骤:
基于地块组成的土地利用类型语义感知结构和多场景动态记忆原型结构共同组成土
地利用地块感知记忆网络模型, 使用Adam优化器算法训练感知动态记忆原型网络, 使用反
向传播算法更新网络参数, 直至网络收敛。
6.根据权利要求1所述的一种基于地 块感知动态 记忆的场景理解方法, 其特 征在于:
步骤(5)预测遥感场景地 块类别, 包括如下步骤:
将测试的遥感场景输入到训练完成后的地块感知动态记忆原型网络 中, 将全卷积网络
输出的场景类别作为该地 块的类别。
7.一种电子设备, 其特征在于: 包括存储器、 处理器及存储在存储器上并可在处理器上
运行的计算机程序, 其特征在于, 所述处理器运行所述计算机程序时, 执行如权利要求1 ‑6
任一项所述的一种基于地 块感知动态 记忆的场景理解方法的步骤。
8.一种计算机可读存储介质, 其存储计算机程序, 其特征在于, 所述计算机程序使得计
算机执行权利要求1 ‑6任一项公开的一种基于地 块感知动态 记忆的场景理解方法的步骤。权 利 要 求 书 2/2 页
3
CN 115393713 A
3
专利 一种基于地块感知动态记忆的场景理解方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:10:30上传分享