(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210365379.0
(22)申请日 2022.04.06
(71)申请人 上海电力大 学
地址 201306 上海市浦东 新区沪城环路
1851号
(72)发明人 雷光裕 雷景生 唐小岚 毕艳冰
孟繁星
(74)专利代理 机构 上海德昭知识产权代理有限
公司 31204
专利代理师 陈龙梅
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/26(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于Vision MLP的行 人重识别方法
(57)摘要
本发明提供一种基于Vision MLP的行人重
识别方法, 首先面向行人重识别任务, 采用数据
预处理将待测图像划分为预定维度及大小的的
图像块序列。 然后通过Vi sion MLP架构建立了 行
人重识别aMLP ‑reID模型, 设计了一个基于
Vision MLP架构的线 性注意力网络和MAL特征提
取网络对全局依赖项建模用于特征提取, 从而替
代了vision transformer中自注意力层用于提
取图像中深层特征, 来进行行人重识别。 而且由
于 采 用 线 性 注 意 力 网 络 的 结 构 减 少 了
transformer架构中特征提取中平方量级的时间
复杂度, 因此本发明的基于VisionMLP的行人重
识别方法也是为数不多的不使用卷积神经网络
结构用于图像 检索的行 人重识别架构。
权利要求书2页 说明书6页 附图2页
CN 115050045 A
2022.09.13
CN 115050045 A
1.一种基于Visi on MLP的行人重识别方法, 其特 征在于, 包括以下步骤:
步骤S1, 对待测行 人重识别图像数据进行 数据预处 理得到待测输入图像;
步骤S2, 基于Vision MLP架构建立初始模型, 所述初始模型具有MAL特征提取网络、 线
性注意力网络、 特 征融合模块以及分类 器;
步骤S3, 使用组合损失函数和标签训练集对所述初始模型进行训练直至收敛, 从而得
到行人重识别aMLP ‑reID模型;
步骤S4, 利用所述行人重识别aMLP ‑reID模型对所述待测输入图像进行重识别, 并输出
对应的行 人重识别结果,
其中, 所述MAL特 征提取网络具有Cycle MLP网络层,
所述步骤S4包括以下子步骤:
步骤S4‑1, 由所述Cycle MLP网络层和所述线性注意力网络分别提取所述待测输入图
像的全局特 征和局部特征;
步骤S4‑2, 基于所述特征融合模块将所述全局特征和所述局部特征融合得到含线性注
意力的融合特 征表示;
步骤S4‑3, 将所述含线性注意力的融合特征表示分别通过线性 映射和sigmoid激活函
数进行全连接及激活, 并由所述分类器进行分类, 输出具有ID标签的分类结果作为所述行
人重识别结果。
2.根据权利要求1所述的基于Visi on MLP的行人重识别方法, 其特 征在于:
其中, 所述数据预处 理为:
将所述行人重识别数据中的图像分割成
块大小为预定规格的patch
图像块,
采用线性映射将每 个所述patc h图像块的空间维度由初始维度C嵌入至 C0维度。
3.根据权利要求1所述的基于Visi on MLP的行人重识别方法, 其特 征在于:
其中, 所述MAL特征提取网络分为4层, 在每层使用n个MAL网络层编码局部表示, 对应每
层的n的取值分别为2、 2、 6、 2。
4.根据权利要求1所述的基于Visi on MLP的行人重识别方法, 其特 征在于:
其中, 所述组合损失函数通过 结合三元组损失函数和ID分类交叉熵损失函数 得到,
所述三元组损失函数为:
Ltri(i,j,k)=max(0, ρ +dij‑dik)
式中, d表示两个样本特征向量之间的欧氏距离, 一个三元组包含三个样本, 一个锚样
本xi, 具有相同id标签的正样本xj, 和不同id标签的负 样本xk,
所述ID分类交叉熵损失函数为:
式中, 待测输入图像xi标签为yi, P(yi|xi)是正确分类的概 率。
5.一种电子设备, 包括存储器、 处理器及存储在所述储存器上并可以在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1至权利要求
5中任一项所述基于Visi on MLP的行人重识别方法。权 利 要 求 书 1/2 页
2
CN 115050045 A
26.一种计算机可读的存储介质, 用于存储计算机程序, 其特征在于, 所述计算机程序被
配置成执 行时实现权利要求1至 权利要求5所述的一种基于Visi on MLP的行人重识别方法。权 利 要 求 书 2/2 页
3
CN 115050045 A
3
专利 一种基于Vision MLP的行人重识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:32:21上传分享