专利 一种仪器仪表智能运维的多模态故障理解及辅助标注方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210336240.3 (22)申请日 2022.03.31 (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙正街174号 (72)发明人张可　柴毅　蒲华祥　邱可玥　王嘉璐　钱亚林　宋倩倩　安翼尧　李希晨　 (74)专利代理机构重庆市嘉允启行专利代理事务所(普通合伙) 50243 专利代理师胡柯 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/02(2006.01) G06N 3/04(2006.01) G06N 5/04(2006.01) G06N 10/00(2022.01) (54)发明名称一种仪器仪表智能运维的多模态故障理解及辅助标注方法 (57)摘要本发明提供一种仪器仪表智能运维的多模态故障理解及辅助标注方法，步骤为：采集仪器仪表故障时反馈的图像、声音和文本数据，分别对采集的图像、音频和文本数据进行预处理，对预处理后的图像数据、音频数据、文本数据进行特征提取，采用基于多模态量子启发神经网络对提取的图像、音频、文本特征进行融合；利用提取的图像、音频、文本特征对多模态量子启发神经网络模型进行训练；将训练好的模型加载到仪器仪表智能运维平台后端，将多模态故障数据传入 API，经过模型推理，返回标注集合；本发明通过多模态量子启发深度网络模型对图像、语音、文本特征进行融合，通过融合编码特征对仪器仪表的故障进行理解，并对故障反馈信息进行自动标注，实用性强。权利要求书3页说明书9页附图4页 CN 114693942 A 2022.07.01 CN 114693942 A 1.一种仪器仪表智能运维的多模态故障理解及辅助标注方法，其特征在于，具体步骤如下： 1)数据采集：采集仪器仪表故障时反馈的图像、声音和文本数据，并组织成字典{' image':[img1,img2, …],'voice':[v1,v2, …],'text':[t1,t2, …]}，其中： image、 v oice、 text分别为图像、音频和文本三种模态； 2)数据预处理：分别对步骤1)中采集的图像、音频和文本数据进行预处理，得到预处理后的图像、音频和文本数据； 3)特征提取：采用基于PatchConvNet模型对步骤2)中预处理后的图像数据进行图像特征提取，采用基于一维扩张卷积预对步骤2)中处理后的音频数据进行音频特征提取，采用基于GRU单元的双向循环网络对步骤2 ‑3)中预处理后的文本进行文本特征提取； 4)构建模型：采用基于多模态量子启发神经网络对步骤3)中提取的图像特征、音频特征和文本特征进行融合，得到融合编码特征； 5)模型训练：使用自编码训练与多任务训练的方式对图像、音频、文本特征的提取模型进行训练，利用步骤3)提取的图像、音频、文本特征对多模态量子启发神经网络模型进行训练； 6)辅助标注：将训练好的三种模态数据的特征提取网络模型以及多模态量子启发深度网络模型加载到仪器仪表智能运维平台后端，将仪器仪表多模态故障数据传入API，经过模型推理，返回标注集合，实现辅助标注。 2.如权利要求1所述的一种仪器仪表智能运维的多模态故障理解及辅助标注方法，其特征在于，步骤2)中数据预处理的具体步骤为： 2‑1)对步骤1)中采集的图像数据进行自适应裁剪和方形填充，然后对图像进行缩放归一化，保持图像比例不变，最后对列表中的图像进行去重过滤； 2‑2)采用基于启发式双重优化PCD算法对步骤1)中采集的音频数据进行降噪，对降噪后的音频片段进行中心裁剪或者对称填充； 2‑3)基于完备专业性词向量空间对步骤1)中采集的文本数据进行关键词提取，并将关键词转换成向量形式，得到关键词向量矩阵。 3.如权利要求2所述的一种仪器仪表智能运维的多模态故障理解及辅助标注方法，其特征在于，步骤3)中特征提取的具体步骤为： 3‑1)图像特征提取：将图像数据输入PatchConvNet模型中，采用循环前向传播，再对输出进行平均融合，得到维度为512的图像特征：式中， images为图像数据， N1为单个样本中图像数据片段的数量； 3‑2)音频特征提取：采用基于一维扩张卷积预对步骤2)中处理后的音频数据进行音频特征提取，然后对输出进行平均融合，得到音频特征：式中， voices为音频数据， N2为单个样本中音频数据片段的数量；权　利　要　求　书 1/3 页 2 CN 114693942 A 23‑3)文本特征提取：采用基于GRU单元的双向循环网络对步骤2)中得到的关键词向量进行特征提取，并截取最后一个时间步的输出作为后续特征：式中， texts为关键词向量， N3为单个样本中关键词向量的数量。 4.如权利要求3所述的一种仪器仪表智能运维的多模态故障理解及辅助标注方法，其特征在于，步骤4)中构建模型的具体步骤为： 4‑1)将三种模态的特征向量输入多模态量子启发神经网络的全联接层：式中，分别表示图像特征向量、音频特征向量和文本特征向量；将三种模态的特征投向量影到一个d维的空间中： aj,tj,vj＝transform(uj) 其中， transform表示线性投影变换；将各个模态的纯态进行融合： pj＝ λa|aj><aj|+λt|tj><tj|+λv|vj><vj| 式中， aj,tj,vj分别表示音频、文本和视觉三种模态， λa, λt, λv为融合系数，均为非负值且和为1； 4‑2)通过类量子循环神经网络QRNN网络模型对三种模态的特征矩阵进行融合，将密度矩阵序列输入QRNN网络模型中，通过隐藏态的密度矩阵ρh表示序列的信息，则时间步的迭代计算过程为：式中，更新函数f( ·)是参数化的酉矩阵Ux,Uh和实值λ； Ux,Uh, 均是定义在希尔伯特空间的酉矩阵且满足 I为单位矩阵， t为虚拟时间变量， ρt为t时刻的密度矩阵，表示t‑1时刻的隐态密度矩阵；所述密度矩阵通过其中|φj><φj|表示基态；所述QRNN网络模型的输出为整个序列的d维状态即三种模态的融合特征矩阵； 4‑3)通过一个全局的可观测量来测量每个完整序列的状态，通过相互正交的特征状态构建一个d维的酉矩阵M即概率分布矩阵，用于表示状态坍缩到相应特征态的可能性； 4‑4)通过步骤4 ‑3)测量得到一个d维的概率分布，将d维的概率分布向量通过一层全联接层计算得到相应标签的预测概率,进一步得到分类标签： ei＝argmax( σ )k 权　利　要　求　书 2/3 页 3 CN 114693942 A 3

专利 一种仪器仪表智能运维的多模态故障理解及辅助标注方法

专利一种仪器仪表智能运维的多模态故障理解及辅助标注方法