专利 一种图像辅助音频补全的音频重构方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211062049.0 (22)申请日 2022.09.01 (71)申请人有米科技股份有限公司地址 510006 广东省广州市番禺区小谷围街青蓝街26号1701 (72)发明人黄于晏　陈畅新　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师江银会 (51)Int.Cl. G10L 25/57(2013.01) G10L 25/51(2013.01) G10L 25/27(2013.01) G10L 25/30(2013.01) H04N 21/439(2011.01)H04N 21/44(2011.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种图像辅助音频补全的音频重构方法及装置 (57)摘要本发明公开了一种图像辅助音频补全的音频重构方法及装置，该方法包括：根据视频预处理方案对待处理视频执行预处理操作，得到音频、图像数据，音频数据为经过空白音频去除、采样率转换及特征提取操作中的至少一种操作后得到的数据；根据音频重构模型对音频数据执行一级重构操作，得到待融合向量；对待融合向量以及图像数据的维度向量执行二级重构操作，得到二级重构结果，二级重构结果用于确定音频重构模型的音频损失参数，当判断出音频损失参数表示音频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对音频重构模型的训练任务。可见，实施本发明能够基于图像实现音频重构，提高音频重构的准确性并提高重构音频与视频内容的匹配度。权利要求书3页说明书14页附图4页 CN 115440251 A 2022.12.06 CN 115440251 A 1.一种图像辅助音频补全的音频重构方法，其特征在于，所述方法包括：根据预设的视频预处理方案对获取到的待处理视频执行预处理操作，得到所述待处理视频对应的分离数据，所述分离数据包括音频数据及图像数据，所述音频数据为经过空白音频去除操作、采样率转换操作以及特征提取操作中的至少一种操作后得到的数据；根据预设的音频重构模型对所述音频数据执行一级重构操作，得到所述音频数据对应的一级重构结果，所述一级重构结果包括待融合向量，所述待融合向量用于与所述图像数据对应的维度向量进行融合，以重构所述待处理视频，所述待融合向量与所述维度向量在特征维度上一致；根据所述音频重构模型，对所述待融合向量以及所述维度向量执行二级重构操作，得到所述待处理视频对应的二级重构结果，所述二级重构结果用于确定所述音频重构模型的音频损失参数，所述音频损失参数用于确定所述音频重构模型的训练进度；当判断出所述音频损失参数表示所述音频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对所述音频重构模型的训练任务，完成训练的所述音频重构模型用于对待重构音频执行音频重构操作。 2.根据权利要求1所述的一种图像辅助音频补全的音频重构方法，其特征在于，所述根据所述音频重构模型，对所述待融合向量以及所述维度向量执行二级重构操作，得到所述待处理视频对应的二级重构结果，包括：根据所述音频重构模型按照预设的向量维度标准，对所述待融合向量以及所述维度向量执行预设的特征向量处理操作，得到所述待融合向量对应的音频处理向量，所述音频处理向量包括用于表示该音频处理向量的全局信息的音频标识；根据所述音频重构模型以及所述音频标识，对所述音频处理向量以及所述维度向量执行音频重构操作，得到所述待处理视频对应的二级重构结果。 3.根据权利要求2所述的一种图像辅助音频补全的音频重构方法，其特征在于，所述根据所述音频重构模型按照预设的向量维度标准，对所述待融合向量以及所述维度向量执行预设的特征向量处理操作，得到所述待融合向量对应的音频处理向量，包括：根据所述音频重构模型，在预设维度层级对所述待融合向量以及所述维度向量执行向量拼接及维度变换操作，得到所述待融合向量对应的拼接变换向量；将所述拼接变换向量输入预设的全连接层，得到所述拼接变换向量对应的输出向量；对所述输出向量依次执行非线性变换操作、所述维度变换操作、类别标记操作以及均值转换操作，得到所述输出向量对应的均值转换结果，作为所述待融合向量对应的音频处理向量。 4.根据权利要求2所述的一种图像辅助音频补全的音频重构方法，其特征在于，所述根据所述音频重构模型以及所述音频标识，对所述音频处理向量以及所述维度向量执行音频重构操作，得到所述待处理视频对应的二级重构结果，包括：根据所述音频重构模型所包括的全连接层，对所述音频处理向量执行特征融合操作，得到所述音频处理向量对应的特征融合结果；根据所述音频标识，对所述特征融合结果执行特征处理操作，得到所述特征融合结果对应的特征处理向量；计算所述音频处理向量与所述特征处理向量之间的音频损失参数，所述音频损失参数权　利　要　求　书 1/3 页 2 CN 115440251 A 2用于确定所述音频重构模型的训练进度。 5.根据权利要求4所述的一种图像辅助音频补全的音频重构方法，其特征在于，所述根据所述音频标识，对所述特征融合结果执行特征处理操作，得到所述特征融合结果对应的特征处理向量，包括：获取非融合向量，所述非融合向量为所述一级重构结果中除所述待融合向量之外的其他向量；根据所述音频标识、所述非融合向量，对所述特征融合结果执行特征解析操作，得到所述特征融合结果对应的解析向量；删除所述解析向量中的所述音频标识，并将更新后的所述解析向量确定为所述特征融合结果对应的特征处理向量。 6.根据权利要求1 ‑5任一项所述的一种图像辅助音频补全的音频重构方法，其特征在于，所述一级重构操作具体为音频掩码操作，所述根据预设的音频重构模型对所述音频数据执行一级重构操作，得到所述音频数据对应的一级重构结果，包括：确定对所述音频数据执行所述音频掩码操作的目标间隔；对所述音频数据中的每帧数据设置与该帧数据对应的选取概率；根据预设的音频重构模型、每帧数据对应的选取概率以及所述目标间隔，对所述音频数据执行所述音频掩码操作，得到所述音频数据对应的一级重构结果。 7.根据权利要求6所述的一种图像辅助音频补全的音频重构方法，其特征在于，所述根据预设的视频预处理方案对所述待处理视频执行预处理操作，得到所述待处理视频对应的分离数据，包括：根据预设的视频预处理方案，对所述待处理视频执行预处理操作，得到所述待处理视频对应的初始音频数据以及图像数据；分析所述初始音频数据，得到所述初始音频数据的音频参数，所述音频参数包括音频长度、音频采样率；判断所述初始音频数据的音频参数与标准音频参数是否匹配，当判断结果为是时，根据预设的卷积层对所述初始音频数据执行卷积处理操作，得到所述初始音频数据对应的第一音频数据，并将所述第一音频数据、所述图像数据确定为所述待处理视频对应的分离数据；当判断结果为否时，对所述初始音频数据执行参数转换操作，并将得到的参数转换结果输入预设的卷积层，得到所述初始音频数据对应的第二音频数据，将所述第二音频数据、所述图像数据确定为所述待处理视频对应的分离数据。 8.一种图像辅助音频补全的音频重构装置，其特征在于，所述装置包括：预处理模块，用于根据预设的视频预处理方案对获取到的待处理视频执行预处理操作，得到所述待处理视频对应的分离数据，所述分离数据包括音频数据及图像数据，所述音频数据为经过空白音频去除操作、采样率转换操作以及特征提取操作中的至少一种操作后得到的数据；第一重构模块，用于根据预设的音频重构模型对所述音频数据执行一级重构操作，得到所述音频数据对应的一级重构结果，所述一级重构结果包括待融合向量，所述待融合向量用于与所述图像数据对应的维度向量进行融合，以重构所述待处理视频，所述待融合向权　利　要　求　书 2/3 页 3 CN 115440251 A 3

专利 一种图像辅助音频补全的音频重构方法及装置

专利一种图像辅助音频补全的音频重构方法及装置