(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211062049.0
(22)申请日 2022.09.01
(71)申请人 有米科技股份有限公司
地址 510006 广东省广州市番禺区小谷围
街青蓝街26号1701
(72)发明人 黄于晏 陈畅新
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江银会
(51)Int.Cl.
G10L 25/57(2013.01)
G10L 25/51(2013.01)
G10L 25/27(2013.01)
G10L 25/30(2013.01)
H04N 21/439(2011.01)H04N 21/44(2011.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种图像辅助音频补全的音频重构方法及
装置
(57)摘要
本发明公开了一种图像辅助音频补全的音
频重构方法及装置, 该方法包括: 根据视频预处
理方案对待处理视频执行预处理操作, 得到音
频、 图像数据, 音频数据为经过空白音频去除、 采
样率转换及特征提取操作中的至少一种操作后
得到的数据; 根据音 频重构模型对音频数据执行
一级重构操作, 得到待融合向量; 对待融合向量
以及图像数据的维度向量执行二级重构操作, 得
到二级重构结果, 二级重构结果用于确定音 频重
构模型的音频损失参数, 当判断出音频损失参数
表示音频重构模型的模型收敛参数在预设收敛
阈值内时, 确定完成针对音 频重构模型的训练任
务。 可见, 实施本发明能够基于图像实现音频重
构, 提高音频重构的准确性并提高重构音频与视
频内容的匹配度。
权利要求书3页 说明书14页 附图4页
CN 115440251 A
2022.12.06
CN 115440251 A
1.一种图像辅助音频补全的音频重构方法, 其特 征在于, 所述方法包括:
根据预设的视频预处理方案对获取到的待处理视频执行预处理操作, 得到所述待处理
视频对应的分离数据, 所述分离数据包括音频数据及图像数据, 所述音频数据为经过空 白
音频去除操作、 采样率 转换操作以及特 征提取操作中的至少一种操作后得到的数据;
根据预设的音频重构模型对所述音频数据 执行一级重构操作, 得到所述音频数据对应
的一级重构结果, 所述一级重构结果包括待融合向量, 所述待融合向量用于与所述图像数
据对应的维度向量进行融合, 以重构所述待处理视频, 所述待融合向量与所述维度向量在
特征维度上一 致;
根据所述音频重构模型, 对所述待融合向量以及所述维度向量执行二级重构操作, 得
到所述待处理视频对应的二级重构结果, 所述二级重构结果用于确定所述音频重构模型的
音频损失参数, 所述音频损失参数用于确定所述音频重构模型的训练进度;
当判断出所述音频损失参数表示所述音频重构模型的模型收敛参数在预设收敛阈值
内时, 确定完成针对所述音频重构模型 的训练任务, 完成训练的所述音频重构模型用于对
待重构音频 执行音频重构操作。
2.根据权利要求1所述的一种图像辅助音频补全的音频重构方法, 其特征在于, 所述根
据所述音频重构模型, 对所述待融合向量以及所述维度向量执行二级重构操作, 得到所述
待处理视频对应的二级重构结果, 包括:
根据所述音频重构模型按照预设的向量维度标准, 对所述待融合向量以及所述维度向
量执行预设的特征向量处理操作, 得到所述待融合向量对应的音频处理向量, 所述音频处
理向量包括用于表示该音频处 理向量的全局信息的音频 标识;
根据所述音频重构模型以及所述音频标识, 对所述音频处理向量以及所述维度向量执
行音频重构操作, 得到所述待处 理视频对应的二级重构结果。
3.根据权利要求2所述的一种图像辅助音频补全的音频重构方法, 其特征在于, 所述根
据所述音频重构模型按照预设的向量 维度标准, 对所述待融合向量以及所述 维度向量执行
预设的特 征向量处 理操作, 得到所述待融合向量对应的音频处 理向量, 包括:
根据所述音频重构模型, 在预设维度层级对所述待融合向量以及所述维度向量执行向
量拼接及维度变换操作, 得到所述待融合向量对应的拼接变换向量;
将所述拼接变换向量输入预设的全连接层, 得到所述 拼接变换向量对应的输出向量;
对所述输出向量依次执行非线性变换操作、 所述维度变换操作、 类别标记操作以及均
值转换操作, 得到所述输出向量对应的均值转换结果, 作为所述待融合向量对应的音频处
理向量。
4.根据权利要求2所述的一种图像辅助音频补全的音频重构方法, 其特征在于, 所述根
据所述音频重构模型以及所述音频标识, 对所述音频 处理向量以及所述 维度向量执行音频
重构操作, 得到所述待处 理视频对应的二级重构结果, 包括:
根据所述音频重构模型所包括的全连接层, 对所述音频处理向量执行特征融合操作,
得到所述音频处 理向量对应的特 征融合结果;
根据所述音频标识, 对所述特征融合结果执行特征处理操作, 得到所述特征融合结果
对应的特 征处理向量;
计算所述音频处理向量与 所述特征处理向量之间的音频损失参数, 所述音频损失参数权 利 要 求 书 1/3 页
2
CN 115440251 A
2用于确定所述音频重构模型的训练进度。
5.根据权利要求4所述的一种图像辅助音频补全的音频重构方法, 其特征在于, 所述根
据所述音频标识, 对所述特征融合结果执行特征处理操作, 得到所述特征融合结果对应的
特征处理向量, 包括:
获取非融合向量, 所述非融合向量为所述一级重构结果中除所述待融合向量之外的其
他向量;
根据所述音频标识、 所述非融合向量, 对所述特征融合结果执行特征解析操作, 得到所
述特征融合结果对应的解析向量;
删除所述解析向量中的所述音频标识, 并将更新后的所述解析向量确定为所述特征融
合结果对应的特 征处理向量。
6.根据权利要求1 ‑5任一项所述的一种图像辅助音频补全的音频重构方法, 其特征在
于, 所述一级重构操作具体为音频掩码操作, 所述根据预设的音频重构模型对所述音频数
据执行一级重构操作, 得到所述音频 数据对应的一级重构结果, 包括:
确定对所述音频 数据执行所述音频掩码 操作的目标间隔;
对所述音频 数据中的每帧数据设置与该帧数据对应的选取概 率;
根据预设的音频重构模型、 每帧数据对应的选取概率以及所述目标间隔, 对所述音频
数据执行所述音频掩码 操作, 得到所述音频 数据对应的一级重构结果。
7.根据权利要求6所述的一种图像辅助音频补全的音频重构方法, 其特征在于, 所述根
据预设的视频预处理方案对所述待处理视频执行预 处理操作, 得到所述待处理视频对应的
分离数据, 包括:
根据预设的视频预处理方案, 对所述待处理视频执行预处理操作, 得到所述待处理视
频对应的初始音频 数据以及图像数据;
分析所述初始音频数据, 得到所述初始音频数据的音频参数, 所述音频参数包括音频
长度、 音频采样率;
判断所述初始音频数据的音频参数与标准音频参数是否匹配, 当判断结果为是时, 根
据预设的卷积层对所述初始音频数据执行卷积处理操作, 得到所述初始音频数据对应的第
一音频数据, 并将所述第一音频数据、 所述图像数据确定为所述待处理视频对应的分离数
据;
当判断结果为否时, 对所述初始音频数据执行参数转换操作, 并将得到的参数转换结
果输入预设的卷积层, 得到所述初始音频数据对应的第二音频数据, 将所述第二音 频数据、
所述图像数据确定为所述待处 理视频对应的分离数据。
8.一种图像辅助音频补全的音频重构装置, 其特 征在于, 所述装置包括:
预处理模块, 用于根据预设的视频预处理方案对获取到的待处理视频执行预处理操
作, 得到所述待处理视频对应的分离数据, 所述分离数据包括音 频数据及图像数据, 所述音
频数据为经过 空白音频去除操作、 采样率转换操作以及特征提取操作中的至少一种操作后
得到的数据;
第一重构模块, 用于根据预设的音频重构模型对所述音频数据执行一级重构操作, 得
到所述音频数据对应的一级重构结果, 所述一级重构结果包括待融合向量, 所述待融合向
量用于与所述图像数据对应的维度向量进行融合, 以重构所述待处理视频, 所述待融合向权 利 要 求 书 2/3 页
3
CN 115440251 A
3
专利 一种图像辅助音频补全的音频重构方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:57上传分享