(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210044795.0
(22)申请日 2022.01.14
(71)申请人 中国平安人寿保险股份有限公司
地址 518000 广东省深圳市福田区益田路
5033号平安金融中心14、 15、 16、 37、
41、 44、 45、 46层
(72)发明人 任俊松 侯晓龙
(74)专利代理 机构 深圳众鼎专利商标代理事务
所(普通合伙) 44325
专利代理师 谭果林
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06F 16/332(2019.01)
(54)发明名称
意图识别方法、 装置、 计算机设备及存储介
质
(57)摘要
本发明公开了一种意图识别方法, 应用于人
工智能技术领域, 用于提高未知意图的识别准确
率。 本发明提供的方法包括: 根据预设的正负向
分类方法对 所述样本标签数据进行分类, 得到至
少一个输入文本对; 将所述输入文本对输入到预
设好的预训练模 型中进行训练, 得到初始语义表
征模型; 将 输入到初始语义表征模 型得到的样本
向量进行聚类, 得到聚类指数和聚类意图标签数
据, 并根据所述聚类指数和聚类意图标签数据得
到语义表征模 型; 将待识别文本数据和样本标签
数据输入到所述语义表征模型, 得到预测语义向
量和验证语义向量; 计算所述预测语义向量与所
述验证语义向量之间的相似度结果, 并根据所述
相似度结果识别所述待识别文本数据中的未知
意图。
权利要求书3页 说明书12页 附图4页
CN 114528844 A
2022.05.24
CN 114528844 A
1.一种意图识别方法, 其特 征在于, 包括:
从预设的数据库中获取样本标签数据和样本无标签数据, 根据 预设的正负向分类方法
对所述样本标签数据进行分类, 得到 至少一个输入文本对;
将所述输入文本对输入到预设的预训练模型中进行训练, 得到初始语义表征模型;
将所述样本标签数据输入到所述初始语义表征模型, 得到样本标签向量, 将所述样本
无标签数据输入到所述初始语义表征模型, 得到样本无 标签向量;
根据预设的聚类方法, 对所述样本标签向量和所述样本无标签向量进行聚类, 得到聚
类指数和聚类意图标签数据, 其中, 所述聚类意图标签数据包括聚类文本和聚类意图标签
数据;
基于所述聚类指数, 通过所述聚类意图标签数据训练所述初始语义表征模型, 得到训
练好的语义表征模型;
从用户端获取用户输入的待识别文本数据, 将所述待识别文本数据输入到所述训练好
的语义表征模型, 得到预测语义向量, 将所述样本标签数据输入到所述训练好的语义表征
模型, 得到验证 语义向量;
通过所述聚类指数, 根据匈牙利算法, 计算所述预测语义向量与所述验证语义向量之
间的相似度结果, 并根据所述相似度结果识别所述待识别文本数据中的未知意图。
2.根据权利要求1所述的意图识别方法, 其特征在于, 所述从预设的数据库中获取样本
标签数据和样本无标签数据, 根据预设的正负向分类方法对所述样本标签数据进行分类,
得到至少一个输入文本对的步骤 包括:
确定所述样本标签数据中的目标文本, 通过向量转换的方式, 计算所述目标文本的目
标文本向量和所述样本标签数据的其 他文本数据的文本向量;
计算所述目标文本向量与 所述其他文本数量的文本向量的相似度 结果, 将相似度 结果
大于第一预设阈值的文本数据作为正向文本, 将相似度结果小于第二预设阈值的文本数据
作为负向文本;
将所述目标文本、 所述 正向文本以及所述负向文本进行组成, 构成输入文本对。
3.根据权利要求1所述的意图识别方法, 其特征在于, 所述从预设的数据库中获取样本
标签数据和样本无标签数据, 根据预设的正负向分类方法对所述样本标签数据进行分类,
得到至少一个输入文本对的步骤 包括:
确定所述样本标签数据的目标文本以及对应的意图标签, 将所述目标文本的意图标签
作为目标意图标签;
通过文本匹配的方式, 计算目标意图标签与所述样本标签数据中的意图标签的相似度
结果, 相似度结果大于第一预设阈值的意图标签对应的文本数据作为正向文本, 相似度结
果小于第二预设阈值的意图标签对应的文本数据作为负向文本;
将所述目标文本、 所述 正向文本以及所述负向文本进行组合, 得到 输入文本对。
4.根据权利要求1所述的意图识别方法, 其特征在于, 所述将所述输入文本对输入到预
设好的预训练模型中进行训练, 得到初始语义表征模型的步骤 包括:
基于注意力机制构建预训练模型, 并构建正向损失函数和负向损失函数;
通过所述正向损失函数和负向损失函数对所述预训练模型进行参数调整, 得到初始语
义表征模型。权 利 要 求 书 1/3 页
2
CN 114528844 A
25.根据权利要求1所述的意图识别方法, 其特征在于, 所述根据预设的聚类方法, 对所
述样本标签向量和所述样本无标签向量进 行聚类, 得到聚类指数和聚类意图标签数据的步
骤包括:
根据预设的聚类簇数量, 通过k ‑means聚类方式, 对所述样本标签向量和 样本无标签向
量进行聚类, 得到 至少一个聚类标签簇;
根据预设的筛选方式, 在所述聚类标签簇中选择出目标聚类标签簇, 作为聚类意图标
签数据, 并根据所述目标聚类标签簇计算聚类指数。
6.根据权利要求1所述的意图识别方法, 其特征在于, 所述通过所述聚类指数, 根据匈
牙利算法, 计算所述预测语义向量与所述验证语义向量之间的相似度结果, 并根据所述相
似度结果识别所述待识别文本数据中的未知意图的步骤 包括:
根据所述聚类指数, 对所述预测语义向量进行聚类, 得到预测聚类结果, 对所述验证语
义向量进行聚类, 得到验证聚类结果, 其中, 预测聚类结果包括预测聚类簇, 所述验证聚类
结果包括验证聚类簇;
基于匈牙利算法, 计算所述预测聚类结果与所述验证聚类结果之间的距离矩阵, 并基
于最大匹配算法, 识别出 所述预测聚类结果中的未知意图。
7.一种意图识别装置, 其特 征在于, 包括如下模块:
数据获取模块, 用于从预设的数据库中获取样本标签数据和样本无标签数据, 根据预
设的正负向分类方法对所述样本标签数据进行分类, 得到 至少一个输入文本对;
初始模型训练模块, 用于将所述输入文本对输入到预设的预训练模型中进行训练, 得
到初始语义表征模型;
样本向量生成模块, 用于将所述样本标签数据输入到所述初始语义表征模型, 得到样
本标签向量, 将所述样本无 标签数据输入到所述初始语义表征模型, 得到样本无 标签向量;
聚类模块, 用于根据预设的聚类方法, 对所述样本标签向量和所述样本无标签向量进
行聚类, 得到聚类指数和聚类意图标签数据, 其中, 所述聚类意图标签数据包括聚类文本和
聚类意图标签数据;
表征模型训练模块, 用于基于所述聚类指数, 通过所述聚类意图标签数据训练所述初
始语义表征模型, 得到训练好的语义表征模型;
向量表征模块, 用于从用户端获取用户输入的待识别文本数据, 将所述待识别文本数
据输入到所述训练好的语义表征模型, 得到预测语义向量, 将所述样本标签数据输入到所
述训练好的语义表征模型, 得到验证 语义向量;
意图识别模块, 用于通过所述聚类指数, 根据匈牙利算法, 计算所述预测语义向量与所
述验证语义向量之 间的相似度结果, 并根据所述相似度结果识别所述待识别文本数据中的
未知意图。
8.根据权利要求7 所述的意图识别装置, 其特 征在于, 所述数据获取模块包括:
向量转换单元, 用于确定所述样本标签数据中的目标文本, 通过向量转换的方式, 计算
所述目标文本的目标文本向量和所述样本标签数据的其 他文本数据的文本向量;
正负向分类单元, 用于计算所述目标文本向量与 所述其他文本数量的文本向量的相似
度结果, 将相似度结果大于第一预设阈值的文本数据作为正向文本, 将相似度结果小于第
二预设阈值的文本数据作为负向文本;权 利 要 求 书 2/3 页
3
CN 114528844 A
3
专利 意图识别方法、装置、计算机设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:25上传分享