专利 意图识别方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210044795.0 (22)申请日 2022.01.14 (71)申请人中国平安人寿保险股份有限公司地址 518000 广东省深圳市福田区益田路 5033号平安金融中心14、 15、 16、 37、 41、 44、 45、 46层 (72)发明人任俊松　侯晓龙　 (74)专利代理机构深圳众鼎专利商标代理事务所(普通合伙) 44325 专利代理师谭果林 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 16/332(2019.01) (54)发明名称意图识别方法、装置、计算机设备及存储介质 (57)摘要本发明公开了一种意图识别方法，应用于人工智能技术领域，用于提高未知意图的识别准确率。本发明提供的方法包括：根据预设的正负向分类方法对所述样本标签数据进行分类，得到至少一个输入文本对；将所述输入文本对输入到预设好的预训练模型中进行训练，得到初始语义表征模型；将输入到初始语义表征模型得到的样本向量进行聚类，得到聚类指数和聚类意图标签数据，并根据所述聚类指数和聚类意图标签数据得到语义表征模型；将待识别文本数据和样本标签数据输入到所述语义表征模型，得到预测语义向量和验证语义向量；计算所述预测语义向量与所述验证语义向量之间的相似度结果，并根据所述相似度结果识别所述待识别文本数据中的未知意图。权利要求书3页说明书12页附图4页 CN 114528844 A 2022.05.24 CN 114528844 A 1.一种意图识别方法，其特征在于，包括：从预设的数据库中获取样本标签数据和样本无标签数据，根据预设的正负向分类方法对所述样本标签数据进行分类，得到至少一个输入文本对；将所述输入文本对输入到预设的预训练模型中进行训练，得到初始语义表征模型；将所述样本标签数据输入到所述初始语义表征模型，得到样本标签向量，将所述样本无标签数据输入到所述初始语义表征模型，得到样本无标签向量；根据预设的聚类方法，对所述样本标签向量和所述样本无标签向量进行聚类，得到聚类指数和聚类意图标签数据，其中，所述聚类意图标签数据包括聚类文本和聚类意图标签数据；基于所述聚类指数，通过所述聚类意图标签数据训练所述初始语义表征模型，得到训练好的语义表征模型；从用户端获取用户输入的待识别文本数据，将所述待识别文本数据输入到所述训练好的语义表征模型，得到预测语义向量，将所述样本标签数据输入到所述训练好的语义表征模型，得到验证语义向量；通过所述聚类指数，根据匈牙利算法，计算所述预测语义向量与所述验证语义向量之间的相似度结果，并根据所述相似度结果识别所述待识别文本数据中的未知意图。 2.根据权利要求1所述的意图识别方法，其特征在于，所述从预设的数据库中获取样本标签数据和样本无标签数据，根据预设的正负向分类方法对所述样本标签数据进行分类，得到至少一个输入文本对的步骤包括：确定所述样本标签数据中的目标文本，通过向量转换的方式，计算所述目标文本的目标文本向量和所述样本标签数据的其他文本数据的文本向量；计算所述目标文本向量与所述其他文本数量的文本向量的相似度结果，将相似度结果大于第一预设阈值的文本数据作为正向文本，将相似度结果小于第二预设阈值的文本数据作为负向文本；将所述目标文本、所述正向文本以及所述负向文本进行组成，构成输入文本对。 3.根据权利要求1所述的意图识别方法，其特征在于，所述从预设的数据库中获取样本标签数据和样本无标签数据，根据预设的正负向分类方法对所述样本标签数据进行分类，得到至少一个输入文本对的步骤包括：确定所述样本标签数据的目标文本以及对应的意图标签，将所述目标文本的意图标签作为目标意图标签；通过文本匹配的方式，计算目标意图标签与所述样本标签数据中的意图标签的相似度结果，相似度结果大于第一预设阈值的意图标签对应的文本数据作为正向文本，相似度结果小于第二预设阈值的意图标签对应的文本数据作为负向文本；将所述目标文本、所述正向文本以及所述负向文本进行组合，得到输入文本对。 4.根据权利要求1所述的意图识别方法，其特征在于，所述将所述输入文本对输入到预设好的预训练模型中进行训练，得到初始语义表征模型的步骤包括：基于注意力机制构建预训练模型，并构建正向损失函数和负向损失函数；通过所述正向损失函数和负向损失函数对所述预训练模型进行参数调整，得到初始语义表征模型。权　利　要　求　书 1/3 页 2 CN 114528844 A 25.根据权利要求1所述的意图识别方法，其特征在于，所述根据预设的聚类方法，对所述样本标签向量和所述样本无标签向量进行聚类，得到聚类指数和聚类意图标签数据的步骤包括：根据预设的聚类簇数量，通过k ‑means聚类方式，对所述样本标签向量和样本无标签向量进行聚类，得到至少一个聚类标签簇；根据预设的筛选方式，在所述聚类标签簇中选择出目标聚类标签簇，作为聚类意图标签数据，并根据所述目标聚类标签簇计算聚类指数。 6.根据权利要求1所述的意图识别方法，其特征在于，所述通过所述聚类指数，根据匈牙利算法，计算所述预测语义向量与所述验证语义向量之间的相似度结果，并根据所述相似度结果识别所述待识别文本数据中的未知意图的步骤包括：根据所述聚类指数，对所述预测语义向量进行聚类，得到预测聚类结果，对所述验证语义向量进行聚类，得到验证聚类结果，其中，预测聚类结果包括预测聚类簇，所述验证聚类结果包括验证聚类簇；基于匈牙利算法，计算所述预测聚类结果与所述验证聚类结果之间的距离矩阵，并基于最大匹配算法，识别出所述预测聚类结果中的未知意图。 7.一种意图识别装置，其特征在于，包括如下模块：数据获取模块，用于从预设的数据库中获取样本标签数据和样本无标签数据，根据预设的正负向分类方法对所述样本标签数据进行分类，得到至少一个输入文本对；初始模型训练模块，用于将所述输入文本对输入到预设的预训练模型中进行训练，得到初始语义表征模型；样本向量生成模块，用于将所述样本标签数据输入到所述初始语义表征模型，得到样本标签向量，将所述样本无标签数据输入到所述初始语义表征模型，得到样本无标签向量；聚类模块，用于根据预设的聚类方法，对所述样本标签向量和所述样本无标签向量进行聚类，得到聚类指数和聚类意图标签数据，其中，所述聚类意图标签数据包括聚类文本和聚类意图标签数据；表征模型训练模块，用于基于所述聚类指数，通过所述聚类意图标签数据训练所述初始语义表征模型，得到训练好的语义表征模型；向量表征模块，用于从用户端获取用户输入的待识别文本数据，将所述待识别文本数据输入到所述训练好的语义表征模型，得到预测语义向量，将所述样本标签数据输入到所述训练好的语义表征模型，得到验证语义向量；意图识别模块，用于通过所述聚类指数，根据匈牙利算法，计算所述预测语义向量与所述验证语义向量之间的相似度结果，并根据所述相似度结果识别所述待识别文本数据中的未知意图。 8.根据权利要求7 所述的意图识别装置，其特征在于，所述数据获取模块包括：向量转换单元，用于确定所述样本标签数据中的目标文本，通过向量转换的方式，计算所述目标文本的目标文本向量和所述样本标签数据的其他文本数据的文本向量；正负向分类单元，用于计算所述目标文本向量与所述其他文本数量的文本向量的相似度结果，将相似度结果大于第一预设阈值的文本数据作为正向文本，将相似度结果小于第二预设阈值的文本数据作为负向文本；权　利　要　求　书 2/3 页 3 CN 114528844 A 3

专利 意图识别方法、装置、计算机设备及存储介质

专利意图识别方法、装置、计算机设备及存储介质