专利 文本匹配方法及装置、存储介质、终端

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210170758.4 (22)申请日 2022.02.23 (71)申请人华院计算技术（上海）股份有限公司地址 200436 上海市静安区万荣路1268号云立方A栋9 楼 (72)发明人蔡华　陆逸骁　张路平　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师骆苏华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称文本匹配方法及装置、存储介质、终端 (57)摘要一种文本匹配方法及装置、存储介质、终端，所述方法包括：获取第一文本；构建所述第一文本的要素图；提取所述第一文本的语义信息；获取第二文本的语义信息和结构信息，所述第二文本的结构信息包括：所述第二文本的要素图和/ 或图嵌入特征信息，所述图嵌入特征信息是根据所述要素图计算得到的；根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息，确定所述第一文本和所述第二文本的匹配结果。通过本发明提供的方案，能够提高文本匹配的准确度。权利要求书3页说明书15页附图3页 CN 114661861 A 2022.06.24 CN 114661861 A 1.一种文本匹配方法，其特征在于，所述方法包括：获取第一文本；构建所述第一文本的要素图；提取所述第一文本的语义信息；获取第二文本的语义信息和结构信息，所述第二文本的结构信息包括：所述第二文本的要素图和/或图嵌入特征信息，所述图嵌入特征信息是根据所述要素图计算得到的；根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息，确定所述第一文本和所述第二文本的匹配结果；其中，所述要素图包括多个节点、节点之间的边和边的权重，其中，所述节点为文本中包含的要素，所述节点之间的边用于指示边连接的两个节点之间的关联关系，所述边的权重用于指示边连接的两个节点之间的关联程度。 2.根据权利要求1所述的文本匹配方法，其特征在于，构建所述第一文本的要素图包括：构建所述第一文本的初始要素图，所述初始要素图包括：所述多个节点和所述节点之间的边，所述节点之间的边用于指示边连接的两个节点是否位于同一个句子中；确定每个节点在所述第一文本中对应的句子集，其中，所述句子集中的句子均与该节点对应的要素相关联；对于边连接的两个节点，计算所述两个节点对应的句子集之间的相似度，以得到所述两个节点之间的边的权重。 3.根据权利要求2所述的文本匹配方法，其特征在于，从所述第一文本中确定每个节点对应的句子集包括：计算每个句子和各个节点之间的相似度；如果任一句子与每个节点之间的相似度均小于第五预设阈值，则剔除该句子。 4.根据权利要求2所述的文本匹配方法，其特征在于，从所述第一文本中确定每个节点对应的句子集之前，所述方法还包括：对于所述初始要素图中的多个节点进行去重处理。 5.根据权利要求1所述的文本匹配方法，其特征在于，提取所述第一文本的语义信息包括：将所述第一文本输入至语义提取模型，以得到所述语义提取模型输出的语义特征向量；其中，所述语义提取模型是采用样本文本对第一预设模型进行训练得到的，所述样本文本与所述第一文本属于同一领域，所述样本文本具有预先标注的标签。 6.根据权利要求5所述的文本匹配方法，其特征在于，所述领域为法律文书领域，所述标签包括以下一项或多项：引用法条、案由和文书类型。 7.根据权利要求1所述的文本匹配方法，其特征在于，根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息，确定所述第一文本和所述第二文本的匹配结果包括：对第一要素图和第二要素图进行融合处理，以得到融合后的要素图，其中，所述第一要素图为所述第一文本的要素图，所述第二要素图为所述第二文本的要素图；权　利　要　求　书 1/3 页 2 CN 114661861 A 2采用第一图卷积网络计算所述融合后的要素图对应的图嵌入特征向量，记为融合图特征向量；对融合语义特征向量和所述融合图特征向量进行融合处理，以得到融合后的特征向量，其中，所述融合语义特征向量是由所述第一文本的语义特征向量和所述第二文本的语义特征向量进行融合处理得到的；采用第一分类器根据所述融合后的特征向量，确定所述匹配结果。 8.根据权利要求7所述的文本匹配方法，其特征在于，所述第一图卷积网络和所述第一分类器是采用第一训练样本对第一预设图卷积网络和第一预设分类器进行训练得到的，所述第一训练样本包括：第一样本文本的语义信息和要素图、第二样本文本的语义信息和要素图，以及预先标注的第一标签，所述第一标签用于指示所述第一样本文本和第二样本文本的真实匹配结果，根据所述第一文本的语义信息、要素图和所述第二文本的语义信息、结构信息，确定所述第一文本和所述第二文本的匹配结果之前，所述方法还包括：对所述第一样本文本的要素图和所述第二样本文本的要素图进行融合处理，以得到融合后的样本要素图；采用所述第一预设图卷积网络计算所述融合后的样本要素图对应的图嵌入特征向量，记为融合样本图特征向量；对融合样本语义特征向量和所述融合样本图特征向量进行融合处理，以得到融合后的样本特征向量，其中，所述融合样本语义特征向量是对所述第一样本文本的语义特征向量和所述第二样本文本的语义特征向量进行融合处理得到的；采用所述第一预设分类器根据所述融合后的样本特征向量确定第一预测匹配结果；根据所述第一预测匹配结果和所述第一标签计算第一预测损失，并根据所述第一预测损失更新所述第一预设图卷积网络和所述第一预设分类器，直至满足预设的训练停止条件。 9.根据权利要求7所述的文本匹配方法，其特征在于，所述融合后的要素图包括：多个对齐节点，所述对齐节点之间的边和所述对齐节点之间的边的权重，其中，所述对齐节点为在所述第一要素图和所述第二要素图中均存在的节点，每个对齐节点具有特征信息，所述对第一文本的要素图和所述第二文本的要素图进行融合处理包括：确定所述多个对齐节点；对于每两个对齐节点，判断在所述第一要素图或所述第二要素图中该两个对齐节点之间是否存在边，如果是，则构建该两个对齐节点之间的边，其中，所述对齐节点之间的边的权重是根据所述对齐节点之间的边在所述第一要素图中的权重和/或在所述第二要素图中的权重确定的；对于每个对齐节点，根据该对齐节点的第一句子集和第二句子集，确定该对齐节点的特征信息；其中，所述第一句子集为在所述第一要素图中对应的句子集，所述第二句子集为在所述第二要素图中对应的句子集。 10.根据权利要求9所述的文本匹配方法，其特征在于，根据每个对齐节点的第一句子集和第二句子集，确定该对齐节点的特征信息包括：对于每个对齐节点，对该对齐节点的第一句子集的语义信息和第二句子集的语义信息权　利　要　求　书 2/3 页 3 CN 114661861 A 3

专利 文本匹配方法及装置、存储介质、终端

专利文本匹配方法及装置、存储介质、终端