(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210170758.4
(22)申请日 2022.02.23
(71)申请人 华院计算 技术 (上海) 股份有限公司
地址 200436 上海市 静安区万 荣路1268号
云立方A栋9 楼
(72)发明人 蔡华 陆逸骁 张路平
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 骆苏华
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
文本匹配方法及装置、 存 储介质、 终端
(57)摘要
一种文本匹配方法及装置、 存储介质、 终端,
所述方法包括: 获取第一文本; 构建所述第一文
本的要素图; 提取所述第一文本的语义信息; 获
取第二文本的语义信息和结构信息, 所述第二文
本的结构信息包括: 所述第二文本的要素图和/
或图嵌入特征信息, 所述图嵌入 特征信息是根据
所述要素图计算得到的; 根据所述第一文本的语
义信息、 要素图和所述第二文本的语义信息、 结
构信息, 确定所述第一文本和所述第二文本的匹
配结果。 通过本发明提供的方案, 能够提高文本
匹配的准确度。
权利要求书3页 说明书15页 附图3页
CN 114661861 A
2022.06.24
CN 114661861 A
1.一种文本匹配方法, 其特 征在于, 所述方法包括:
获取第一文本;
构建所述第一文本的要素图;
提取所述第一文本的语义信息;
获取第二文本的语义信息和结构信息, 所述第二文本的结构信息包括: 所述第二文本
的要素图和/或图嵌入特 征信息, 所述图嵌入特 征信息是根据所述要素图计算得到的;
根据所述第一文本的语义信息、 要素图和所述第 二文本的语义信 息、 结构信息, 确定所
述第一文本和所述第二文本的匹配结果;
其中, 所述要素图包括多个节点、 节点之间的边和边的权重, 其中, 所述节点为文本中
包含的要素, 所述节点之间的边用于指示边连接的两个节点之间的关联关系, 所述边的权
重用于指示 边连接的两个节点之间的关联程度。
2.根据权利要求1所述的文本匹配方法, 其特征在于, 构建所述第一文本的要素图包
括:
构建所述第一文本的初始要素图, 所述初始要素图包括: 所述多个节点和所述节点之
间的边, 所述节点之间的边用于指示 边连接的两个节点是否位于同一个句子中;
确定每个节点在所述第一文本中对应的句子集, 其中, 所述句子集中的句子均与该节
点对应的要素相关联;
对于边连接的两个节点, 计算所述两个节点对应的句子集之间的相似度, 以得到所述
两个节点之间的边的权 重。
3.根据权利要求2所述的文本匹配方法, 其特征在于, 从所述第 一文本中确定每个节点
对应的句子集包括:
计算每个句子和各个节点之间的相似度;
如果任一句子与每 个节点之间的相似度均小于第五预设阈值, 则剔除该句子 。
4.根据权利要求2所述的文本匹配方法, 其特征在于, 从所述第 一文本中确定每个节点
对应的句子集之前, 所述方法还 包括:
对于所述初始要素图中的多个节点进行去重处 理。
5.根据权利要求1所述的文本匹配方法, 其特征在于, 提取所述第 一文本的语义信 息包
括:
将所述第一文本输入至语义提取模型, 以得到所述语义提取模型输出的语义特征向
量;
其中, 所述语义提取模型是采用样本文本对第一预设模型进行训练得到的, 所述样本
文本与所述第一文本属于同一领域, 所述样本文本具有预 先标注的标签。
6.根据权利要求5所述的文本匹配方法, 其特征在于, 所述领域为法律文书领域, 所述
标签包括以下一项或多 项: 引用法条、 案由和文 书类型。
7.根据权利要求1所述的文本匹配方法, 其特征在于, 根据所述第一文本的语义信息、
要素图和所述第二文本的语义信息、 结构信息, 确定所述第一文本和所述第二文本的匹配
结果包括:
对第一要素图和第二要素图进行融合处理, 以得到 融合后的要素图, 其中, 所述第一要
素图为所述第一文本的要素图, 所述第二要素图为所述第二文本的要素图;权 利 要 求 书 1/3 页
2
CN 114661861 A
2采用第一图卷积网络计算所述融合后的要素图对应的图嵌入特征向量, 记为融合图特
征向量;
对融合语义特征向量和所述融合图特征向量进行融合处理, 以得到融合后的特征向
量, 其中, 所述融合语义特征向量是 由所述第一文本的语义特征向量和所述第二文本的语
义特征向量进行融合处 理得到的;
采用第一分类 器根据所述融合后的特 征向量, 确定所述匹配结果。
8.根据权利要求7所述的文本匹配方法, 其特征在于, 所述第 一图卷积网络和所述第 一
分类器是采用第一训练样本对第一预设图卷积网络和 第一预设分类器进 行训练得到的, 所
述第一训练样本包括: 第一样本文本的语义信息和要素图、 第二样本文本的语义信息和要
素图, 以及预先标注的第一标签, 所述第一标签用于指示所述第一样本文本和第二样本文
本的真实匹配结果, 根据所述第一文本的语义信息、 要 素图和所述第二文本的语义信息、 结
构信息, 确定所述第一文本和所述第二文本的匹配结果之前, 所述方法还 包括:
对所述第一样本文本的要素图和所述第 二样本文本的要素图进行融合处理, 以得到融
合后的样本要素图;
采用所述第 一预设图卷积网络计算所述融合后的样本要素图对应的图嵌入特征向量,
记为融合样本图特 征向量;
对融合样本语义特征向量和所述融合样本图特征向量进行融合处理, 以得到融合后的
样本特征向量, 其中, 所述融合样本语义特征向量是对所述第一样本文本的语义特征向量
和所述第二样本文本的语义特 征向量进行融合处 理得到的;
采用所述第一预设 分类器根据所述融合后的样本特 征向量确定第一预测匹配结果;
根据所述第 一预测匹配结果和所述第 一标签计算第 一预测损失, 并根据 所述第一预测
损失更新所述第一预设图卷积网络和所述第一预设分类器, 直至满足预设的训练停止条
件。
9.根据权利要求7所述的文本匹配方法, 其特征在于, 所述融合后的要素图包括: 多个
对齐节点, 所述对齐节点之 间的边和所述对齐节 点之间的边的权重, 其中, 所述对齐节点为
在所述第一要素图和所述第二要素图中均存在的节点, 每个对齐节点具有特征信息, 所述
对第一文本的要素图和所述第二文本的要素图进行融合处 理包括:
确定所述多个对齐节点;
对于每两个对齐节点, 判断在所述第 一要素图或所述第 二要素图中该两个对齐节点之
间是否存在边, 如果是, 则构建该两个对齐节点之间的边, 其中, 所述对齐节点之间的边的
权重是根据所述对齐节点之 间的边在所述第一要 素图中的权重和/或在所述第二要素图中
的权重确定的;
对于每个对齐节点, 根据该对齐节点的第一句子集和第二句子集, 确定该对齐节点的
特征信息;
其中, 所述第一句子集为在所述第一要素图中对应的句子集, 所述第二句子集为在所
述第二要素图中对应的句子集。
10.根据权利要求9所述的文本匹配方法, 其特征在于, 根据每个对齐节点的第一句子
集和第二句子集, 确定该对齐节点的特 征信息包括:
对于每个对齐节点, 对该对齐节点的第 一句子集的语义信 息和第二句子集的语义信 息权 利 要 求 书 2/3 页
3
CN 114661861 A
3
专利 文本匹配方法及装置、存储介质、终端
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:28上传分享