(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210175343.6
(22)申请日 2022.02.25
(71)申请人 深圳TCL新技术有限公司
地址 518052 广东省深圳市南 山区西丽 街
道中山园路10 01号国际E城D4栋9 楼
(72)发明人 不公告发明人
(74)专利代理 机构 深圳紫藤知识产权代理有限
公司 44570
专利代理师 何艳
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/30(2020.01)
G06F 40/247(2020.01)
G06F 16/73(2019.01)
(54)发明名称
词语相似度确定方法、 装置、 存储介质及计
算机设备
(57)摘要
本申请公开了一种词语相似度确定方法、 装
置、 存储介质及计算机设备, 该方法应用于计算
机设备中, 包括: 基于同义词词林确定第一词语
所对应的第一义项集合和第二词语所对应的第
二义项集合, 并确定第一义项集合中处于叶子结
点的第一义项在叶子结点中的第一同义词义项
集合, 以及确定第二义项集合中处于叶子结点的
第二义项在叶子结点中的第二同义词义项集合,
根据各第一义项和各第二义项、 以及第一同义词
义项集合中的各第一同义词义项与第二同义词
义项集合中的各第二同义词义项, 确定各第一义
项和各第二义项之间的义项相似度, 根据义项相
似度来确定第一词语和第二词语 之间的相似度。
本申请实施例提高了词语相似度确定的准确性。
权利要求书3页 说明书18页 附图7页
CN 114548124 A
2022.05.27
CN 114548124 A
1.一种词语相似度确定方法, 其特 征在于, 包括:
获取需确定相似度的第一词语和第二词语;
基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项
集合;
基于同义词词林确定第一义项集合中处于叶子结点的第一义项在所述叶子结点中的
同义词义项集合, 作为第一同义词义项集合, 以及确定第二义项集合中处于叶子结点的第
二义项在所述叶子结点中的同义词义项集 合, 作为第二同义词义项集 合;
根据所述第 一义项集合中各第 一义项和所述第 二义项集合中的各第 二义项、 以及所述
第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义
项, 确定各第一 义项和各第二 义项之间的义项相似度;
根据所述 义项相似度确定所述第一词语和所述第二词语之间的相似度。
2.根据权利要求1所述的词语相似度确定方法, 其特征在于, 所述根据 所述第一义项集
合中各第一义项和所述第二义项集合中的各第二义项、 以及所述第一同义词义项集合中的
各第一同义词义项与第二同义词义项集合中的各第二同义词义项, 确定各第一义项和各第
二义项之间的义项相似度的步骤, 包括:
根据所述第 一义项集合中各第 一义项和所述第 二义项集合中的各第 二义项、 以及所述
第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义
项, 确定各第一 义项和各第二 义项之间的义项共同特 征和义项差异特 征;
根据所述义项共同特征和所述义项差异特征确定各第一义项和各第二义项之间的义
项相似度。
3.根据权利要求2所述的词语相似度确定方法, 其特征在于, 所述根据 所述第一义项集
合中各第一义项和所述第二义项集合中的各第二义项、 以及所述第一同义词义项集合中的
各第一同义词义项与第二同义词义项集合中的各第二同义词义项, 确定各第一义项和各第
二义项之间的义项共同特 征和义项差异特 征的步骤, 包括:
确定所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项之间的第
一相似度;
确定所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各
第二同义词义项之间的第二相似度;
根据所述第一相似度和所述第二相似度确定各第一义项和各第二义项之间的义项共
同特征;
基于各第一义项和各第 二义项的最短路径长度, 确定各第 一义项和各第 二义项之间的
义项差异特 征。
4.根据权利要求3所述的词语相似度确定方法, 其特征在于, 所述根据 所述第一相似度
和所述第二相似度确定各第一 义项和各第二 义项之间的义项共同特 征的步骤, 包括:
将第二相似度按照从高到低的顺序排列, 并获取 前预设数量的目标第二相似度;
获取第一超参数以及预设数量的第 二超参数, 所述第 二超参数与所述目标第 二相似度
一一对应, 所述第一超参数和预设数量的所述第二超参数相加之后的和为 一;
利用所述第一超参数、 所述第二超参数分别与所述第一相似度、 所述目标第二相似度
进行加权求和, 以得到各第一 义项和各第二 义项之间的义项共同特 征。权 利 要 求 书 1/3 页
2
CN 114548124 A
25.根据权利要求3所述的词语相似度确定方法, 其特征在于, 所述基于各第 一义项和各
第二义项的最短路径长度, 确定各第一义项和各第二义项之间的义项差异特征 的步骤, 包
括:
获取各第一义项和各第 二义项的最短路径长度、 各第 一义项和各第 二义项的最近公共
父结点;
获取所述最近公共父结点所对应的层数权重, 以及确定所述最近公共父结点的直接孩
子数、 各第一 义项和各第二 义项所在的所述 最近公共父 结点的分支 距离;
根据所述最短路径长度、 所述层数权重、 所述直接孩子数和所述分支距离确定各第一
义项和各第二 义项之间的义项差异特 征。
6.根据权利要5所述的词语相似度确定方法, 其特征在于, 所述获取各第 一义项和各第
二义项的最短路径长度的步骤, 包括:
根据第一词语所对应的各第一义项与所述第二词语所对应的各第二义项的最近公共
父结点和叶子结点中是否存在所述第一词语或者所述第二词语来确定各第一义项和各第
二义项的最短路径长度。
7.根据权利要求6所述的词语相似度确定方法, 其特征在于, 所述根据第 一词语所对应
的各第一义项与所述第二词语所对应的各第二义项的最近公共父结点和叶子结点中是否
存在所述第一词语或者所述第二词语来确定各第一义项和各第二义项的最短路径长度的
步骤, 包括:
当所述第一词语所对应的第一义项和所述第二词语所对应的第二义项的最近公共父
结点中包括所述第一词语或者所述第二词语, 则所述第一义项和所述第二义项的最短路径
长度为所述最近公共父结点与所述第二义项 所对应的分支结点的路径长度, 或者为所述最
近公共父 结点与所述第一 义项所对应的分支结点的路径长度;
当所述第一词语所对应的第一义项和所述第二词语所对应的第二义项仅在叶子结点
中出现, 则所述第一义项和所述第二义项的最短路径长度为所述第一义项 所对应的叶子结
点到所述最近公共父结点之 间的路径长度、 与所述第二义项 所对应的叶子结点到所述最近
公共父结点之间的路径长度之和;
当所述第一词语所对应的第一义项与所述第二词语所对应的第二义项的最近公共父
结点中不包括第一词语或者第二词语, 但第一词语或者第二词语既在叶子结点中出现, 同
时也在非最近公共父结点中出现, 则所述第一义项和所述第二义项的最短路径长度为所述
第一义项 所对应的叶子结点到所述最近公共父结点之 间的路径长度、 与所述第二义项 所对
应的叶子结点到所述 最近公共父 结点之间的路径长度之和;
当所述第一词语所对应的第一义项与所述第二词语所对应的第二义项不仅在所述最
近公共父结点中出现, 同时也在对应的叶子结点中出现, 则所述第一义项和所述第二义项
的最短路径长度为所述第一义项所对应的叶子结点到所述最近公共父结点之间的路径长
度、 与所述第二 义项所对应的叶子结点到所述 最近公共父 结点之间的路径长度之和。
8.一种词语相似度确定装置, 其特 征在于, 包括:
获取模块, 用于获取需确定相似度的第一词语和第二词语;
第一义项确定模块, 用于基于同义词词林确定第 一词语所对应的第 一义项集合和第 二
词语所对应的第二 义项集合;权 利 要 求 书 2/3 页
3
CN 114548124 A
3
专利 词语相似度确定方法、装置、存储介质及计算机设备
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:26上传分享