(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211069742.0
(22)申请日 2022.09.01
(71)申请人 迪吉凡特 (宁波) 数字技 术有限公司
地址 315000 浙江省宁波市 保税区兴业大
道2号A812室
(72)发明人 王楠 王波 史永生 李宏业
(74)专利代理 机构 北京惟专知识产权代理事务
所(普通合伙) 16074
专利代理师 赵星
(51)Int.Cl.
G06F 16/335(2019.01)
G06Q 10/06(2012.01)
G06Q 10/10(2012.01)
(54)发明名称
基于信息处理方法的核心人员挖掘方法、 装
置和存储介质
(57)摘要
本发明公开了一种信息处理方法, 提取待处
理文本中的提及, 基于知识库生成对应候选实
体, 通过动态超图实现实体消歧并确定与提及对
应的目标实体, 继而对提及进行规范化标记, 此
方法提高了文本提及识别的准确率和处理效率;
本发明还公开了一种核心人员挖掘方法和装置,
基于数据库中获取的科技文 献, 运用上述信息处
理方法提取并规范人员信息, 建立多维度的人员
评估模型, 实现高效、 智 能地分析所属技术领域
的人员价 值, 精准获取 所需的核心人员。
权利要求书4页 说明书11页 附图3页
CN 115269816 A
2022.11.01
CN 115269816 A
1.一种信息处 理方法, 其特 征在于, 包括:
获取待处 理的文本;
提取所述文本的提及;
根据知识库, 获取与所述 提及对应的候选实体的集 合;
提取所述提及和其对应的候选实体的特 征信息, 确定与所述 提及对应的目标实体;
对所述确定目标实体的提及进行规范化标记。
2.根据权利要求1所述的一种信息处理方法, 其特征在于, 所述提取所述文本的提及,
是通过实体提及识别方法识别所述文本中的实体名称, 并称之为提及; 所述实体提及识别
方法采用命名实体识别技 术。
3.根据权利要求1所述的一种信 息处理方法, 其特征在于, 所述获取所述提及对应的候
选实体的集合包括: 基于知识库计算提及与其相关实体间的先验概率; 按照所述先验概率
由高到低排序; 选取 预设数量的相关实体作为所述 提及对应的候选实体。
4.根据权利要求1所述的一种信 息处理方法, 其特征在于, 所述提取所述提及和其对应
的候选实体的特 征信息, 确定与所述 提及对应的目标实体包括:
基于所述 提及和其对应的候选实体, 生成多个提及候选实体对;
提取所述提及的提及特 征;
提取所述候选实体的候选实体特 征;
构建动态超图;
处理动态超图, 确定所述 提及的目标实体;
其中, 所述构建动态超图包括:
对每个所述提及候选实体对生成对应的节点, 并将所述提及特征和所述候选实体特征
嵌入至所述节点;
对多个节点建立超边, 所述超边表示节点之间的相关性;
所述处理动态超图, 确定所述 提及的目标实体包括:
对所述节点和所述超边进行卷积处理, 得到各节点的相关性分数, 选择所述相关性分
数最大的节点对应的候选实体作为目标实体。
5.一种核心人员挖掘方法, 包括权利要求1~4所述的一种信 息处理方法, 其特征在于,
包括:
获取待处 理技术领域的科技文献;
基于所述科技文献, 进行 人员实体链接和对齐;
建立技术人员评估 模型。
6.根据权利要求5所述的一种核心人员挖掘方法, 其特 征在于,
所述获取待处理技术领域的科技文献包括: 根据所述技术领域信息构建检索式, 基于
数据库和所述检索式筛 选出所述科技文献;
所述建立技术人员评估模型包括: 分析和统计科技文献, 设定科技文献的权重值, 计算
各技术人员的评估分数;
其中, 所述技术领域包括人工编辑的技术领域、 自动推荐的技术领域和科技文献中提
炼的共性分类名称; 所述科技文献包括专利和 论文; 所述分析和统计科技文献包括提取所
述科技文献的关键信息, 所述关键信息包括基本字段、 衍生字段和文本内容加工出来的特权 利 要 求 书 1/4 页
2
CN 115269816 A
2征字段。
7.根据权利要求5所述的一种 核心人员挖掘方法, 其特征在于, 所述人员实体链接和对
齐包括人员提及识别、 人员消歧和人员标记;
所述人员提及识别是识别所述科技文献中的人员名称, 并将所述人员名称作为人员提
及;
所述人员消歧是基于知识库得到所述人员提及对应的目标人员, 即得到标准的人员名
称;
所述人员标记是对确定目标 人员的人员提及进行规范化标记。
8.根据权利要求7所述的一种 核心人员挖掘方法, 其特征在于, 所述人员消歧包括候选
人员生成和人员排序;
所述候选人员生成是基于知识库生成与所述人员提及相关的多个候选人员;
所述候选人员生成包括:
计算人员提及与相关人员间的先验概率, 提取跨文档背景的人物一致性特征, 基于所
述先验概 率选择预设数量的相关人员作为 候选人员;
所述人员排序 是计算所述提及与其相对应的候选人员的相关性分数, 排序并选取相关
性分数最大的候选人员作为所述人员提及的目标 人员;
所述人员排序包括:
基于所述人员提及和其对应的候选人员, 生成多个提及候选人员对;
提取所述人员提及的人员提及特 征;
提取所述候选人员的候选人员特 征;
构建人员动态超图;
处理人员动态超图, 确定所述人员提及的目标 人员。
9.根据权利要求8所述的一种 核心人员挖掘方法, 其特征在于, 所述构建人员动态超图
包括: 对每对所述提及候选人员对生成对应的人员节点, 并将其对应的人员提及特征和候
选人员特 征嵌入至所述人员节点; 对多个人员节点构建人员超边;
所述处理人员动态超图, 确定所述人员提及的目标人员包括: 对每个人员节点的所有
人员超边进行卷积处理, 得到各人员节点的相关性分数; 选取最大 的相关性分数 的人员节
点对应的候选人员作为目标 人员。
10.根据权利要求8所述的一种核心人员挖掘方法, 其特征在于, 所述计算人员提及与
相关人员间的先验概率包括对文本进行预处理, 所述预处理包括, 设输入文档为d, 识别所
述输入文档d中的人员提及, 在 知识库中检索出与所述输入文档d最相似的扩展 文档;
所述跨文档背景的人物一致性特征包括提及 ‑实体链接率特征、 链接频率特征和跨文
档实体间话题一 致性特征;
所述提及 ‑实体链接率特征为所述输入文档d中的人员提及在所述扩展文档集中被链
接到相关人员的概 率, 设所述输入文档d中的人员提及为m, 其相关人员为ei, 计算公式为:
,
式中Γ(m,ej)是所述扩展文档中所述人员提及m被链接到所述相关人员ei的次数, Ec=
[m]为所述人员提及m的相关人员集;权 利 要 求 书 2/4 页
3
CN 115269816 A
3
专利 基于信息处理方法的核心人员挖掘方法、装置和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:37上传分享