(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210176287.8
(22)申请日 2022.02.24
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 赵津 程俏 童翰文 肖仰华
(74)专利代理 机构 上海德昭知识产权代理有限
公司 31204
专利代理师 程宗德
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
一种面向中文领域大规模复杂关系数据集
构建框架
(57)摘要
本发明公开了一种面向中文领域大规模复
杂关系数据集构建框架, 具有 这样的特征, 包括:
数据收集模块, 从原始语料库中筛选表达知 识三
元组的文本, 构建基于远程监督的数据集合; 复
杂样本特征工程和种子样本选择模块, 从基于远
程监督的数据集合中选出符合八类特征的复杂
样本, 组成高优种子样本集合; 复杂样本发现模
块, 基于高优种子样本集合, 预测输入数据属于
复杂样本的置信度分数, 按照分数从高到低排
序, 并选择头部的样本构建数据集; 众包标注模
块, 对数据集进行数据标注, 得到数据集的所有
样本的高质量 三元组标签 。
权利要求书4页 说明书10页 附图1页
CN 114519092 A
2022.05.20
CN 114519092 A
1.一种面向中文领域大规模复杂关系数据集构建框架, 其特 征在于, 包括:
数据收集模块, 从原始语料库中筛选表达知识三元组的文本, 构建基于远程监督的数
据集合;
复杂样本特征工程和种子样本选择模块, 从所述基于远程监督的数据集合中选出符合
八类特征的复杂样本, 组成高优种子样本集 合;
复杂样本发现模块, 基于所述高优种子样本集合, 预测输入数据属于复杂样本的置信
度分数, 按照分数从高到低排序, 并选择头 部的样本构建数据集;
众包标注模块, 对所述数据集进行数据标注, 得到所述数据集的所有样本的高质量三
元组标签。
2.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 所述数据收集模块从所述原始语料库中获取大量的文本和知识三元组, 利用自
动机匹配算法, 筛 选出同时满足以下 条件的文本:
(1)同时包 含两个及以上的实体(实体来自于所有的知识三元组);
(2)在提及的多个实体中, 至少有两个实体存在于同一 三元组中,
基于远程 监督假设和匹配过 滤, 获取所述文本和所述知识三元组, 具体步骤如下:
步骤1‑1, 从原始语料库中获得知识三元组信息和文本;
步骤1‑2, 使用自然语言处理工具包, 对获得的所述文本进行实体识别, 得到文本提及
的实体;
步骤1‑3, 确认所述文本提及的实体在所述知识三元组信息中是否存在 关系, 并将存在
关系的所述文本和所述知识三元组信息 筛选出来, 构建所述基于远程 监督的数据集 合。
3.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 所述复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种
子样本选择部,
所述复杂样本特征工程部主要针对 复杂样本 中的八类特征进行启发式特征工程, 得到
对应维度上的特 征值, 以区分 常规样本和复杂样本,
所述复杂种子样本 选择部基于所述特 征值进行复杂种子样本 选择,
所述特征值包括文本长度 特征值、 实体间距特征值、 干扰词特征值、 语义相似关系特征
值、 隐式表达特 征值、 同类实体数量特 征值、 三元组数量特 征值以及三元组重 叠特征值。
4.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 所述文本长度 特征值的确定方式为: 以字为单位度量文本长度, 以文本 中字的数
量作为所述文本 长度特征值,
所述实体间距特征值的确定方式为: 在文本中找到实体所有的出现位置后, 以最近邻
的两处位置之间的文本长度作为所述实体间距特征值, 中文按照字计算, 英文按照单词计
算。
5.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 利用预定义的关系辅助信息表进行所述干扰词特征值、 所述 隐式表达特征值以
及所述语义相似关系特征值的构建, 所述预定义的关系辅助信息包括关系、 语义相似关系、
显式表达以及干扰词,
所述干扰词特征值的确定过程为: 遍历三元组中的关系, 从辅助信息表中获得对应关权 利 要 求 书 1/4 页
2
CN 114519092 A
2系的所有干扰词, 如果文本中存在 任一干扰词, 则样 本存在干扰词特征值置为tru e, 否则置
为flase,
所述隐式表达特征值的确定过程为: 针对文本中提及的所有关系, 依次判断是否存在
显式表达语法模式, 则隐式表达特 征值置为flase, 否则置为t rue,
所述语义相似关系特征值的确定过程为: 如果远程监督三元组包含的所有关系中, 存
在预定义的语义相似关系, 则语义相似关系特 征值置为t rue, 否则置为flase,
所述隐式表达特征值和所述语义相似关系特征值都是布尔类型, 指示样本是否符合对
应类型的复杂特 征。
6.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 所述同类实体数量特征值的确定过程为: 根据自然语言处理工具包TexSmart的
输出结果和预定义辅助信息合并不同关系三元组中的同类实体, 统计各类型实体数量, 取
其中最大值 为所述同类实体数量特 征值,
所述三元组数量特征值的确定过程为: 根据识别的实体数量计算, 假设文本中提及实
体的数量 为n, 考虑到关系的有向性, 三元组数量的特 征值置为 n·(n‑1),
所述三元组重叠特征值的确定过程为: 直接统计远程监督的三元组中, 存在Entity
Pair Overlap和Si ngle Entity Overlap的数量总和。
7.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 所述复杂种子样本选择部将基于计算得到的所述特征值进行复杂种子样本选
择, 具体过程 为:
步骤2‑1, 直接从基于远程监督的数据集合中过滤不满足任一复杂特征的样本, 对于布
尔类型的特征如果为tru e, 则视为满足对应的复杂特征, 对于连续值类型的特征, 按照人工
设置的最低阈值进行初步过滤, 经过复杂样本筛选器后, 保留的数据构成了复杂样本候选
数据集;
步骤2‑2, 从所述复杂样本候选数据集中随机采样多个样本, 并在给定上下文和特征的
情况下, 选择复杂样本, 构成复杂样本数据集, 并标记负样本数据集和未标注数据集, 最终
筛选组成所述高优种子样本集 合,
步骤2‑1中, 阈值设定为所述文本长度特征值≥40、 所述实体间距特征值≥10、 所述同
类实体数量特征值≥3、 所述三元组数量特征值≥6、 所述三元组重叠特征值≥1、 所述干扰
词特征值为true、 所述隐性表达特 征值为true、 所述语义相似关系特 征值为true。
8.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架, 其特 征在于:
其中, 所述复杂样本发现模块主要目标是基于高优种子样本, 利用机器学习和深度模
型在复杂样本数据集、 负样本数据集以及未标注数据集上学习一个二分类器, 预测输入数
据属于复杂样本的置信度分数。 按照分数从高到低排序, 选择头部的样本构建最后的所述
数据集, 完成与种子样本类似数据的大规模发现, 具体过程 为:
使用所述复杂样本数据集和所述未标注数据集的部分采样数据, 学习一个基于PU
learning的深度分类器, 对于PU Learning中的正样本先验概率, 通过采样 估计设定π=p(y
=1)=0.41, PU Learning的损失函数选用n nPU, 优化目标函数Jnnpu的计算公式如下:
Jmnpu= π·Ep(x|y=1)[l(g(x))]+max{0,Ep(x)[l(‑g(x))}‑π·Ep(x|y=1)[l(‑g(x))]}权 利 要 求 书 2/4 页
3
CN 114519092 A
3
专利 一种面向中文领域大规模复杂关系数据集构建框架
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:27上传分享