专利 一种面向中文领域大规模复杂关系数据集构建框架

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210176287.8 (22)申请日 2022.02.24 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人赵津　程俏　童翰文　肖仰华　 (74)专利代理机构上海德昭知识产权代理有限公司 31204 专利代理师程宗德 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称一种面向中文领域大规模复杂关系数据集构建框架 (57)摘要本发明公开了一种面向中文领域大规模复杂关系数据集构建框架，具有这样的特征，包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对数据集进行数据标注，得到数据集的所有样本的高质量三元组标签。权利要求书4页说明书10页附图1页 CN 114519092 A 2022.05.20 CN 114519092 A 1.一种面向中文领域大规模复杂关系数据集构建框架，其特征在于，包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从所述基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于所述高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对所述数据集进行数据标注，得到所述数据集的所有样本的高质量三元组标签。 2.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述数据收集模块从所述原始语料库中获取大量的文本和知识三元组，利用自动机匹配算法，筛选出同时满足以下条件的文本： (1)同时包含两个及以上的实体(实体来自于所有的知识三元组)； (2)在提及的多个实体中，至少有两个实体存在于同一三元组中，基于远程监督假设和匹配过滤，获取所述文本和所述知识三元组，具体步骤如下：步骤1‑1，从原始语料库中获得知识三元组信息和文本；步骤1‑2，使用自然语言处理工具包，对获得的所述文本进行实体识别，得到文本提及的实体；步骤1‑3，确认所述文本提及的实体在所述知识三元组信息中是否存在关系，并将存在关系的所述文本和所述知识三元组信息筛选出来，构建所述基于远程监督的数据集合。 3.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部，所述复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程，得到对应维度上的特征值，以区分常规样本和复杂样本，所述复杂种子样本选择部基于所述特征值进行复杂种子样本选择，所述特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。 4.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述文本长度特征值的确定方式为：以字为单位度量文本长度，以文本中字的数量作为所述文本长度特征值，所述实体间距特征值的确定方式为：在文本中找到实体所有的出现位置后，以最近邻的两处位置之间的文本长度作为所述实体间距特征值，中文按照字计算，英文按照单词计算。 5.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，利用预定义的关系辅助信息表进行所述干扰词特征值、所述隐式表达特征值以及所述语义相似关系特征值的构建，所述预定义的关系辅助信息包括关系、语义相似关系、显式表达以及干扰词，所述干扰词特征值的确定过程为：遍历三元组中的关系，从辅助信息表中获得对应关权　利　要　求　书 1/4 页 2 CN 114519092 A 2系的所有干扰词，如果文本中存在任一干扰词，则样本存在干扰词特征值置为tru e，否则置为flase，所述隐式表达特征值的确定过程为：针对文本中提及的所有关系，依次判断是否存在显式表达语法模式，则隐式表达特征值置为flase，否则置为t rue，所述语义相似关系特征值的确定过程为：如果远程监督三元组包含的所有关系中，存在预定义的语义相似关系，则语义相似关系特征值置为t rue，否则置为flase，所述隐式表达特征值和所述语义相似关系特征值都是布尔类型，指示样本是否符合对应类型的复杂特征。 6.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述同类实体数量特征值的确定过程为：根据自然语言处理工具包TexSmart的输出结果和预定义辅助信息合并不同关系三元组中的同类实体，统计各类型实体数量，取其中最大值为所述同类实体数量特征值，所述三元组数量特征值的确定过程为：根据识别的实体数量计算，假设文本中提及实体的数量为n，考虑到关系的有向性，三元组数量的特征值置为 n·(n‑1)，所述三元组重叠特征值的确定过程为：直接统计远程监督的三元组中，存在Entity Pair Overlap和Si ngle Entity Overlap的数量总和。 7.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述复杂种子样本选择部将基于计算得到的所述特征值进行复杂种子样本选择，具体过程为：步骤2‑1，直接从基于远程监督的数据集合中过滤不满足任一复杂特征的样本，对于布尔类型的特征如果为tru e，则视为满足对应的复杂特征，对于连续值类型的特征，按照人工设置的最低阈值进行初步过滤，经过复杂样本筛选器后，保留的数据构成了复杂样本候选数据集；步骤2‑2，从所述复杂样本候选数据集中随机采样多个样本，并在给定上下文和特征的情况下，选择复杂样本，构成复杂样本数据集，并标记负样本数据集和未标注数据集，最终筛选组成所述高优种子样本集合，步骤2‑1中，阈值设定为所述文本长度特征值≥40、所述实体间距特征值≥10、所述同类实体数量特征值≥3、所述三元组数量特征值≥6、所述三元组重叠特征值≥1、所述干扰词特征值为true、所述隐性表达特征值为true、所述语义相似关系特征值为true。 8.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述复杂样本发现模块主要目标是基于高优种子样本，利用机器学习和深度模型在复杂样本数据集、负样本数据集以及未标注数据集上学习一个二分类器，预测输入数据属于复杂样本的置信度分数。按照分数从高到低排序，选择头部的样本构建最后的所述数据集，完成与种子样本类似数据的大规模发现，具体过程为：使用所述复杂样本数据集和所述未标注数据集的部分采样数据，学习一个基于PU learning的深度分类器，对于PU Learning中的正样本先验概率，通过采样估计设定π＝p(y ＝1)＝0.41， PU Learning的损失函数选用n nPU，优化目标函数Jnnpu的计算公式如下： Jmnpu＝ π·Ep(x|y＝1)[l(g(x))]+max{0,Ep(x)[l(‑g(x))}‑π·Ep(x|y＝1)[l(‑g(x))]}权　利　要　求　书 2/4 页 3 CN 114519092 A 3

专利 一种面向中文领域大规模复杂关系数据集构建框架

专利一种面向中文领域大规模复杂关系数据集构建框架