说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221018409 2.8 (22)申请日 2022.02.23 (71)申请人 安徽理工大 学 地址 232000 安徽省淮南市山 南新区泰丰 大街168号 (72)发明人 朱广丽 孙争艳 魏苏波 张顺香  许鑫 吴厚月  (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称 一种基于BERT语义增强的因果关系抽取方 法 (57)摘要 本发明公开了一种基于BERT语义增强的因 果关系抽取方法。 所述因果关系抽取方法包括: 因果关系候选词库、 BERT预训练、 因果 关系抽取。 该方法是一种快速提取文本中存在的因果关系 的信息抽取技术, 核心任务是在LeakGAN对抗神 经网络模型的架构下建立基本模型和增强模型 进行对抗学习获得高区分度的特征, 分析评论文 本中存在的因果关系, 实现语义增强下的深层次 抽取。 该方法基于对抗神经网络的对抗性学习更 有区分度的特征, 提高因果关系抽取的准确度, 可应用于事件 预测、 问答系统以及情景生成等方 面。 权利要求书1页 说明书4页 附图2页 CN 114548117 A 2022.05.27 CN 114548117 A 1.一种基于BERT语义增强的因果关系抽取方法, 包括因果关系候选词库、 BERT预训练、 因果关系抽取, 其特征在于, 通过因果关系候选词 库学习各领域的专有名词, 在BERT 预训练 中学习专有名词的特征, 并将预训练后的词向量输入到Bi ‑LSTM网络中提取文本特征, 同时 为了学习更多特征进行了多特征融合; 然后, 通过对抗神经网络进一步提取特征; 最后, 通 过CRF进行序列化输出, 实现因果关系的抽取。 2.根据权利要求1所述的因果关系候选词库, 其特征在于, 使用了因果关系先验知识与 语义数据相结合的方法, 从各领域评论文本中提取因果关系候选词, 在BERT预训练的过程 中, 将提取的候选词选择匹配度最高的3个候选词传 入BERT, 更好的学习句子中复杂的专有 名词。 3.根据权利要求1所述的BERT预训练, 其特征在于, BERT预训练时, 将每个实体前后用 特殊标识#表 示出来, 一句话中随机选择15%的词汇用于预测, 80%情况下采用一个特殊符 号[MASK]替换, 10%情况下采用一个任意词替换, 剩 余10%情况下保持原词汇不变预测一 个词汇时, 使模型 更多地依赖 于上下文信息去预测词汇, 并且赋予了模型一定的纠错能力。 4.根据权利要求1所述的因果关系抽取, 其特 征在于, 包括如下步骤: 1)数据预处理, 数据 预处理主要任务包含两个方面, 一是对文本的内容进行初步筛选, 对句子成分缺省删除或者是对句子格式进行统一; 二是对筛 选后的句子进行 标注。 2)BERT预训练, 对于因果增强模型和基本模型都进行 预训练 3)基于因果关系的特征融合, 除了基本的位置特征, 为了选取的更准确, 考虑词的关联 度, 用于衡量因果词和上 下文词的关联度, 词的情感强度和词本身的权 重。 4)因果关系抽取的特征学习, BALG(Bi ‑LSTM+Attention+LeakGAN, BALG)是指通过Bi ‑ LSTM双向循环网络学习到完整句子的语义特征, 加入词级别的注意力层, 将特征向量的注 意力集中在 对因果关系抽取有关键作用的词上, LeakGAN 实现文本对抗学习, 以学习高区分 度特征。 5)因果关系序列化输出, 采用CRF进行序列化标注, 对句子的每个词进行标注, 抽取其 中的原因短语和结果结果。 5.根据权利要求4所述的因果关系序列标注, 其特征在于, 涉及序列标注, 标点符号也 同单词一样进 行标注(标注为 “O”), 不标注因果连接词, 本文的因果关系抽取不限于带有标 记的显式因果。权 利 要 求 书 1/1 页 2 CN 114548117 A 2一种基于BERT语 义增强的因果关系抽取方 法 技术领域 [0001]本发明涉及因果关系抽取领域, 尤其涉及一种基于BE RT语义增强的因果关系抽取 方法。 背景技术 [0002]近年来, 因果关系抽 取技术在自然语言处理任务的各个方面都已经产生影响, 得 到了广泛的应用。 由于不同领域其因果关系模式的独特性和多样性、 评论文本语义结构的 复杂性、 表达方式的多样性等因素, 不可避免的增加了不同领域评论文本因果关系抽取 的 难度。 [0003]在事件预测、 问答系统 以及情景生成等方面, 因果关系抽 取技术有很高的应用价 值。 同时, 由于评论文本信息冗余量大, 需要用机器学习手段快速提取出有价值的信息, 因 此因果关系抽取是一项重要的任务。 评论文本具有复杂专有名词、 价值密度低、 信息零碎 等 特点, 使得文本存在语义模糊问题, 导致因果关系抽取的准确率低, 使 得因果关系抽取同样 也是一项具有挑战性的任务。 [0004]针对现有因果关系抽取上存在语义模糊问题导致特征学习困难的缺陷, 提出一种 基于BERT语义增强的因果关系抽取 方法。 发明内容 [0005]本发明的目的在于提供一种基于BE RT语义增强的因果关系抽取方法。 这是一种针 对现有因果关系抽取上存在语义模糊特征学习困难的缺陷, 结合了BERT预训练技术和 LeakGAN对抗神经网络模 型, 提出语义增强的因果关系抽取方法。 该方法的主要任务是使用 构建的因果关系抽取模型学习 具有高区分度的特征, 同时结合因果关系候选词库, 提高因 果抽取的准确度。 为了实现上述功能, 本发明提供的技 术方案, 包括如下步骤: [0006]1)构建因果关系候选词库。 本文使用了因果关系先验知识与语义数据相结合的方 法, 从金融领域评论文本中提取 因果关系候选词, 在BERT 预训练的过程中, 将提取的候选词 选择匹配度最高的3个候选词传入BERT, 更好的学习句子中复杂的专有名词。 [0007]2)构建因果关系抽 取模型。 为了使模型学习更多的语义信息, 采用重复描述因果 关系的方法, 增强了文本语义的表示, 同时为了更好的学习特征, 进行多特征融合, 进一步 解决了模糊语义对因果关系抽取的影响, 帮助用户更高效的抽取因果关系。 [0008]所述构建因果关系候选词库, 由于因果关系通常都是具有较大情感极性强度的词 组, 因此本发明将优 先考虑词组的情感极性 强度。 由于因果关系可能是正向的情感, 也可能 的是负向的情感, 因此不单考虑是为正向情感词还是为负向情感词, 更多考虑的是词组的 情感度, 选用的是知网的Hownet情感词典, 首先计算情感词典中情感词语在金融领域评论 语料库中的频率, 再结合评论文本中人工标注的情感强度加权计算出 因果关系词组的情感 强度(the Emotional  Intensity of Causal Words, EIC), 筛选 出数值较大的2000个词语, 构成因果关系词的情感强度词库。说 明 书 1/4 页 3 CN 114548117 A 3

PDF文档 专利 一种基于BERT语义增强的因果关系抽取方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于BERT语义增强的因果关系抽取方法 第 1 页 专利 一种基于BERT语义增强的因果关系抽取方法 第 2 页 专利 一种基于BERT语义增强的因果关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。