专利 一种基于BERT语义增强的因果关系抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221018409 2.8 (22)申请日 2022.02.23 (71)申请人安徽理工大学地址 232000 安徽省淮南市山南新区泰丰大街168号 (72)发明人朱广丽　孙争艳　魏苏波　张顺香　许鑫　吴厚月　 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称一种基于BERT语义增强的因果关系抽取方法 (57)摘要本发明公开了一种基于BERT语义增强的因果关系抽取方法。所述因果关系抽取方法包括：因果关系候选词库、 BERT预训练、因果关系抽取。该方法是一种快速提取文本中存在的因果关系的信息抽取技术，核心任务是在LeakGAN对抗神经网络模型的架构下建立基本模型和增强模型进行对抗学习获得高区分度的特征，分析评论文本中存在的因果关系，实现语义增强下的深层次抽取。该方法基于对抗神经网络的对抗性学习更有区分度的特征，提高因果关系抽取的准确度，可应用于事件预测、问答系统以及情景生成等方面。权利要求书1页说明书4页附图2页 CN 114548117 A 2022.05.27 CN 114548117 A 1.一种基于BERT语义增强的因果关系抽取方法，包括因果关系候选词库、 BERT预训练、因果关系抽取，其特征在于，通过因果关系候选词库学习各领域的专有名词，在BERT 预训练中学习专有名词的特征，并将预训练后的词向量输入到Bi ‑LSTM网络中提取文本特征，同时为了学习更多特征进行了多特征融合；然后，通过对抗神经网络进一步提取特征；最后，通过CRF进行序列化输出，实现因果关系的抽取。 2.根据权利要求1所述的因果关系候选词库，其特征在于，使用了因果关系先验知识与语义数据相结合的方法，从各领域评论文本中提取因果关系候选词，在BERT预训练的过程中，将提取的候选词选择匹配度最高的3个候选词传入BERT，更好的学习句子中复杂的专有名词。 3.根据权利要求1所述的BERT预训练，其特征在于， BERT预训练时，将每个实体前后用特殊标识#表示出来，一句话中随机选择15％的词汇用于预测， 80％情况下采用一个特殊符号[MASK]替换， 10％情况下采用一个任意词替换，剩余10％情况下保持原词汇不变预测一个词汇时，使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。 4.根据权利要求1所述的因果关系抽取，其特征在于，包括如下步骤： 1)数据预处理，数据预处理主要任务包含两个方面，一是对文本的内容进行初步筛选，对句子成分缺省删除或者是对句子格式进行统一；二是对筛选后的句子进行标注。 2)BERT预训练，对于因果增强模型和基本模型都进行预训练 3)基于因果关系的特征融合，除了基本的位置特征，为了选取的更准确，考虑词的关联度，用于衡量因果词和上下文词的关联度，词的情感强度和词本身的权重。 4)因果关系抽取的特征学习， BALG(Bi ‑LSTM+Attention+LeakGAN， BALG)是指通过Bi ‑ LSTM双向循环网络学习到完整句子的语义特征，加入词级别的注意力层，将特征向量的注意力集中在对因果关系抽取有关键作用的词上， LeakGAN 实现文本对抗学习，以学习高区分度特征。 5)因果关系序列化输出，采用CRF进行序列化标注，对句子的每个词进行标注，抽取其中的原因短语和结果结果。 5.根据权利要求4所述的因果关系序列标注，其特征在于，涉及序列标注，标点符号也同单词一样进行标注(标注为 “O”)，不标注因果连接词，本文的因果关系抽取不限于带有标记的显式因果。权　利　要　求　书 1/1 页 2 CN 114548117 A 2一种基于BERT语义增强的因果关系抽取方法技术领域 [0001]本发明涉及因果关系抽取领域，尤其涉及一种基于BE RT语义增强的因果关系抽取方法。背景技术 [0002]近年来，因果关系抽取技术在自然语言处理任务的各个方面都已经产生影响，得到了广泛的应用。由于不同领域其因果关系模式的独特性和多样性、评论文本语义结构的复杂性、表达方式的多样性等因素，不可避免的增加了不同领域评论文本因果关系抽取的难度。 [0003]在事件预测、问答系统以及情景生成等方面，因果关系抽取技术有很高的应用价值。同时，由于评论文本信息冗余量大，需要用机器学习手段快速提取出有价值的信息，因此因果关系抽取是一项重要的任务。评论文本具有复杂专有名词、价值密度低、信息零碎等特点，使得文本存在语义模糊问题，导致因果关系抽取的准确率低，使得因果关系抽取同样也是一项具有挑战性的任务。 [0004]针对现有因果关系抽取上存在语义模糊问题导致特征学习困难的缺陷，提出一种基于BERT语义增强的因果关系抽取方法。发明内容 [0005]本发明的目的在于提供一种基于BE RT语义增强的因果关系抽取方法。这是一种针对现有因果关系抽取上存在语义模糊特征学习困难的缺陷，结合了BERT预训练技术和 LeakGAN对抗神经网络模型，提出语义增强的因果关系抽取方法。该方法的主要任务是使用构建的因果关系抽取模型学习具有高区分度的特征，同时结合因果关系候选词库，提高因果抽取的准确度。为了实现上述功能，本发明提供的技术方案，包括如下步骤： [0006]1)构建因果关系候选词库。本文使用了因果关系先验知识与语义数据相结合的方法，从金融领域评论文本中提取因果关系候选词，在BERT 预训练的过程中，将提取的候选词选择匹配度最高的3个候选词传入BERT，更好的学习句子中复杂的专有名词。 [0007]2)构建因果关系抽取模型。为了使模型学习更多的语义信息，采用重复描述因果关系的方法，增强了文本语义的表示，同时为了更好的学习特征，进行多特征融合，进一步解决了模糊语义对因果关系抽取的影响，帮助用户更高效的抽取因果关系。 [0008]所述构建因果关系候选词库，由于因果关系通常都是具有较大情感极性强度的词组，因此本发明将优先考虑词组的情感极性强度。由于因果关系可能是正向的情感，也可能的是负向的情感，因此不单考虑是为正向情感词还是为负向情感词，更多考虑的是词组的情感度，选用的是知网的Hownet情感词典，首先计算情感词典中情感词语在金融领域评论语料库中的频率，再结合评论文本中人工标注的情感强度加权计算出因果关系词组的情感强度(the Emotional Intensity of Causal Words， EIC)，筛选出数值较大的2000个词语，构成因果关系词的情感强度词库。说　明　书 1/4 页 3 CN 114548117 A 3

专利 一种基于BERT语义增强的因果关系抽取方法

专利一种基于BERT语义增强的因果关系抽取方法