说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221018409 2.8 (22)申请日 2022.02.23 (71)申请人 安徽理工大 学 地址 232000 安徽省淮南市山 南新区泰丰 大街168号 (72)发明人 朱广丽 孙争艳 魏苏波 张顺香 许鑫 吴厚月 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称 一种基于BERT语义增强的因果关系抽取方 法 (57)摘要 本发明公开了一种基于BERT语义增强的因 果关系抽取方法。 所述因果关系抽取方法包括: 因果关系候选词库、 BERT预训练、 因果 关系抽取。 该方法是一种快速提取文本中存在的因果关系 的信息抽取技术, 核心任务是在LeakGAN对抗神 经网络模型的架构下建立基本模型和增强模型 进行对抗学习获得高区分度的特征, 分析评论文 本中存在的因果关系, 实现语义增强下的深层次 抽取。 该方法基于对抗神经网络的对抗性学习更 有区分度的特征, 提高因果关系抽取的准确度, 可应用于事件 预测、 问答系统以及情景生成等方 面。 权利要求书1页 说明书4页 附图2页 CN 114548117 A 2022.05.27 CN 114548117 A 1.一种基于BERT语义增强的因果关系抽取方法, 包括因果关系候选词库、 BERT预训练、 因果关系抽取, 其特征在于, 通过因果关系候选词 库学习各领域的专有名词, 在BERT 预训练 中学习专有名词的特征, 并将预训练后的词向量输入到Bi ‑LSTM网络中提取文本特征, 同时 为了学习更多特征进行了多特征融合; 然后, 通过对抗神经网络进一步提取特征; 最后, 通 过CRF进行序列化输出, 实现因果关系的抽取。 2.根据权利要求1所述的因果关系候选词库, 其特征在于, 使用了因果关系先验知识与 语义数据相结合的方法, 从各领域评论文本中提取因果关系候选词, 在BERT预训练的过程 中, 将提取的候选词选择匹配度最高的3个候选词传 入BERT, 更好的学习句子中复杂的专有 名词。 3.根据权利要求1所述的BERT预训练, 其特征在于, BERT预训练时, 将每个实体前后用 特殊标识#表 示出来, 一句话中随机选择15%的词汇用于预测, 80%情况下采用一个特殊符 号[MASK]替换, 10%情况下采用一个任意词替换, 剩 余10%情况下保持原词汇不变预测一 个词汇时, 使模型 更多地依赖 于上下文信息去预测词汇, 并且赋予了模型一定的纠错能力。 4.根据权利要求1所述的因果关系抽取, 其特 征在于, 包括如下步骤: 1)数据预处理, 数据 预处理主要任务包含两个方面, 一是对文本的内容进行初步筛选, 对句子成分缺省删除或者是对句子格式进行统一; 二是对筛 选后的句子进行 标注。 2)BERT预训练, 对于因果增强模型和基本模型都进行 预训练 3)基于因果关系的特征融合, 除了基本的位置特征, 为了选取的更准确, 考虑词的关联 度, 用于衡量因果词和上 下文词的关联度, 词的情感强度和词本身的权 重。 4)因果关系抽取的特征学习, BALG(Bi ‑LSTM+Attention+LeakGAN, BALG)是指通过Bi ‑ LSTM双向循环网络学习到完整句子的语义特征, 加入词级别的注意力层, 将特征向量的注 意力集中在 对因果关系抽取有关键作用的词上, LeakGAN 实现文本对抗学习, 以学习高区分 度特征。 5)因果关系序列化输出, 采用CRF进行序列化标注, 对句子的每个词进行标注, 抽取其 中的原因短语和结果结果。 5.根据权利要求4所述的因果关系序列标注, 其特征在于, 涉及序列标注, 标点符号也 同单词一样进 行标注(标注为 “O”), 不标注因果连接词, 本文的因果关系抽取不限于带有标 记的显式因果。权 利 要 求 书 1/1 页 2 CN 114548117 A 2一种基于BERT语 义增强的因果关系抽取方 法 技术领域 [0001]本发明涉及因果关系抽取领域, 尤其涉及一种基于BE RT语义增强的因果关系抽取 方法。 背景技术 [0002]近年来, 因果关系抽 取技术在自然语言处理任务的各个方面都已经产生影响, 得 到了广泛的应用。 由于不同领域其因果关系模式的独特性和多样性、 评论文本语义结构的 复杂性、 表达方式的多样性等因素, 不可避免的增加了不同领域评论文本因果关系抽取 的 难度。 [0003]在事件预测、 问答系统 以及情景生成等方面, 因果关系抽 取技术有很高的应用价 值。 同时, 由于评论文本信息冗余量大, 需要用机器学习手段快速提取出有价值的信息, 因 此因果关系抽取是一项重要的任务。 评论文本具有复杂专有名词、 价值密度低、 信息零碎 等 特点, 使得文本存在语义模糊问题, 导致因果关系抽取的准确率低, 使 得因果关系抽取同样 也是一项具有挑战性的任务。 [0004]针对现有因果关系抽取上存在语义模糊问题导致特征学习困难的缺陷, 提出一种 基于BERT语义增强的因果关系抽取 方法。 发明内容 [0005]本发明的目的在于提供一种基于BE RT语义增强的因果关系抽取方法。 这是一种针 对现有因果关系抽取上存在语义模糊特征学习困难的缺陷, 结合了BERT预训练技术和 LeakGAN对抗神经网络模 型, 提出语义增强的因果关系抽取方法。 该方法的主要任务是使用 构建的因果关系抽取模型学习 具有高区分度的特征, 同时结合因果关系候选词库, 提高因 果抽取的准确度。 为了实现上述功能, 本发明提供的技 术方案, 包括如下步骤: [0006]1)构建因果关系候选词库。 本文使用了因果关系先验知识与语义数据相结合的方 法, 从金融领域评论文本中提取 因果关系候选词, 在BERT 预训练的过程中, 将提取的候选词 选择匹配度最高的3个候选词传入BERT, 更好的学习句子中复杂的专有名词。 [0007]2)构建因果关系抽 取模型。 为了使模型学习更多的语义信息, 采用重复描述因果 关系的方法, 增强了文本语义的表示, 同时为了更好的学习特征, 进行多特征融合, 进一步 解决了模糊语义对因果关系抽取的影响, 帮助用户更高效的抽取因果关系。 [0008]所述构建因果关系候选词库, 由于因果关系通常都是具有较大情感极性强度的词 组, 因此本发明将优 先考虑词组的情感极性 强度。 由于因果关系可能是正向的情感, 也可能 的是负向的情感, 因此不单考虑是为正向情感词还是为负向情感词, 更多考虑的是词组的 情感度, 选用的是知网的Hownet情感词典, 首先计算情感词典中情感词语在金融领域评论 语料库中的频率, 再结合评论文本中人工标注的情感强度加权计算出 因果关系词组的情感 强度(the Emotional Intensity of Causal Words, EIC), 筛选 出数值较大的2000个词语, 构成因果关系词的情感强度词库。说 明 书 1/4 页 3 CN 114548117 A 3
专利 一种基于BERT语义增强的因果关系抽取方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:28
上传分享
举报
下载
原文档
(477.6 KB)
分享
友情链接
GB 4396-2005 二氧化碳灭火剂.pdf
GB-T 40652-2021 信息安全技术 恶意软件事件预防和处理指南.pdf
GB-T 38775.6-2021 电动汽车无线充电系统 第6部分:互操作性要求及测试 地面端.pdf
邢台市工业企业大气污染防治条例.pdf
DB62-T 4277-2020 公务用车信息化管理平台运行管理规范 甘肃省.pdf
WH-T 92-2021 临时搭建演出场所舞台、看台安全监督检验规范.pdf
GB-T 37849-2019 液相色谱飞行时间质谱联用仪性能测定方法.pdf
互联网信息服务算法推荐管理规定.pdf
GB-T 34969-2017 彩色激光打印机测试版.pdf
专利 一种高效汽车散热器.PDF
DB43-T 1997-2021 数字化电能计量装置整体误差检测技术规范 湖南省.pdf
DB35-T 1940-2020 旱地改造水田技术规范 福建省.pdf
ISO 13400-2 2019 Amd 1 2023 Road vehicles — Diagnostic communication over Internet Prot.pdf
CCSP认证考试大纲 中文版 2022.pdf
GB-T 12135-2016 气瓶检验机构技术条件.pdf
GB/T 38825-2020 民用飞机复合材料制件铆接要求.pdf
GB 17799.4-2022 电磁兼容 通用标准 第4部分:工业环境中的发射.pdf
NB-T 10795—2021 生物质气化多联产系统技术导则.pdf
GB-T 38769-2020 金属材料 预裂纹夏比试样冲击加载断裂韧性的测定.pdf
GA-T 1794-2021 公安视频会议室技术规范.pdf
1
/
8
评价文档
赞助2.5元 点击下载(477.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。