(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210167102.7
(22)申请日 2022.02.23
(71)申请人 安徽理工大 学
地址 232000 安徽省淮南市山 南新区泰丰
大街168号
(72)发明人 张顺香 魏苏波 孙争艳 朱广丽
苏明星 李晓庆 李健
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于正交投影的BI-LS TM-CNN的情感特
征抽取方法
(57)摘要
本发明公开了一种基于正交投影的BI ‑
LSTM‑CNN的情感特征抽取方法, 旨在从文本中获
取带权重的中性词向量, 得到具有更高区分度的
情感特征, 为文本情感分类等提供有力的技术支
持。 传统的深度学习模型会忽略关键局部上下文
信息中的特殊意义词, 导致获取的情感特征不够
丰富。 针对这一问题, 本发明提出的方法是将中
性词向量投影到情感极性词的正交空间中, 得到
加权中性词向量, 同时通过CNN深度学习模型抽
取文本关键语义; 此外, 利用BI ‑LSTM‑Attention
模型和带权重的中性词向量, 从提取出的关键语
义中学习可增强句子情感的语义特征, 使文本在
情感分类时更 具判别性。
权利要求书1页 说明书4页 附图3页
CN 114528407 A
2022.05.24
CN 114528407 A
1.一种基于正交投影的BI ‑LSTM‑CNN的情感特征抽取方法, 旨在从文本中获取带权重
的中性词向量, 得到具有 更高区分度的情感特征, 为文本情感分类等提供有力的技术支持;
区别于传统的深度学习模型, 该方法能够捕捉关键局部上下文信息中的特殊意义词, 获取
更为丰富的情感特征; 本发明公开的方法是将中性词向量投影到情感极性词的正交空间
中, 得到加权中性词向量, 同时通过CNN深度学习模型抽取文本关键语义; 此外, 利用BI ‑
LSTM‑Attention模 型和带权重的中性词向量, 从提取出的关键语义中学习可增强句子情感
的语义特 征, 使文本在情感分类时更 具判别性。
2.根据权利要求1所述的更高区分度的情 感特征是指加权的中性词向量, 其特征在于,
中性词的情感特征是不明显的, 在分类上不存在歧义, 但是中性词向量在一定程度上会影
响文本情感分类结果; 由于文本中的中性词较多, 而只有少部 分的中性词具有 特殊意义, 通
过计算词语间语义关联度筛选出具有 特殊意义的中性词或者符号, 为后续的特征投影操作
提供数据支持。
3.根据权利要求1所述的特征投影方法, 其特征在于, 将中性词特征向量投影到情 感极
性词特征向量上, 根据 投影得到结果, 对其赋予适当的权重; 此外, 中性词特征向量的模量
受到情感极性词特征向量的 限制, 所以由投影得到的中性词特征向量的语义信息更具准确
性, 其只包含与中性词 特征向量相关的情感极性语义信息; 这使得最终得到的高区分度的
情感特征向量来自于中性词特征向量, 而不是与情感极性特征向量正交的任何平面上的向
量; 最后, 通过投影得到的特 征向量对文本进行情感分类。
4.根据权利要求1所述的CNN深度学习模型, 其特征在于, 利用其内部的权值共享、 局部
连接的结构, 使得CNN在减少算法复杂度的情况下还可以有效提取数据中蕴含的深层次特
征; 卷积神经网络主要由对数据进行卷积计算并提取潜在特征的卷积层和对网络参数进 行
下采样和压缩的池化层组成; 卷积层和池化层的交替使用, 既可以最大程度的对输入数据
的潜在特征进行有效提取, 又可以减少人为提取特征所带来的误差; 因此本发明公开的方
法使用卷积神经网络先从文本抽取 出关键语义, 之后再传入到BI ‑LSTM网络中进行 预测。
5.根据权利要求1所述的BI ‑LSTM‑Attention模型, 其特征在于, 可以对整个句子建模,
捕获句子内的长期依赖 关系, 在对整个序列进 行建模时能够捕捉一些对分类至 关重要的关
键局部上下文信息; 然后利用Attention机制, 其本质是一组权重值分布, 在自然语言处理
领域表示为权重越大 的词在整个文本中越重要, 在整个分类任务中发挥的作用也就越大,
将注意力放在对文本分类结果影响较大的词可以有效提升分类的效果。权 利 要 求 书 1/1 页
2
CN 114528407 A
2一种基于正交投影的BI ‑LSTM‑CNN的情感特征抽取方 法
技术领域
[0001]本发明涉及自然语言处理领域, 尤其涉及一种基于正交投影的BI ‑LSTM‑CNN的情
感特征抽取方法。
背景技术
[0002]文本情感分类是对带有情感色彩的主观性文本进行分析、 处理、 归纳和推理的过
程, 同时也是人们对产品、 服务、 事件及其属性的观点、 情绪、 评价和态度的计算研究, 属于
文本分类的子任务。 不同于普通文本分类, 文本情感分类要求更高层的语义抽取和高区分
度的情感特征, 这在技术上更具挑战性。 因此, 如何利用自然语言处理(Natural Language
Processing,NLP)技术对主观意见文本进行情感分类正被越来越多的研究人员关注。
[0003]传统的RNN与CNN深度学习模型通过其强大的表征学习能力在生成判别特征方面
取得了重大进展, 但情感特征的完整性仍有待提高。 例如, RNN与CNN学习模 型都可以用来进
行文本情感分类。 其中RNN模 型可以对整个句子 建模, 捕获句子内的长期依赖关系; 然而, 对
整个序列进行建模可能会忽略一些对分类至关重要的关键局部上下文信息。 CNN模型可以
通过不同大小的窗口提取更多的局部和位置不变特征, 但无法对某些特殊的字符赋予适当
的权重(例如: “一般”、“正常”、“?”等这些特殊意义的词)。 因此, 需要在捕捉句子内的长期
依赖关系的同时, 对于某些特殊的字符赋予适当的权重, 得到高区分度的完整的情感特征
是当前的研究热点之一。
[0004]为了解决该问题, 一种有效的情感特征抽取方法应该考虑以下几个方面: (1)如何
从文本中获取准确的情感极性词向量矩阵和具有特殊意义的字符; (2)某些特殊的词或字
符如何加权, 得到更高区分度的情感特征; (3)从更高层的语义抽取的情感特征向量, 如何
提高文本情感分类的准确率。
发明内容
[0005]基于以上考虑, 本发明引入了中性词向量投影的方法, 可以对一些含有特殊意义
的词赋予适当的权重, 得到高区分度的情感特征。 提出一种基于正交投影的BI ‑LSTM+CNN的
情感特征抽取方法(CPD ‑NET+CBA)。 该方法分为两部分, 分别是正交投影模型(CPD ‑NET)和
复杂神经网络模型(CNN+BI ‑LSTM+Attention,CBA), 模型核心任务是将中性词向量投影到
正交空间中, 赋予其适当的权重, 再通过CBA模型学习具有更高区分度的情感特征, 使文本
在情感分类时更 具判别性。
[0006]所述方法包括以下步骤:
[0007]1)一个文本序列通过Word2Vec等词嵌入模型转化为wordvector序列作为模型的
输入。
[0008]2)计算出词语间语义关联信息, 设置合适的阈值, 筛选出具有特殊意义的中性词
向量或者符号。
[0009]3)将筛选出的中性词向量或者符号投影到情感极性词向量 空间中, 赋予其适当的说 明 书 1/4 页
3
CN 114528407 A
3
专利 一种基于正交投影的BI-LSTM-CNN的情感特征抽取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:28上传分享