(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221016270 0.5
(22)申请日 2022.02.22
(71)申请人 安徽大学
地址 230039 安徽省合肥市蜀山区肥西路3
号
(72)发明人 陈洁 姚志强 赵姝 张燕平
(74)专利代理 机构 合肥市浩智运专利代理事务
所(普通合伙) 34124
专利代理师 丁瑞瑞
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种融合表情符号的社交文本情感分析方
法及装置
(57)摘要
本发明公开了一种融合表情符号的社交文
本情感分析方法及装置, 所述方法包括: 将无标
注含表情文本数据和有标注社交文本数据做预
处理, 获取预训练文本数据, 并将其中的表情符
号提取作为预训练标签; 搭建神经网络模型对预
训练文本 数据进行预训练, 得到以表情符号为预
测标签的预训练模型; 将预处理的有标注社交文
本数据输入至预训练模型, 通过链式解冻方法更
新预训练模 型的参数, 训练得到社交文本情感分
类器; 将需要进行情感分类的社交文本输入至社
交文本情感分类器, 得到预测情感类别; 本发明
的优点在于: 克服了社交文本与表情符号分割处
理导致情感信息遗失的局限性, 提升对社交文本
的分类准确度。
权利要求书3页 说明书11页 附图3页
CN 115221314 A
2022.10.21
CN 115221314 A
1.一种融合表情符号的社交文本情感分析 方法, 其特 征在于, 所述方法包括以下步骤:
S1: 将无标注含表情文本数据和有标注社交文本数据做预处理, 获取预训练文本数据,
并将其中的表情符号 提取作为预训练标签;
S2: 搭建基于长短期记忆子神经网络和自注意力机制子神经网络的神经网络模型对所
述S1中预训练文本数据进行 预训练, 得到以表情符号 为预测标签的预训练模型;
S3: 将S1中预处理的有标注社交文本数据输入至预训练模型, 通过链式解冻方法更新
预训练模型的参数, 训练得到社交文本情感分类 器;
S4: 将需要 进行情感分类的社交文本 输入至社交文本情感分类 器, 得到预测情感类别。
2.根据权利要求1所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述S1包括:
将含表情符号的文本数据作为无标注含表情文本数据以及带有情感标注的社交文本
数据作为有标注社交文本数据;
过滤无标注含表情文本数据以及有标注社交文本数据中的噪声数据, 所述噪声数据包
括链接、 转发符号以及用户名;
对过滤噪声数据之后的数据中包含多个表情符号的文本进行复制, 使得每个复制文本
仅包含原始文本中的单个非重复的表情符号并删除原 始文本;
统计并选取所有文本数据中出现频率前N位的表情符号保留其对应的纯文本数据作为
预训练文本数据; 将预训练文本数据的表情符号提取出来作为其对应文本的唯一预训练标
签。
3.根据权利要求1所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述神经网络模 型包括Embedding层、 两层的双向长 短期记忆神经网络层、 两层的自注 意力机
制层、 特征连接层、 单层的注 意力机制层以及Softmax层, 所述Embedding层接收预训练文本
数据, Emb edding层的输出端分别与两层的双向长短期记忆神经网络层以及两层的自注意
力机制层的输入端 连接, Embedding层的输出端、 两层的双向长 短期记忆神经网络层以及两
层的自注意力机制层的输出端均与特征连接层的输入端连接, 特征连接层的输出端与单层
的注意力机制层的输入端连接, 单层的注意力机制层的输出端与Softmax层连接 。
4.根据权利要求3所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述S2包括:
将所述预训练文本数据输入至预训练模型的Embedding层, 得到所述预训练文本数据
的输入向量序列;
将所述输入向量序列分别输入至两层的双向长短期记忆神经网络层及两层的自注意
力机制层, 分别得到所述预训练文本数据的句法相关特 征和语义相关特 征;
将所述两层的双向长短期记忆神经网络层及两层的自注意力机制层的每层输出特征
向量与Emb edding层输出的输入向量序列进行向量拼接, 得到所述预训练文本数据的连接
特征向量;
将所述连接特征向量输入至单层的注意力 机制层, 所述单层的注意力 机制层用于让模
型训练期间关注所述预训练文本数据句 子的关键特征, 给予关键特征更高的权重, 得到所
述预训练文本数据的文本表示向量;
将所述文本表示向量输入Softmax层进行归一化处理得到所述预训练文本数据句子的权 利 要 求 书 1/3 页
2
CN 115221314 A
2预测表情类别标签;
基于所述预测表情类别标签与对应文本实际含有表情结果的差异, 计算所述预训练模
型对应的第一损失函数, 更新所述预训练模型中各模块的参数, 训练并完成最终的预训练
模型。
5.根据权利要求4所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述第一损失函数的表达式为
其中, N表示在所述S1预处理阶段所选择的作为预训练类别标签的非重复表情数量, yi
表示预测文本实际含有第i个表情的有无, 若含有第i个表情则yi为1, 反之为0;
表示预测
文本预测含有第i个表情的概 率, N个表情标签的预测概 率总和为1。
6.根据权利要求4所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述文本表示向量的计算方式为:
et=htwa
其中, ht是单词在时间步长t的表示, wa是单层的注意力机制 层的权重矩阵, at是时间步
长t的重要性分数; T为总的时间步长 。
7.根据权利要求4所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述S3包括:
基于所述有标注社交文本数据的标注情感类别种类调整S2中预训练模型Softmax层输
出维度, 使得Softmax输出维度为情感类别数量*对应 类别概率分布;
将所述有标注社交文本数据输入至S2中的预训练模型 得到社交文本的分类结果;
基于所述有标注社交文本数据实际情感标签与模型预测标签结果的差异, 计算所述神
经网络模型对应的第二损失函数, 通过链式解冻方法更新所述神经网络模 型中各模块的参
数, 训练得到最终的社交文本情感分类 器;
所述链式解冻方法为: 训练过程 中首先微调模型最顶层参数, 再从模型Embedding层向
上逐层调整参数至最优结果, 最后训练并更新模型 所有层的参数。
8.根据权利要求7所述的一种融合表情符号的社交文本情感分析方法, 其特征在于, 所
述第二损失函数的表达式为:
其中, N表示在所述S1预处理阶段所选择的作为预训练类别标签的非重复表情数量, yi权 利 要 求 书 2/3 页
3
CN 115221314 A
3
专利 一种融合表情符号的社交文本情感分析方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:30上传分享