(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210178120.5
(22)申请日 2022.02.25
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 周仁杰 沈佳冰 任永坚 张纪林
万健 曾艳 寇亮 袁俊峰 王星
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱亚冠
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/232(2020.01)
G06F 40/211(2020.01)
G06F 40/117(2020.01)G06N 3/04(2006.01)
(54)发明名称
一种基于语序与语义联合分析的中文文本
检错方法及系统
(57)摘要
本发明公开一种基于语序与语义联合分析
的中文文本检错方法及系统。 针对现有的中文文
本检错方法, 无法深入理解中文文本语义, 自动
分配权重, 设计了一种把文本视为一维图片, 并
且使用双向循环神经网络拟合文本与自注意力
机制分配权重的中文文本预测错误模 型。 本发明
采用全卷积神经网络(FCN)与残 差网络(ResNet)
组成的语义理解模块(FR), 具有以下两个优点:
一是使用全卷积神经网络(FCN)把一维文本数据
视为一维图片, 理解文本语义, 解决了现有技术
处理语义手段缺乏问题; 二是使用残差网络
(ResNet)加深了网络的层数, 提高了特征的数
量, 加深对 文本语义的理解 程度。
权利要求书3页 说明书8页 附图3页
CN 114548116 A
2022.05.27
CN 114548116 A
1.一种基于语序与语义联合分析的中文 文本检错方法, 其特 征在于包括以下步骤:
步骤1: 数据预处 理;
1‑1获取原始文本数据, 将原始文本数据中所有文本按字级别划分, 构建得到中文字集
合D(w); 对中文字集合D(w)中插入 标识符, 然后使用索引对中文字集合D(w)进行标记, 每一
个字对应一个字典索引, 形成字典Dic(w,k);
1‑2对原始文本数据中文本语句To ken化, 并加入标识符, 并将其进行固定句长;
1‑3根据步骤1 ‑1的字典索引对步骤1 ‑2Token化后的文本语句序列化;
1‑4对步骤1 ‑3索引序列化后的数据通过字嵌入Embed ding技术映射成768维向量;
步骤2: 通过基于语序与语义联合分析的中文 文本检错模型RFRA, 实现中文 文本检错;
所述基于语序与语义联合分析的中文文本检错模型包括信 息提取模块、 自注意力模块
Self‑Attention、 输出层;
所述信息提取模块包括双向门控循环神经网络BiGRU和语义理解模块FR;
所述语义理解模块FR的输入为步骤1预处理后的768维向量, 用于提取文本语义信息;
其包括多个语义理解单元, 每个语义理解单元包括全卷积神经网络FCN; 每个语义理解单元
采用残差网络ResNet连接, 并且采用改进的Sigmoid函数; 每个语义理解单元的输入为前两
层单元的输出;
所述自注意力模块Self ‑Attention的输入为双向门控循环神经网络BiGRU和语义理解
模块FR的叠加输出, 用于分配字权重; 将输入分化成键矩阵Key、 问号矩阵Query、 值矩阵
Value, 其次根据键矩阵与问号矩阵计算相似度矩阵Similarity, 再对相似度矩阵归一化,
最后将相似度矩阵与值矩阵加权得到注意力矩阵A ttention;
所述输出层用于判断输出字是否有错。
2.如权利要求1所述的方法, 其特征在于步骤1 ‑2所述加入标识符是在句首加入
“START”起始符, 在句中加入 “CLS”间隔符, 在句末加入 “END”终止符。
3.如权利要求1所述的方法, 其特征在于步骤1 ‑2所述固定句长是将长句截断过长部
分, 短句使用 “PAD”符填充至固定句长 长度。
4.如权利要求1所述的方法, 其特征在于所述双向门控循环神经网络BiGRU的输入为步
骤1预处理后的768维向量与自身产出的上一个时刻的隐藏状态, 用于提取文本时序信息;
具体是:
所述的双向门控循环单 元模型包括两个门控循环单 元GRU;
GRU具有重 置门R与更新门Z, 在t时刻的重 置门Rt与t时刻的更新门Zt计算如下 所示:
其中
是来自步骤1在t时刻的映射成的768维向量, Ht‑1是t‑1时刻的隐藏状态, Wxr是重
置门输入权重参数, Wxz是更新门输入权重参数, Whr是重置门隐藏状态权重参数, Whz是更新
门隐藏状态权重参数, brr和brz分别是重置门和更新 门的偏置参数; σ 是Sigmoid函数, 控制
重置门与更新门的大小范围在0,1之间;
重置门用于生成候选隐藏状态
计算如下表示:权 利 要 求 书 1/3 页
2
CN 114548116 A
2其中Wxh是候选隐藏状态输入权重参数, Whh是候选隐藏状态关于隐藏状态的权重参数,
bh是候选隐藏状态偏置参数, tahn是激活函数;
更新门用于生成当前时刻的隐藏状态Ht, 计算如下表示:
其中
表示哈达 玛积, 是针对元 素的相乘;
两个门控循环单元GRU一个是正向输入, 一个是反向输入, 其正向隐藏状态
和反向隐
藏状态
计算如下表示:
其中
表示顺序使用GRU生成隐藏状态,
表示逆向使用GRU生成隐藏状态,
表示t时
刻正向隐藏状态,
表示t时刻逆向隐藏状态;
隐藏状态H的生成具体如下 所示:
其中
表示维度连接操作。
5.如权利要求1所述的方法, 其特 征在于所述残差网络ResNet计算公式如下表示:
所述改进的Sigmo id函数计算公式如下:
其中
表示ResNet在t时刻的输出,
表示语义理解单元在t ‑1时刻的输出,
表
示语义理解单 元在t‑2时刻的输出。
6.如权利要求1所述的方法, 其特 征在于所述自注意力模块Self ‑Attention具体是:
(a)将双向门控循环神经网络(BiGRU)和语义理解模块(FR)的输出叠加后分化成键矩
阵(Key), 问号矩阵(Query), 值矩阵(Value); 具体是
其中Wq是问号矩阵权重参数, Wk是键矩阵权重参数, Wv是值矩阵权重参数;
表示信息
提取模块中的双向循环神经网络BiGRU与FR语义理解模块在t时刻的输出;
(b)根据键矩阵与问号矩阵计算相似度矩阵(Simi larity):
Similarity(Query,K ey)=Query×Key (2.14)权 利 要 求 书 2/3 页
3
CN 114548116 A
3
专利 一种基于语序与语义联合分析的中文文本检错方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:26上传分享