说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210178120.5 (22)申请日 2022.02.25 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 周仁杰 沈佳冰 任永坚 张纪林  万健 曾艳 寇亮 袁俊峰 王星  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱亚冠 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/232(2020.01) G06F 40/211(2020.01) G06F 40/117(2020.01)G06N 3/04(2006.01) (54)发明名称 一种基于语序与语义联合分析的中文文本 检错方法及系统 (57)摘要 本发明公开一种基于语序与语义联合分析 的中文文本检错方法及系统。 针对现有的中文文 本检错方法, 无法深入理解中文文本语义, 自动 分配权重, 设计了一种把文本视为一维图片, 并 且使用双向循环神经网络拟合文本与自注意力 机制分配权重的中文文本预测错误模 型。 本发明 采用全卷积神经网络(FCN)与残 差网络(ResNet) 组成的语义理解模块(FR), 具有以下两个优点: 一是使用全卷积神经网络(FCN)把一维文本数据 视为一维图片, 理解文本语义, 解决了现有技术 处理语义手段缺乏问题; 二是使用残差网络 (ResNet)加深了网络的层数, 提高了特征的数 量, 加深对 文本语义的理解 程度。 权利要求书3页 说明书8页 附图3页 CN 114548116 A 2022.05.27 CN 114548116 A 1.一种基于语序与语义联合分析的中文 文本检错方法, 其特 征在于包括以下步骤: 步骤1: 数据预处 理; 1‑1获取原始文本数据, 将原始文本数据中所有文本按字级别划分, 构建得到中文字集 合D(w); 对中文字集合D(w)中插入 标识符, 然后使用索引对中文字集合D(w)进行标记, 每一 个字对应一个字典索引, 形成字典Dic(w,k); 1‑2对原始文本数据中文本语句To ken化, 并加入标识符, 并将其进行固定句长; 1‑3根据步骤1 ‑1的字典索引对步骤1 ‑2Token化后的文本语句序列化; 1‑4对步骤1 ‑3索引序列化后的数据通过字嵌入Embed ding技术映射成768维向量; 步骤2: 通过基于语序与语义联合分析的中文 文本检错模型RFRA, 实现中文 文本检错; 所述基于语序与语义联合分析的中文文本检错模型包括信 息提取模块、 自注意力模块 Self‑Attention、 输出层; 所述信息提取模块包括双向门控循环神经网络BiGRU和语义理解模块FR; 所述语义理解模块FR的输入为步骤1预处理后的768维向量, 用于提取文本语义信息; 其包括多个语义理解单元, 每个语义理解单元包括全卷积神经网络FCN; 每个语义理解单元 采用残差网络ResNet连接, 并且采用改进的Sigmoid函数; 每个语义理解单元的输入为前两 层单元的输出; 所述自注意力模块Self ‑Attention的输入为双向门控循环神经网络BiGRU和语义理解 模块FR的叠加输出, 用于分配字权重; 将输入分化成键矩阵Key、 问号矩阵Query、 值矩阵 Value, 其次根据键矩阵与问号矩阵计算相似度矩阵Similarity, 再对相似度矩阵归一化, 最后将相似度矩阵与值矩阵加权得到注意力矩阵A ttention; 所述输出层用于判断输出字是否有错。 2.如权利要求1所述的方法, 其特征在于步骤1 ‑2所述加入标识符是在句首加入 “START”起始符, 在句中加入 “CLS”间隔符, 在句末加入 “END”终止符。 3.如权利要求1所述的方法, 其特征在于步骤1 ‑2所述固定句长是将长句截断过长部 分, 短句使用 “PAD”符填充至固定句长 长度。 4.如权利要求1所述的方法, 其特征在于所述双向门控循环神经网络BiGRU的输入为步 骤1预处理后的768维向量与自身产出的上一个时刻的隐藏状态, 用于提取文本时序信息; 具体是: 所述的双向门控循环单 元模型包括两个门控循环单 元GRU; GRU具有重 置门R与更新门Z, 在t时刻的重 置门Rt与t时刻的更新门Zt计算如下 所示: 其中 是来自步骤1在t时刻的映射成的768维向量, Ht‑1是t‑1时刻的隐藏状态, Wxr是重 置门输入权重参数, Wxz是更新门输入权重参数, Whr是重置门隐藏状态权重参数, Whz是更新 门隐藏状态权重参数, brr和brz分别是重置门和更新 门的偏置参数; σ 是Sigmoid函数, 控制 重置门与更新门的大小范围在0,1之间; 重置门用于生成候选隐藏状态 计算如下表示:权 利 要 求 书 1/3 页 2 CN 114548116 A 2其中Wxh是候选隐藏状态输入权重参数, Whh是候选隐藏状态关于隐藏状态的权重参数, bh是候选隐藏状态偏置参数, tahn是激活函数; 更新门用于生成当前时刻的隐藏状态Ht, 计算如下表示: 其中 表示哈达 玛积, 是针对元 素的相乘; 两个门控循环单元GRU一个是正向输入, 一个是反向输入, 其正向隐藏状态 和反向隐 藏状态 计算如下表示: 其中 表示顺序使用GRU生成隐藏状态, 表示逆向使用GRU生成隐藏状态, 表示t时 刻正向隐藏状态, 表示t时刻逆向隐藏状态; 隐藏状态H的生成具体如下 所示: 其中 表示维度连接操作。 5.如权利要求1所述的方法, 其特 征在于所述残差网络ResNet计算公式如下表示: 所述改进的Sigmo id函数计算公式如下: 其中 表示ResNet在t时刻的输出, 表示语义理解单元在t ‑1时刻的输出, 表 示语义理解单 元在t‑2时刻的输出。 6.如权利要求1所述的方法, 其特 征在于所述自注意力模块Self ‑Attention具体是: (a)将双向门控循环神经网络(BiGRU)和语义理解模块(FR)的输出叠加后分化成键矩 阵(Key), 问号矩阵(Query), 值矩阵(Value); 具体是 其中Wq是问号矩阵权重参数, Wk是键矩阵权重参数, Wv是值矩阵权重参数; 表示信息 提取模块中的双向循环神经网络BiGRU与FR语义理解模块在t时刻的输出; (b)根据键矩阵与问号矩阵计算相似度矩阵(Simi larity): Similarity(Query,K ey)=Query×Key (2.14)权 利 要 求 书 2/3 页 3 CN 114548116 A 3

PDF文档 专利 一种基于语序与语义联合分析的中文文本检错方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语序与语义联合分析的中文文本检错方法及系统 第 1 页 专利 一种基于语序与语义联合分析的中文文本检错方法及系统 第 2 页 专利 一种基于语序与语义联合分析的中文文本检错方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。