说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210177253.0 (22)申请日 2022.02.24 (71)申请人 北京交通大 学 地址 100044 北京市海淀区西直门外上园 村3号 (72)发明人 张春 张宁 贺璐  (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 黄晓军 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称 一种融合词典与字符特征的字符序列识别 方法 (57)摘要 本发明提供了一种融合词典与字符特征的 字符序列识别方法。 该方法包括: 获取输入序列 中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符 对应的三类词典匹配词集 嵌入向量进行拼接, 得 到词典增强的字符嵌入向量; 将词典增强的字 符 嵌入向量与三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输 出待解码信息; 将待解码信息输入至条件随机场 CRF解码层进行解码, 得到输入序列的标注结果。 本发明的方法通过综合词典的匹配词在字符嵌 入、 模型推理阶段对字符特征的交互、 匹配词以 及字符的位置信息增强的向量表 示, 从而有效地 增强模型对文本句子在嵌入过程 以及推理过程 中对语义信息的表示与理解。 权利要求书2页 说明书7页 附图1页 CN 114662476 A 2022.06.24 CN 114662476 A 1.一种融合词典与字符特 征的字符序列识别方法, 其特 征在于, 包括: 获取输入序列中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个 字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进 行拼接, 得到词典增强的字符 嵌入向量; 将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输出待解码信息; 将所述待解码信息输入至条件随机场CRF解码层进行解码, 得到所述输入序列的标注 结果。 2.根据权利要求1所述的方法, 其特征在于, 所述的获取输入序列中的每个字符匹配的 词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符对应的三类词典 匹配词集嵌入向量进行拼接, 得到词典增强的字符嵌入向量, 包括: 给定输入序列为C=[c1, c2, c3, ..., cn], 输入序列C中的第i个字符为ci, 通过预定义的 字符表对字符ci进行标记并输入至BERT编码器, 得到 字符ci的字符嵌入向量 分别表示与字符ci对应的该字符在词首、 词中、 词尾的三类词典匹配词集嵌入 向量, B、 M、 E 分别表示该字符在词首、 词中、 词尾的三类匹配词集, 令词集Z=B|M|E, 词集R= B∪M∪E, 则 具体计算如下: 其中, weight(w)表示匹配词w在某一类词集中的权重, num(w)表示匹配词w在语料中出 现的频数, e(w)表示匹配词w的嵌入表示, e表示词典的查找 表; 将字符嵌入向量 与对应的三类匹配词嵌入向量 进行拼接, 将拼接结果作为 第i个词典增强的字符嵌入向量 词典增强的字符序列 3.根据权利要求2所述的方法, 其特征在于, 所述的将所述词典增强的字符嵌入向量与 所述三类词典匹配词进行拼接后, 送入Transformer的编码层, Transformer的编码层输出 待解码信息, 包括: 将词典增强的字符序列xrep经过线性降维后, 与字符ci对应的词首、 词中、 词尾的三类匹 配词集B、 M、 E进行拼接后, 分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend, 得 到词典增强模 型的输入xdec, 字符序列的开始 位置与结束位置相同, 每个匹配词的开始位置 即为该词第一个字符所在的位置, 结束位置即为该词最后一个字符所在的位置, 计算如下: xdec=[xrepW1; e(w1), e(w2), e(w3), ..., e(wk)]+pstart+pend 其中, W1表示模型参数, p表示 位置信息的查找 表; 将xdec输入至Transformer的编码结构, Transformer的编码结构输出待解码信息A。 4.根据权利要求3所述的方法, 其特征在于, 所述的将所述待解码信 息输入至条件随机 场CRF解码层进行解码, 得到所述输入序列的标注结果, 包括: 将待解码信息A输入至CRF解码层进行解码预测, 将CRF获取的概率最大的序列作为所权 利 要 求 书 1/2 页 2 CN 114662476 A 2述输入序列C的标签序列y; 标签序列y=[y1, y2, y3, ..., yn], Y表示所有可能的标签序列集合, 标注序列y概率计算 如下: 其中, Wy, y′, by, y′是依据标签对(y, y ′)的训练参数, θ表示模型 所有的可训练参数。权 利 要 求 书 2/2 页 3 CN 114662476 A 3

PDF文档 专利 一种融合词典与字符特征的字符序列识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合词典与字符特征的字符序列识别方法 第 1 页 专利 一种融合词典与字符特征的字符序列识别方法 第 2 页 专利 一种融合词典与字符特征的字符序列识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。