说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210177253.0 (22)申请日 2022.02.24 (71)申请人 北京交通大 学 地址 100044 北京市海淀区西直门外上园 村3号 (72)发明人 张春 张宁 贺璐 (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 黄晓军 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称 一种融合词典与字符特征的字符序列识别 方法 (57)摘要 本发明提供了一种融合词典与字符特征的 字符序列识别方法。 该方法包括: 获取输入序列 中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符 对应的三类词典匹配词集 嵌入向量进行拼接, 得 到词典增强的字符嵌入向量; 将词典增强的字 符 嵌入向量与三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输 出待解码信息; 将待解码信息输入至条件随机场 CRF解码层进行解码, 得到输入序列的标注结果。 本发明的方法通过综合词典的匹配词在字符嵌 入、 模型推理阶段对字符特征的交互、 匹配词以 及字符的位置信息增强的向量表 示, 从而有效地 增强模型对文本句子在嵌入过程 以及推理过程 中对语义信息的表示与理解。 权利要求书2页 说明书7页 附图1页 CN 114662476 A 2022.06.24 CN 114662476 A 1.一种融合词典与字符特 征的字符序列识别方法, 其特 征在于, 包括: 获取输入序列中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个 字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进 行拼接, 得到词典增强的字符 嵌入向量; 将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输出待解码信息; 将所述待解码信息输入至条件随机场CRF解码层进行解码, 得到所述输入序列的标注 结果。 2.根据权利要求1所述的方法, 其特征在于, 所述的获取输入序列中的每个字符匹配的 词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符对应的三类词典 匹配词集嵌入向量进行拼接, 得到词典增强的字符嵌入向量, 包括: 给定输入序列为C=[c1, c2, c3, ..., cn], 输入序列C中的第i个字符为ci, 通过预定义的 字符表对字符ci进行标记并输入至BERT编码器, 得到 字符ci的字符嵌入向量 分别表示与字符ci对应的该字符在词首、 词中、 词尾的三类词典匹配词集嵌入 向量, B、 M、 E 分别表示该字符在词首、 词中、 词尾的三类匹配词集, 令词集Z=B|M|E, 词集R= B∪M∪E, 则 具体计算如下: 其中, weight(w)表示匹配词w在某一类词集中的权重, num(w)表示匹配词w在语料中出 现的频数, e(w)表示匹配词w的嵌入表示, e表示词典的查找 表; 将字符嵌入向量 与对应的三类匹配词嵌入向量 进行拼接, 将拼接结果作为 第i个词典增强的字符嵌入向量 词典增强的字符序列 3.根据权利要求2所述的方法, 其特征在于, 所述的将所述词典增强的字符嵌入向量与 所述三类词典匹配词进行拼接后, 送入Transformer的编码层, Transformer的编码层输出 待解码信息, 包括: 将词典增强的字符序列xrep经过线性降维后, 与字符ci对应的词首、 词中、 词尾的三类匹 配词集B、 M、 E进行拼接后, 分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend, 得 到词典增强模 型的输入xdec, 字符序列的开始 位置与结束位置相同, 每个匹配词的开始位置 即为该词第一个字符所在的位置, 结束位置即为该词最后一个字符所在的位置, 计算如下: xdec=[xrepW1; e(w1), e(w2), e(w3), ..., e(wk)]+pstart+pend 其中, W1表示模型参数, p表示 位置信息的查找 表; 将xdec输入至Transformer的编码结构, Transformer的编码结构输出待解码信息A。 4.根据权利要求3所述的方法, 其特征在于, 所述的将所述待解码信 息输入至条件随机 场CRF解码层进行解码, 得到所述输入序列的标注结果, 包括: 将待解码信息A输入至CRF解码层进行解码预测, 将CRF获取的概率最大的序列作为所权 利 要 求 书 1/2 页 2 CN 114662476 A 2述输入序列C的标签序列y; 标签序列y=[y1, y2, y3, ..., yn], Y表示所有可能的标签序列集合, 标注序列y概率计算 如下: 其中, Wy, y′, by, y′是依据标签对(y, y ′)的训练参数, θ表示模型 所有的可训练参数。权 利 要 求 书 2/2 页 3 CN 114662476 A 3
专利 一种融合词典与字符特征的字符序列识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:27
上传分享
举报
下载
原文档
(645.0 KB)
分享
友情链接
NY-T 2919-2016 瓜类果斑病防控技术规程.pdf
GB-T 41800-2022 信息技术 传感器网络 爆炸危险化学品贮存安全监测系统技术要求.pdf
GB-T 42078-2022 化工园区开发建设导则.pdf
中华人民共和国密码法 2020.pdf
JR-T0167-2020 云计算技术金融应用规范 安全技术要求.pdf
腾讯安全 浅谈勒索病毒场景下零信任技术应用.pdf
GBT 4109-2022 交流电压高于1000V的绝缘套管.pdf
T-SSITS 2001—2022 低速无人车移动底盘通用技术条件.pdf
GB-T 28453-2012 信息安全技术 信息系统安全管理评估要求.pdf
GB-T 42592-2023 风力发电机组 风轮叶片超声波检测方法.pdf
DB14-T 712-2018 高速公路施工驻地、场站、工地试验室 建设指南 山西省.pdf
GB-T 39901-2021 乘用车自动紧急制动系统(AEBS)性能要求及试验方法.pdf
DB14-T 1720-2018 黄土公路隧道工程监测技术规程 山西省.pdf
GB-Z 25425-2010 风力发电机组 公称视在声功率级和音值.pdf
T-BAX 0001.1—2021 安防监控中心值机工作与服务要求 :第1部分 值机工作要求.pdf
GB-T 12022-2014 工业六氟化硫.pdf
GB-T 42920-2023 塑料 纤维增强塑料复合材料耐火特性和防火性能的评定.pdf
专利 一种用于堡垒机的数据库高危指令审核方法和系统.PDF
笫四次工业革命AIGC 3.pdf
GB-T 25285.1-2021 爆炸性环境 爆炸预防和防护 第1部分:基本原则和方法.pdf
1
/
11
评价文档
赞助2.5元 点击下载(645.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。