专利 一种融合词典与字符特征的字符序列识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210177253.0 (22)申请日 2022.02.24 (71)申请人北京交通大学地址 100044 北京市海淀区西直门外上园村3号 (72)发明人张春　张宁　贺璐　 (74)专利代理机构北京市商泰律师事务所 11255 专利代理师黄晓军 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称一种融合词典与字符特征的字符序列识别方法 (57)摘要本发明提供了一种融合词典与字符特征的字符序列识别方法。该方法包括：获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量；将词典增强的字符嵌入向量与三类词典匹配词进行拼接后，送入 Transformer的编码层， Transformer的编码层输出待解码信息；将待解码信息输入至条件随机场 CRF解码层进行解码，得到输入序列的标注结果。本发明的方法通过综合词典的匹配词在字符嵌入、模型推理阶段对字符特征的交互、匹配词以及字符的位置信息增强的向量表示，从而有效地增强模型对文本句子在嵌入过程以及推理过程中对语义信息的表示与理解。权利要求书2页说明书7页附图1页 CN 114662476 A 2022.06.24 CN 114662476 A 1.一种融合词典与字符特征的字符序列识别方法，其特征在于，包括：获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量；将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后，送入 Transformer的编码层， Transformer的编码层输出待解码信息；将所述待解码信息输入至条件随机场CRF解码层进行解码，得到所述输入序列的标注结果。 2.根据权利要求1所述的方法，其特征在于，所述的获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量，包括：给定输入序列为C＝[c1， c2， c3， ...， cn]，输入序列C中的第i个字符为ci，通过预定义的字符表对字符ci进行标记并输入至BERT编码器，得到字符ci的字符嵌入向量分别表示与字符ci对应的该字符在词首、词中、词尾的三类词典匹配词集嵌入向量， B、 M、 E 分别表示该字符在词首、词中、词尾的三类匹配词集，令词集Z＝B|M|E，词集R＝ B∪M∪E，则具体计算如下：其中， weight(w)表示匹配词w在某一类词集中的权重， num(w)表示匹配词w在语料中出现的频数， e(w)表示匹配词w的嵌入表示， e表示词典的查找表；将字符嵌入向量与对应的三类匹配词嵌入向量进行拼接，将拼接结果作为第i个词典增强的字符嵌入向量词典增强的字符序列 3.根据权利要求2所述的方法，其特征在于，所述的将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后，送入Transformer的编码层， Transformer的编码层输出待解码信息，包括：将词典增强的字符序列xrep经过线性降维后，与字符ci对应的词首、词中、词尾的三类匹配词集B、 M、 E进行拼接后，分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend，得到词典增强模型的输入xdec，字符序列的开始位置与结束位置相同，每个匹配词的开始位置即为该词第一个字符所在的位置，结束位置即为该词最后一个字符所在的位置，计算如下： xdec＝[xrepW1； e(w1)， e(w2)， e(w3)， ...， e(wk)]+pstart+pend 其中， W1表示模型参数， p表示位置信息的查找表；将xdec输入至Transformer的编码结构， Transformer的编码结构输出待解码信息A。 4.根据权利要求3所述的方法，其特征在于，所述的将所述待解码信息输入至条件随机场CRF解码层进行解码，得到所述输入序列的标注结果，包括：将待解码信息A输入至CRF解码层进行解码预测，将CRF获取的概率最大的序列作为所权　利　要　求　书 1/2 页 2 CN 114662476 A 2述输入序列C的标签序列y；标签序列y＝[y1， y2， y3， ...， yn]， Y表示所有可能的标签序列集合，标注序列y概率计算如下：其中， Wy， y′， by， y′是依据标签对(y， y ′)的训练参数， θ表示模型所有的可训练参数。权　利　要　求　书 2/2 页 3 CN 114662476 A 3

专利 一种融合词典与字符特征的字符序列识别方法

专利一种融合词典与字符特征的字符序列识别方法