(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210160086.9
(22)申请日 2022.02.22
(65)同一申请的已公布的文献号
申请公布号 CN 114238644 A
(43)申请公布日 2022.03.25
(73)专利权人 北京澜舟 科技有限公司
地址 100000 北京市海淀区海淀大街3号B
座11层1101-3室
(72)发明人 王宇龙 张倬胜 华菁云 周明
(74)专利代理 机构 深圳市智享知识产权代理有
限公司 4 4361
专利代理师 王琴
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/289(2020.01)G06F 40/295(2020.01)
G06F 40/30(2020.01)
审查员 王婷婷
(54)发明名称
一种降低语义识别计算量的方法、 系统及存
储介质
(57)摘要
本发明涉及自然语 言处理领域, 特别涉及一
种降低语义识别计算量的方法、 系统及存储介
质。 本发明的降低语义识别计算量的方法包括如
下步骤: 获取预训练模型; 对预训练模型增加语
言学训练目标成为最终训练模型; 将待识别文本
输入最终训练模型; 输出待识别文本语义。 通过
增加语言学训练目标的设计, 使得无需 改变模型
的结构就能提升训练的精确性和模 型的鲁棒性,
同时还降低了模 型的复杂程度, 降低了模型的计
算量, 解决了现有技术模型的计算量过大的问
题。
权利要求书1页 说明书8页 附图3页
CN 114238644 B
2022.06.07
CN 114238644 B
1.一种降低语义识别计算 量的方法, 其特 征在于: 包括以下步骤:
将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样
本, 输入拓展句子样本至预设语言模型中, 得到编 码后的上下文表 示, 并基于预设第一训练
目标训练语言模型以获取 预训练模型; 所述第一训练目标为 解析被覆盖的子词序列;
将训练句子样本标注词性标签和实体标签, 并给预训练模型增加相应的语言学训练目
标, 即增加第二训练目标成为最终训练模型, 也即第一训练目标与第二训练目标结合对语
言模型进行增强训练获得最终训练模型, 所述语言学训练目标为根据上下文表示, 预测相
应的词性标签概 率和实体标签概 率;
将待识别文本 输入最终训练模型;
输出待识别文本语义。
2.如权利要求1所述的降低语义识别计算量的方法, 其特征在于: 通过自然语言处理工
具对训练句子样本W进行词性标签和实体标签的标注。
3.如权利要求1所述的降低语义识别计算量的方法, 其特征在于: 所述第 一训练目标设
置为
; 所述第二训练目标设置为
;
, 所述最终训练模型的训练目标设置为
, 其中
为
预训练模型的损失函数,
与
为词性标签和实体标签 的预测损失函数,
为第k个
输入的句子,
为拓展句子样本,
为第i个词性标签,
为第i个实体标签,
和
为预测
其对应的语言学 标签的概 率。
4.如权利要求3所述的降低语义识别计算量的方法, 其特征在于: 通过损失函数作为训
练目标, 损失函数设置为交叉熵损失函数。
5.如权利要求1所述的降低语义识别计算量的方法, 其特征在于: 切分子词序列时记录
每个词所切分后的子词元 素及与其对应的词性标签和实体标签。
6.一种降低语义识别计算 量的系统, 其特 征在于: 包括:
训练模块: 将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓
展句子样本, 输入拓展句子样本至预设语 言模型中, 得到编码后的上下文表示, 并基于预设
第一训练目标训练语言模型以获取预训练模型; 所述第一训练目标为解析被覆盖的子词 序
列; 将训练句 子样本标注词性标签和实体标签, 并给预训练模型增加相 应的语言学训练目
标,即增加第二训练目标成为最终训练模型; 也即第一训练目标与第二训练目标结合对语
言模型进行增强训练获得最终训练模型, 所述语言学训练目标为根据上下文表示, 预测相
应的词性标签概 率和实体标签概 率;
输入模块, 用于将待识别文本 输入最终训练模型;
输出模块, 用于 输出待识别文本语义。
7.一种存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被处理器执行
时实现权利要求1 ‑5任一项所述的方法。权 利 要 求 书 1/1 页
2
CN 114238644 B
2一种降低 语义识别计算量的方 法、 系统及存 储介质
技术领域
[0001]本发明涉及自然语言处理领域, 特别涉及一种降低语义识别计算量的方法、 系统
及存储介质。
背景技术
[0002]近年来, 预训练模型成为了自然语言处理 (NLP) 领域的新范式。 预训练模型是一种
迁移学习的应用, 通过自监督学习从大规模数据中训练得到与具体任务无关的预训练模
型, 利用几乎无限的文本, 学习输入句子的每一个词语单元的上下文相关的表 示, 从而隐式
地学习通用的语法语义知识, 并可通过微调的方式用在任何的下游任务上。
[0003]语言建模的核心是从大规模数据中自动捕获知识。 知识分为显性知识和隐性知
识。 显性知识是能用文字和数字表达出来的, 容易以硬数据的形式交流和共享, 并且经编辑
整理的程序或者普遍原则。 隐性知识是高度个性而且难于格式化的知识, 包括主观的理解、
直觉和预感。 传统NLP研究常常采用语言标注信息作为显性知识 来增强语 言表示, 进而更好
地在模型隐层中挖掘隐性知识, 如向词嵌入表示 (Word Embedding) 中融合词性标注 (POS)
和命名实体 (NER) 的标注信息。 在预训练模 型时代, 已有研究表明预训练模型依然处于欠拟
合状态, 有效地引入人类先验知识或常识有助于提升模型的语言理解和推理能力。
[0004]现有的一些方案通过语言学相关的任务来引导模型学习人类语言结构, 包括语言
表示层面和注意力架构层面。 具体而言, 前者将标注的词性标签、 实体标签或语言角色标签
等语言学信息通过词嵌入的方式融合到词语表示中, 作为语言学标签的增强; 后者通过句
法结构解析, 得到词和词之间的关系, 构建关系矩阵, 融合到注意力机制的权重里面。 这两
类方法均需要对 模型架构进行修改, 导 致模型的计算 量过大的问题。
发明内容
[0005]为解决现有模型的计算量过大的问题, 本发明提供了一种降低语义识别计算量的
方法、 系统及存 储介质。
[0006]本发明解决技术问题的方案是提供一种降低语义识别计算量的方法, 包括以下步
骤:
[0007]将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句
子样本, 输入拓展句子样本至预设语言模型中, 得到编 码后的上下文表示, 并基于预设第一
训练目标训练语言模型以获取 预训练模型, 所述第一训练目标为 解析被覆盖的子词序列;
[0008]将训练句子样本标注词性标签和实体标签, 并给预训练模型增加相应的语言学训
练目标, 即增加第二训练目标成为最终训练模型, 也即第一训练目标与第二训练目标结合
对语言模型进行增强训练获得最终训练模型, 所述语言学训练目标为根据上下文表示, 预
测相应的词性标签概 率和实体标签概 率;
[0009]将待识别文本 输入最终训练模型;
[0010]输出待识别文本语义。说 明 书 1/8 页
3
CN 114238644 B
3
专利 一种降低语义识别计算量的方法、系统及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:30上传分享