说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210180038.6 (22)申请日 2022.02.25 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 申请人 广州启辰电子科技有限公司 (72)发明人 马千里 郑俊豪 郑彦魁 (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 黄卫萍 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06Q 50/20(2012.01) (54)发明名称 一种面向教育考试的跨域图匹配实体识别 方法 (57)摘要 本发明公开了一种面向教育考试的跨域图 匹配实体识别方法, 步骤如下: 获取源域命名实 体识别数据集, 使用源域命名实体识别数据集训 练深度神经网络模型得到源域模 型; 获取带有实 体类别标注的教育考试文本数据; 利用训练好的 源域模型构建目标域模型; 把 教育考试文本数据 输入源域模型和目标域模型分别计算得到源域 图和目标域图; 利用教育考试文本数据、 源域图 和目标域图训练目标域模型, 训练完成的目标域 模型可用于教育考试文本实体识别。 该方法利用 迁移学习的优势, 把模型在数据充足的任务下学 习到的知识有效地迁移到带实体类别标注数据 较为稀缺的教育考试文本实体识别任务中, 提升 了对教育考试文本实体识别的准确率。 权利要求书4页 说明书14页 附图2页 CN 114580415 A 2022.06.03 CN 114580415 A 1.一种面向教育考试的跨域图匹配实体识别方法, 其特征在于, 所述跨域图匹配实体 识别方法包括以下步骤: S1、 获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集, 并 去除其中包 含缺失值的语句; S2、 利用步骤S1源域命名实体识别数据集训练深度神经网络模型 得到源域模型; S3、 获取带有实体标签的教育考试文本数据, 并去除其中包 含缺失值的语句; S4、 利用步骤S2中获得的源域模型构建目标域模型; S5、 把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获 得的目标域模型分别计算得到源域图和目标域图; S6、 利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训 练目标域模型, 将经 过训练的目标域模型用于教育考试实体识别; S7、 输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型, 得到目标域模 型对教育考试文本数据实体识别的结果。 2.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法, 其特征在于, 所述深度神经网络模型包括特 征编码器和全连接层, 其中, 所述特征编码器为预训练语言模型BERT, 由12层Transformer单元和12层多头注意力 组成, 把特 征编码器记作函数g(), 定义如下: E=g(X) 其中 是文本, 表示第ix个单词, Nt为单词个数, 是文本特 征嵌入, dh是文本特 征嵌入的维度, dh设为768, 表示实数域; 所述全连接层的计算公式如下: Os=EWs+bs 其中 为源域模型输出, 与 分别为源域模型全连 接层的权 重矩阵与偏置, Cs为源域命名实体识别数据集中实体 类别的个数; 所述深度神经网络模型记为 函数f0(), 定义如下: f0(X)=Os=EWs+bs=g(X)Ws+bs。 3.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法, 其特征在于, 所述步骤S4中通过源域模型构建目标域模型的过程如下: S401、 构建与所述源域模型 具有相同参数的目标域模型; S402、 把目标域模型的全连接层更换为以下全连接层并随机初始化其参数, 其中, 最后 一层的全连接层的计算公式如下: Ot=EWt+bt 其中 为目标域模型输出, 与 分别为目标域模型 全连接层的权 重矩阵与偏置, Ct为教育考试文本数据中实体 类别的个数; 所述目标域模型记为 函数f(), 定义如下: f(X)=Ot=EWt+bt=g(X)Wt+bt。 4.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法, 其特征在于, 所述步骤S5中源域图和目标域图生成过程如下:权 利 要 求 书 1/4 页 2 CN 114580415 A 2S501、 给定教育考试文本数据 利用步骤S2中获得的源域模型, 计算类别之间的后验 概率ps(ys|yt): 其中, ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别, 为 中所有实体类别为y的样本, xi和yi表示 中第i个样 本的单词和实体标签, 表示 中样本的个数, f ’0()为调整输出平滑度后的源域模 型, f’0()的定义如下: 其中T为控制 平滑度的超参数, e表示自然常数; 表示源域模型对第i个样本第 Ks个类别的预测分数, Ks=1, 2, ..., Cs; 通过得到的后验概率ps(ys|yt), 构建源域图 其中 和 εs分别代表源域图的 图节点和边 集合, 源域图中图节点定义 为: 其中 和 分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合, 分别表示 中的第n个类别, 和 分别表示 和 中包含类别的个数, 表示 归一化前源域图类别yt的图节点, y1和y2是教育考试文本数据的任意两个类别, 和 表示归一化前源域图类别y1和y2的图节点, 表示源域图类别yt的图节点, 源域图中边定 义为: 其中 表示源域图类别为y1和y2的图节点之间的边长, 和 分别表示源域图 类别y1和y2的图节点, 表示源域图图节点 和 的欧氏距离, δ为边长设定 的阈值, 边长取值 为无穷时表示目标域图 图节点之间不存在直接相连接的边; S502、 利用步骤S4中获得的目标域模型, 计算类别之间的后验概 率pt(yt1|yt2): 其中, yt1和yt2为教育考试文本数据的类别, 为 中所 有实体类别为yt1的样本, xj和yj表示 中第j个样本的单词和实体标签, 表示 权 利 要 求 书 2/4 页 3 CN 114580415 A 3
专利 一种面向教育考试的跨域图匹配实体识别方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:26
上传分享
举报
下载
原文档
(1.7 MB)
分享
友情链接
freebuf 2019企业安全威胁统一应对指南.pdf
GBT 25296-2022 电气设备安全通用试验导则.pdf
GB-T 25970-2010 不燃无机复合板.pdf
GB-T 25062-2010 信息安全技术 鉴别与授权 基于角色的访问控制模型与管理规范.pdf
GB-T 5048-2017 防潮包装.pdf
LY-T 1812-2021 林地分类.pdf
DL-T 2163-2020 微机械电子式测斜仪.pdf
T-CES 145—2022 换流变压器用振动测量仪技术规范.pdf
GB-T 34095-2017 信息安全技术 用于电子支付的基于近距离无线通信的移动终端安全技术要求.pdf
GB-T 31200-2014 电梯、自动扶梯和自动人行道乘用图形标志及其使用导则.pdf
GB-T 14555-2015 船用导航雷达接口及安装要求.pdf
GB-T 22025-2008 气雾剂级异丁烷 A-31.pdf
GM-T 0003.3-2012 SM2椭圆曲线公钥密码算法第3部分:密钥交换协议.pdf
DB31-T 668.17-2020 节能技术改造及合同能源管理项目节能量审核与计算方法 第17部分:异形柔性保温 上海市.pdf
奇安信 自动化渗透测试系统-主打PPT.pptx
GB-T 29241-2012 信息安全技术 公钥基础设施 PKI互操作性评估准则.pdf
GB-T 28827.1-2022 信息技术服务 运行维护 第1部分:通用要求.pdf
IEC62443-3-2 2020-06.pdf
GB-T 43572-2023 区块链和分布式记账技术 术语.pdf
GB-T 43500-2023 安全管理体系 要求.pdf
1
/
21
评价文档
赞助2.5元 点击下载(1.7 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。