说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210166924.3 (22)申请日 2022.02.23 (71)申请人 西北大学 地址 710069 陕西省西安市太白北路2 29号 (72)发明人 孙霞 金鑫 陈嘉诚 卞婷 王明磊 (74)专利代理 机构 西安恒泰知识产权代理事务 所 61216 专利代理师 李郑建 (51)Int.Cl. G16C 20/90(2019.01) G16C 20/70(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于知识图谱的药物关系抽取方法 (57)摘要 本发明涉及一种基于知识图谱的药物关系 抽取方法, 通过P ubmedBERT并结合注意力获取药 物描述的语义特征, 用药物关系抽取数据集和 DrugBank数据库构建药物关系知识图谱, 通过 RotatE模型得到 药物的知识嵌入特征; 同时获取 药物关键路径特征; 最后组合药物描述的语义特 征、 知识嵌入 特征和关键 路径特征送入多层感知 机中分类, 同时使用基于知识嵌入的多分类 FocalLoss损失函数训练神经网络分类模型, 并 根据分类模 型结果计算分类准确率。 通过使用注 意力机制获取更符合药物关系抽取任务的语义 特征, 同时使用知识图谱嵌入, 使网络模型具有 更好的可解释性, 最后通过改进的多分类Focal loss损失函数, 有效缓解了 数据集分布不均衡问 题, 使最终分类结果有所提高。 权利要求书2页 说明书10页 附图2页 CN 114582443 A 2022.06.03 CN 114582443 A 1.一种基于知识图谱的药物关系抽取 方法, 其特 征在于, 包括以下步骤: 步骤S1: 数据预处 理 将原始的药物数据集进行处 理, 并按以下三种规则进行: 规则1: 一个实例中是否包 含相同药物名; 规则2: 两种药物之间是否有一个药物为另一个药物的子类; 规则3: 两种药物之间是否存在关键路径; 根据上述 三种规则去除掉负例数据实例, 得到预处 理后的数据集; 步骤S2: 语义特 征表示 所得到预处理后的数据 集, 将这些数据实例, 依次送入PubmedBERT中获取语义特征, 同 时使用注意力机制来 获取每个实例的语义特征, 这些语义特征是考虑了不同语法特征的综 合语义特 征; 步骤S3: 药物关系知识图谱构建 将原本药物关系抽取数据集融入到DrugBank数据库之中, 形成需要的药物关系知识图 谱; 步骤S4: 知识嵌入特 征表示 将得到的药物关系知识图谱, 使用RotatE知识嵌入 模型, 得到知识嵌入特 征; 步骤S5: 关键路径特 征表示 使用Stanza工具获取两个药物实体间的关键路径信息, 在此基础之上, 获取原始药物 描述文本的关键路径特 征; 步骤S6: 神经网络分类 将得到的语义特征、 关键路径特征以及知识嵌入特征拼接之后, 能够得到包含不同特 征的向量集合, 接着将这些向量平均化之后送入到多层感知机中进行分类, 将多层感知机 分类的结果送入到Softmax中, 进行归一 化; 最后将得到的向量进行五分类, 得到最终的分类结果; 同时选择使用基于知识嵌入的 多分类Focal Loss损失函数训练神经网络, 该损失函数能够 有效的缓解数据分布 不均衡以 及神经网络错分的问题, 使神经网络模型的最终分类结果取 得较高值; 步骤S7: 药物关系查询原型系统设计 通过前述步骤抽取出需要的药物关系, 接着将抽取出的药物关系存储至数据库之中, 然后, 设计药物关系抽取原型系统, 以方便用户查询相关的药物信息; 该药物关系查询原型 系统包括用户注 册、 用户登录、 药物关系查询以及药物信息管理模块。 2.如权利要求1所述的方法, 其特征在于: 所述步骤S1中, 首先将原始数据集处理, 形成 所有药物实体之间相互作用的数据集; 对文本中包含的药物实体进行标记, 分别标记为 Drug0, Drug1, Drug2; 其中, Drug1和Drug2表示当前有药物相互作用的两种药物, Drug0表示 非当前实例所考虑的药物实体; 接着根据步骤S1中的前两种规则, 将原始数据集进 行过滤, 去除一部分负例数据; 同时, 通过Stanza工具不能够得到药物描述文本中两个药物实体之间的关键路径时, 则认为这样的数据实例也是负例, 根据步骤S1中的规则三将其过滤掉, 形成最终需要处理 的数据集。 3.如权利要求1所述的方法, 其特征在于: 所述步骤S3中, 首先将原始的药物关系数据权 利 要 求 书 1/2 页 2 CN 114582443 A 2集整理为知识图谱需要的三元组格式, 形成知识图谱{KG_DDIE}; 然后, 从Dru gBank数据库 中抽取出药物关系的三元组集合, 形成知识图谱{KG_DrugBank}; 最后, 将上述两个三元组 集合融合, 形成最终需要的药物关系知识图谱{KG_DRUG}。 4.如权利 要求1所述的方法, 其特征在于, 所述步骤S5中, 首先使用Stanza工具, 处理数 据预处理之后得到的数据集, 得到分词之后的文本数据, 之后标记该实例中的药物实体 Drug1和Drug2; 然后使用Stanza工具获取Drug1和Drug2的关键路径信息, 设置关键词为1, 非关键词为0, 即得到该实例文本中两个药物实体之间的关键路径信息 。 5.权利要求1至4其中之一所述方法构建的药物关系分类模型, 包括依次连接的数据 预 处理模块、 语义特征表示模块、 药物关系知识图谱构建模块、 知识嵌入特征表示模块、 关键 路径特征表示模块、 神经网络分类模块和药物关系查询原型系统设计模块。权 利 要 求 书 2/2 页 3 CN 114582443 A 3
专利 一种基于知识图谱的药物关系抽取方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:28
上传分享
举报
下载
原文档
(453.5 KB)
分享
友情链接
专利 数据资产风险发现方法和装置.PDF
腾讯安全 浅谈腾讯加密勒索病毒防御实践.pdf
DB31-T 960-2023 冷却塔节能监测 上海市.pdf
YD-T 3228-2023 移动应用软件安全评估方法.pdf
GB-T 20984-2007 信息安全技术 信息安全风险评估规范.pdf
GB-T 33304-2016 煤炭燃烧特性试验方法 热重分析法.pdf
GB-T 37092-2018 信息安全技术 密码模块安全要求.pdf
DB34-T 3433.2-2019 计量检测数据信息 第 2 部分:采集规范 安徽省.pdf
GB-T 38060-2019 浮空器球体结构工艺术语.pdf
DB32-T 4765-2024 化工行业智能化改造数字化转型网络化联接实施指南 江苏省.pdf
GB-T 22081-xxxx ISO-IEC27002 2022 信息安全技术 信息安全控制(征求意见稿).pdf
GB-T 18513-2022 中国主要进口木材名称.pdf
JR-T 0071.1—2020 金融行业网络安全等级保护实施指引 第1部分:基础和术语.pdf
T-WAPIA 045.4—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第4 部分:采用预共享密钥的原子密钥建立与实体鉴别.pdf
GB-T 18494.1-2014 变流变压器 第1部分:工业用变流变压器.pdf
GB-T 32351-2015 电力信息安全水平评价指标.pdf
GB-T 31508-2015 信息安全技术 公钥基础设施 数字证书策略分类分级规范.pdf
T-CASME 347—2023 融合业务运营的数据中心运维管理规范.pdf
DB52-T 1636.4-2021 机关事务云 第4部分:机关后勤管理数据 贵州省.pdf
专利 一种用于冲压模的插入式组合散热装置.PDF
1
/
15
评价文档
赞助2.5元 点击下载(453.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。