(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210169875.9
(22)申请日 2022.02.24
(71)申请人 西南交通大 学
地址 610031 四川省成 都市二环路北一段
111号
(72)发明人 滕飞 周晓敏 张恩铭 马征
黄路非 李暄
(74)专利代理 机构 北京集智东方知识产权代理
有限公司 1 1578
专利代理师 刘林 陈攀
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)G06F 40/284(2020.01)
G06F 40/211(2020.01)
(54)发明名称
一种医疗文本编码方法、 装置、 设备及可读
存储介质
(57)摘要
本发明提供了一种医疗文本编码方法、 装
置、 设备及可读存储介质, 所述方法包括: 获取第
一文档集合; 基于临床文档, 利用词嵌入技术生
成词嵌入矩阵; 基于临床文档、 词嵌入矩阵和卷
积神经网络得到上层序列向量; 基于上层序列向
量和词嵌入矩 阵得到每个临床文档所对应的句
子向量; 基于每个临床文档所对应的句子向量得
到初步的分类器; 基于第一文档集合和临床文档
所对应的句子向量得到最终的分类器, 使用最终
的分类器对临床文档进行ICD编码。 本发明关注
了罕见疾病编码, 提高了编码员对罕见病的重
视。 并且本发明能够自动抽取特征, 不依赖手工
特征, 对不同医生的书写风格进行了缓和, 可 以
减少研究时间和减少匹配错 误。
权利要求书2页 说明书10页 附图3页
CN 114528944 A
2022.05.24
CN 114528944 A
1.一种医疗文本编码方法, 其特 征在于, 包括:
获取第一文档集 合, 所述第一文档集 合中包括至少一条临床文档;
基于所述临床文档, 利用词嵌入技 术生成词嵌入矩阵;
基于所述临床文档、 所述词嵌入矩阵和卷积神经网络得到上层序列向量;
基于所述上层序列向量和所述词嵌入矩阵得到每 个所述临床文档所对应的句子向量;
基于每个所述临床文档所对应的句子向量得到初步的分类器, 所述初步的分类器 中包
括分类器权重;
基于所述第 一文档集合和所述临床文档所对应的句子向量得到新的分类器权重, 用新
的分类器权重替换所述分类器权重, 得到最终的分类器, 使用所述最终的分类器对临床文
档进行ICD编码。
2.根据权利要求1所述的医疗文本编码方法, 其特征在于, 基于所述临床文档, 利用词
嵌入技术生成词嵌入矩阵, 包括:
获取词嵌入维度d和预设词, d为介于10 0‑300的正整数;
提取所述临床文档中的所有词并去重, 得到第一词表;
用所述预设词代替所有未在所述第一词表中出现的词, 得到第二词表;
对所述第二词表中的每一个词随机初始化d维向量, 得到所述词嵌入矩阵。
3.根据权利要求1所述的医疗文本编码方法, 其特征在于, 基于所述临床文档、 所述词
嵌入矩阵和卷积神经网络得到上层序列向量, 包括:
将所述临床文档中的每个词转换成一个低维向量, 得到输入特征矩阵, 其中, 将所述临
床文档中的每 个词的向量由所述词嵌入矩阵中对应词的向量 来进行表示;
在卷积神经网络中设置词嵌入维度、 滤波器宽度和滤波器输出 大小;
利用设置好的卷积神经网络学习所述输入特征矩阵的语义信 息, 得到所述上层序列向
量。
4.根据权利要求1所述的医疗文本编码方法, 其特征在于, 基于所述上层序列向量和所
述词嵌入矩阵得到每 个所述临床文档所对应的句子向量, 包括:
获取每个ICD编码描述;
将所述ICD编码描述中所有词小 写并删除停止词, 得到删除后的ICD编码描述;
在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量, 查
找后进行平均计算, 得到每 个ICD编码描述所对应的ICD编码描述向量;
将所述上层序列向量和全部的所述ICD编码描述向量共 同经过标签注意力机制, 得到
每个所述临床文档所对应的句子向量, 所述句子向量中包 含每种ICD编码的特 征表示。
5.一种医疗文本编码装置, 其特 征在于, 包括:
获取模块, 用于获取第一文档集 合, 所述第一文档集 合中包括至少一条临床文档;
第一计算模块, 用于基于所述临床文档, 利用词嵌入技 术生成词嵌入矩阵;
第二计算模块, 用于基于所述临床文档、 所述词嵌入矩阵和卷积神经网络得到上层序
列向量;
第三计算模块, 用于基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档
所对应的句子向量;
第四计算模块, 用于基于每个所述临床文档所对应的句子向量得到初步的分类器, 所权 利 要 求 书 1/2 页
2
CN 114528944 A
2述初步的分类 器中包括分类 器权重;
替换模块, 用于基于所述第 一文档集合和所述临床文档所对应的句子向量得到新的分
类器权重, 用新的分类器权重替换所述分类器权重, 得到最 终的分类器, 使用所述最 终的分
类器对临床文档进行ICD编码。
6.根据权利要求5所述的医疗文本编码装置, 其特 征在于, 第一计算模块, 包括:
第一获取 单元, 用于获取词嵌入维度d和预设词, d为介于10 0‑300的正整数;
提取单元, 用于提取 所述临床文档中的所有词并去重, 得到第一词表;
代替单元, 用于用所述预设词代替所有未在所述第一词表中出现的词, 得到第二词表;
初始化单元, 用于对所述第 二词表中的每一个词随机初始化d维向量, 得到所述词嵌入
矩阵。
7.根据权利要求5所述的医疗文本编码装置, 其特 征在于, 第二计算模块, 包括:
转化单元, 用于将所述临床文档中的每个词转换成一个低维向量, 得到输入特征矩阵,
其中, 将所述临床文档中的每 个词的向量由所述词嵌入矩阵中对应词的向量 来进行表示;
设置单元, 用于在卷积神经网络中设置词嵌入维度、 滤波器宽度和滤波器输出 大小;
学习单元, 用于利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息, 得到
所述上层序列向量。
8.根据权利要求5所述的医疗文本编码装置, 其特 征在于, 第三计算模块, 包括:
第二获取 单元, 用于获取每 个ICD编码描述;
删除单元, 用于将所述ICD编码描述中所有词小写并删除停止词, 得到删除后的ICD编
码描述;
第一计算单元, 用于在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对
应的词嵌入向量, 查找后进行平均计算, 得到每 个ICD编码描述所对应的ICD编码描述向量;
第二计算单元, 用于将所述上层序列向量和全部的所述ICD编码描述向量共 同经过标
签注意力机制, 得到每个所述临床文档所对应的句子向量, 所述句子向量中包含每种ICD编
码的特征表示。
9.一种医疗文本编码设备, 其特 征在于, 包括:
存储器, 用于存 储计算机程序;
处理器, 用于执行所述计算机程序时实现如权利要求1至4任一项所述医疗文本编码方
法的步骤。
10.一种可读存储介质, 其特征在于: 所述可读存储介质上存储有计算机程序, 所述计
算机程序被处 理器执行时实现如权利要求1至4任一项所述医疗文本编码方法的步骤。权 利 要 求 书 2/2 页
3
CN 114528944 A
3
专利 一种医疗文本编码方法、装置、设备及可读存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:27上传分享