(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210436608.3
(22)申请日 2022.04.25
(71)申请人 中译语通科技股份有限公司
地址 100049 北京市石景山区石景山路20
号16层16 01
(72)发明人 杨万征 蔡超 武学敏 徐芳
王雪
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 张萌
(51)Int.Cl.
G06F 16/2457(2019.01)
G06F 16/2455(2019.01)
G06F 16/2453(2019.01)
(54)发明名称
一种数据查询方法、 装置、 电子设备和存储
介质
(57)摘要
本申请提供了一种数据查询方法、 装置、 电
子设备和存储介质, 包括: 从查询终端发送的待
查询内容中提取待查询词汇; 从数据库中筛选待
查询词汇的技术词; 针对预设的每个业务维度,
基于数据库中存储的多个第一企业、 第一企业在
该业务维度下的业务数据、 业务数据与待查询词
汇的第二相关度、 业务数据与技术词的匹配度,
从多个第一企业中确定至少一个第二企业; 基于
第一相关度、 第二相关度、 匹配度以及预先为每
个业务维度设置的权重, 计算每个第二企业与待
查询内容的第三相关度; 将包含每个目标企业、
目标企业的第三相关度的查询结果发送到查询
终端。 通过上述方法, 有助于解决由于需要手动
检索各企业的技术情况导致的人工工作量大的
问题。
权利要求书3页 说明书12页 附图3页
CN 114780601 A
2022.07.22
CN 114780601 A
1.一种数据查询方法, 其特 征在于, 所述方法包括:
从查询终端发送的待查询内容中提取待查询词汇;
从数据库中筛选所述待查询词汇的至少一个技术词; 所述技术词与 所述待查询词汇的
第一相关度超过第一阈值; 所述 技术词是预先录入的用于描述 技术手段的词汇;
针对预设的每个业务维度, 基于所述数据库中存储的多个第一企业、 每个第一企业在
该业务维度下 的业务数据、 所述业务数据与所述待查询词汇的第二相关度、 所述业务数据
与所述技术词的匹配度, 从所述多个第一企业中确定至少一个第二企业; 所述业务维度包
括经营维度、 技 术维度、 产品维度、 商标维度;
基于所述第一相关度、 所述第二相关度、 所述匹配度以及预先为每个所述业务维度设
置的权重, 计算每 个第二企业与所述待查询内容的第三相关度;
将包含每个目标企业、 所述目标企业的第三相关度的查询结果发送到所述查询 终端;
所述目标企业 为所述第三相关度超过第二阈值的第二企业。
2.根据权利要求1所述的方法, 其特征在于, 针对预设的每个业务维度, 基于所述数据
库中存储的多个第一企业、 每个第一企业在该业务维度下 的业务数据、 所述业务数据与所
述待查询词汇的第二相关度、 所述业务数据与所述技术词的匹配度, 从所述多个第一企业
中确定至少一个第二企业, 包括:
针对每个所述业务维度, 基于所述数据库中存储的每个所述第一企业的业务维度标
签, 从所述数据库中筛选包含该业务维度的第一企业; 每个所述业务维度标签对应一个所
述业务维度;
针对筛选的每个所述第一企业, 从所述数据库中提取属于该业务维度内的业务数据;
所述业务数据所属的业 务维度是 预先标记的;
从所述业务数据中提取与所述待查询词汇的语义相关度超过第三阈值的第一数据;
针对每个所述第一数据, 若所述第一数据与目标技术词的匹配度超过第 四阈值, 则将
所述第一数据确定为第二数据; 所述目标技 术词为所述 技术词中的至少一个;
基于每个第一企业的第二数据, 根据所述第二数据的数据量、 每个所述第二数据的匹
配度、 每个所述第二数据的语义相关度, 从所述多个第一企业中确定 至少一个第二企业。
3.根据权利要求2所述的方法, 其特 征在于, 所述 业务维度的标记方法包括:
基于所述数据库中存储的所述第一企业的企业数据, 针对每个所述第一企业, 通过实
体识别算法从所述企业数据中提取至少一个企业特征; 所述 企业数据包括所述第一 企业在
每个所述业务维度下的业 务数据; 所述企业特 征用于描述所述第一企业的属性;
通过预先训练好的维度标记模型, 确定每个所述企业特征所属的目标业务维度, 并为
所述企业特征标记与该目标业务 维度中每个业务 维度对应的第一标签; 所述目标业务维度
为所述业务维度中的至少一个;
基于为所述第 一企业的每个企业特征标记的第 一标签、 所述第 一标签对应的目标业务
维度, 统计所述第一企业的业 务维度标签。
4.根据权利要求3所述的方法, 其特征在于, 在为所述企业特征标记与 该目标业务维度
中每个业务维度对应的第一标签之前, 所述方法还 包括:
通过实体对齐方法、 属性对齐方法对所述企业特 征进行清洗;
通过语义识别算法识别清洗后的每个企业特征的语义, 并基于所述语义为所述企业特权 利 要 求 书 1/3 页
2
CN 114780601 A
2征标记第二标签; 所述第二标签包括: 技 术标签、 属性标签;
基于所述第二标签和所述企业特 征, 为每个所述第一企业 生成企业画像。
5.根据权利要求1所述的方法, 其特征在于, 从数据库中筛选所述待查询词汇的至少一
个技术词, 包括:
基于所述待查询词汇, 在所述数据库中查找所述待查询词汇的目标图谱;
从所述目标图谱中提取与 所述待查询词汇存在目标关系的至少一个技术词; 所述目标
关系包括: 从属关系 、 应用关系。
6.根据权利要求1所述的方法, 其特征在于, 将所述查询结果发送到所述查询终端之
前, 所述方法还 包括:
从所述查询结果中提取每 个所述目标企业的第三相关度;
基于所述第三相关度的数值, 将所述查询结果中的目标企业进行排序, 以得到包含排
序结果的企业列表;
将所述企业列表存 储到所述 查询结果中。
7.一种数据查询装置, 其特 征在于, 所述装置包括:
第一提取单元, 用于从查询终端发送的待查询内容中提取待查询词汇;
筛选单元, 用于从数据库中筛选所述待查询词汇的至少一个技术词; 所述技术词与所
述待查询词汇的第一相关度超过第一阈值; 所述技术词是预先录入的用于描述技术手段的
词汇;
确定单元, 用于针对预设的每个业务维度, 基于所述数据库中存储的多个第 一企业、 每
个第一企业在该业务维度下 的业务数据、 所述业务数据与所述待查询词汇的第二相关度、
所述业务数据与所述技术词的匹配度, 从所述多个第一企业中确定至少一个第二企业; 所
述业务维度包括经 营维度、 技 术维度、 产品维度、 商标维度;
计算单元, 用于基于所述第 一相关度、 所述第 二相关度、 所述匹配度以及预先为每个所
述业务维度设置的权 重, 计算每 个第二企业与所述待查询内容的第三相关度;
发送单元, 用于将包含每个目标企业、 所述目标企业的第三相关度的查询结果发送到
所述查询终端; 所述目标企业 为所述第三相关度超过第二阈值的第二企业。
8.根据权利要求7 所述的装置, 其特 征在于, 所述确定单 元用于:
针对每个所述业务维度, 基于所述数据库中存储的每个所述第一企业的业务维度标
签, 从所述数据库中筛选包含该业务维度的第一企业; 每个所述业务维度标签对应一个所
述业务维度;
针对筛选的每个所述第一企业, 从所述数据库中提取属于该业务维度内的业务数据;
所述业务数据所属的业 务维度是 预先标记的;
从所述业务数据中提取与所述待查询词汇的语义相关度超过第三阈值的第一数据;
针对每个所述第一数据, 若所述第一数据与目标技术词的匹配度超过第 四阈值, 则将
所述第一数据确定为第二数据; 所述目标技 术词为所述 技术词中的至少一个;
基于每个第一企业的第二数据, 根据所述第二数据的数据量、 每个所述第二数据的匹
配度、 每个所述第二数据的语义相关度, 从所述多个第一企业中确定 至少一个第二企业。
9.一种电子设备, 其特征在于, 包括: 处理器、 存储介质和总线, 所述存储介质存储有所
述处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储介质之间通权 利 要 求 书 2/3 页
3
CN 114780601 A
3
专利 一种数据查询方法、装置、电子设备和存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:11:17上传分享