说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210589134.6 (22)申请日 2022.05.27 (71)申请人 奇安信科技 集团股份有限公司 地址 100088 北京市西城区新 街口外大街 28号102号楼3层3 32号 申请人 奇安信网神信息技 术 (北京) 股份有 限公司 (72)发明人 白敏 唐路路 汪列军 杨筱  牟晴  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 韩丽波 (51)Int.Cl. G06Q 10/06(2012.01) G06F 16/215(2019.01)G06F 16/2455(2019.01) (54)发明名称 一种数据源质量的评估方法、 装置和设备 (57)摘要 本申请公开了一种数据源质量的评估 方法、 装置和设备, 通过综合考虑 多个数据源的统计信 息和置信系数, 计算各个数据源的多个维度的评 估分数后, 得到能够综合反映各数据源的数据质 量的评价结果, 同时提供一种冲突消解处理算法 以提供高可信数据结果。 相比目前对 数据源的评 估考量的指标单一, 且评价某个数据源的质量不 考虑其他数据源仅以该数据源的数据作为评价 依据, 导致评估 结果较为片面且参考价值较低甚 至给工作人员以误导的问题, 有效的提高了数据 源的评估结果的准确性, 给工作人员对数据源中 数据的分析和研究工作提供可靠的依据, 从而提 高安全威胁 检测的效率和准确率。 权利要求书3页 说明书17页 附图2页 CN 114862257 A 2022.08.05 CN 114862257 A 1.一种数据源质量的评估方法, 其特 征在于, 包括: 获取各数据源的统计信息和置信系数; 根据所述各数据源的统计信 息和置信系数, 计算所述各数据源中每个数据源的分数集 合, 分数集合包括下述分数中的至少两个: 贡献度分数、 匹配度分数、 适用性分数、 丰富性分 数、 差异性分数和及时性分数, 所述各数据源中每个数据源的分数集合所包括的分数 的个 数和涉及的性能指标均相同; 针对所述各数据源中每个数据源, 基于该数据源的分数集合计算该数据源的评价结 果, 每个数据源的评价结果用于表征 该数据源的数据质量。 2.根据权利要求1所述的方法, 其特征在于, 所述各数据源包括第 一数据源和第 二数据 源, 所述获取 各数据源的统计信息和置信系数, 包括: 获取所述第 一数据源的第 一统计信 息和第一置信系数, 获取所述第 二数据源的第 二统 计信息和第二置信系数; 所述根据 所述各数据源的统计信 息和置信系数, 计算所述各数据源中每个数据源的分 数集合, 包括: 根据所述第一统计信 息、 所述第 一置信系数、 所述第 二统计信 息和所述第 二置信系数, 计算所述第一数据源的第一分数集合, 以及计算所述第二数据源的第二分数集合, 所述第 一分数集合包括下述分数中的至少两个: 第一贡献度分数、 第一匹配度分数、 第一适用性分 数、 第一丰富性分数、 第一差异性分数和第一及时性分数, 所述第二分数集合包括下述分数 中的至少两个: 第二贡献度分数、 第二匹配度分数、 第二适用性分数、 第二丰富性分数、 第二 差异性分数和 第二及时性分数; 所述第一分数集合所包括的分数的个数和涉及的性能指标 均与所述第二分数集 合相同; 所述针对所述各数据源中每个数据源, 基于该数据源的分数集合计算该数据源的评价 结果, 包括: 基于所述第 一分数集合计算所述第 一数据源的第 一评价结果, 基于所述第 二分数集合 计算所述第二数据源的第二评价结果, 所述第一评价结果用于表征所述第一数据源的数据 质量, 所述第二评价结果用于 评价所述第二数据源的数据质量。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 根据所述第一评价结果和所述第二评价结果确定所述第一数据源的数据质量高; 以所述第一数据源的数据为基础, 对所述第 一数据源中的数据和所述第 二数据源中的 数据进行聚合, 获得综合数据, 所述综合数据用于网络安全分析。 4.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 基于所述第一数据源确定威胁指标IOC的威胁等级。 5.根据权利要求3所述的方法, 其特征在于, 所述以所述第一数据源的数据为基础, 对 所述第一数据源中的数据和所述第二数据源中的数据进行聚合, 获得综合数据, 包括: 以所述第一数据源的数据为基础, 对所述第 一数据源和所述第 二数据源中进行数据整 合、 补充和冲突消解, 获得 所述综合数据。 6.根据权利要求2 ‑5任一项所述的方法, 其特征在于, 所述第一数据源和所述第 二数据 源为通过白名单验证的数据源。 7.根据权利要求2 ‑5任一项所述的方法, 其特征在于, 所述第一数据源中有数据更新,权 利 要 求 书 1/3 页 2 CN 114862257 A 2则, 所述方法还 包括: 获取更新后的第一数据源的第三统计信息和第三置信系数; 根据所述第二统计信 息、 所述第 二置信系数、 所述第 三统计信 息和所述第 三置信系数, 计算所述第一数据源的第三分数集合, 以及计算所述第二数据源的第四分数集合, 所述第 三分数集合包括下述分数中的至少两个: 第三贡献度分数、 第三匹配度分数、 第三适用性分 数、 第三丰富性分数、 第三差异性分数和第三及时性分数, 所述第四分数集合包括下述分数 中的至少两个: 第四贡献度分数、 第四匹配度分数、 第四适用性分数、 第四丰富性分数、 第四 差异性分数和 第四及时性分数; 所述第三分数集合所包括的分数的个数和涉及的性能指标 均与所述第四分数集 合相同; 基于所述第 三分数集合计算所述第 一数据源的第 三评价结果, 基于所述第四分数集合 计算所述第二数据源的第四评价结果, 所述第三评价结果用于表征所述更新后的第一数据 源的数据质量, 所述第四评价结果用于 评价所述第二数据源的数据质量。 8.根据权利要求2 ‑5任一项所述的方法, 其特 征在于, 所述基于所述第一分数集 合计算所述第一数据源的第一评价结果, 包括: 计算所述第一分数集 合中各分数的平均值, 记作所述第一评价结果; 所述基于所述第二分数集 合计算所述第二数据源的第二评价结果, 包括: 计算所述第二分数集 合中各分数的平均值, 记作所述第二评价结果。 9.根据权利要求1所述的方法, 其特征在于, 所述各数据源包括第一数据源、 第二数据 源和第三数据源, 所述获取 各数据源的统计信息和置信系数, 包括: 获取所述第 一数据源的第 一统计信 息和第一置信系数, 获取所述第 二数据源的第 二统 计信息和第二置信系数, 获取 所述第三数据源的第四统计信息和第四置信系数; 所述根据 所述各数据源的统计信 息和置信系数, 计算所述各数据源中每个数据源的分 数集合, 包括: 根据所述第一统计信息、 所述第一置信系数、 所述第二统计信息、 所述第二置信系数、 所述第四统计信息和所述第四置信系 数, 计算所述第一数据源的第一分数集合, 计算所述 第二数据源的第二分数集合, 以及计算所述第三数据源的第 五分数集合, 所述第一分数集 合包括下述分数中的至少两个: 第一贡献度分数、 第一匹配度分数、 第一适用性分数、 第一 丰富性分数、 第一差异性分数和第一及时性分数, 所述第二分数集合包括下述分数中的至 少两个: 第二贡献度分数、 第二匹配度分数、 第二适用性分数、 第二丰富性分数、 第二差异 性 分数和第二及时性分数, 所述第五分数集合包括下述分数中的至少两个: 第五贡献度分数、 第五匹配度分数、 第五适用性分数、 第五丰富性分数、 第五差异性分数和第 五及时性分数, 所述第一分数集合、 所述第二分数集合和所述第五分数集合所包括的分数的个数和涉及的 性能指标均相同; 所述针对所述各数据源中每个数据源, 基于该数据源的分数集合计算该数据源的评价 结果, 包括: 基于所述第 一分数集合计算所述第 一数据源的第 一评价结果, 基于所述第 二分数集合 计算所述第二数据源的第二评价结果, 基于所述第五分数集合计算所述第三数据源的第五 评价结果, 所述第一评价结果用于表征所述第一数据源的数据质量, 所述第二评价结果用 于评价所述第二数据源的数据质量, 所述第五评价结果用于表征所述第三数据源的数据质权 利 要 求 书 2/3 页 3 CN 114862257 A 3

.PDF文档 专利 一种数据源质量的评估方法、装置和设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据源质量的评估方法、装置和设备 第 1 页 专利 一种数据源质量的评估方法、装置和设备 第 2 页 专利 一种数据源质量的评估方法、装置和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:11:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。