说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210506858.X (22)申请日 2022.05.11 (71)申请人 浪潮云信息技 术股份公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人 王东伟 张睿智 率为朋 朱亚静  李重阳  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 姜丽洁 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/835(2019.01) (54)发明名称 一种数据质量检测的方法及装置 (57)摘要 本发明涉及结构化和半结构化数据的质量 检测和控制领域, 一种数据质量检测的方法, 具 有如下步骤: S1、 定义基础规则; S2、 创建业务规 则; S3、 创建检测任务; S4、 执行质量检测; S5、 进 行质量评分及总体波动率分析。 与现有技术相 比, 本发明通过提供脚本引擎, 允许用户以脚本 的方式编写检测规则, 降低了规则创建的难度, 可以更加灵活的满足各种场景需要。 权利要求书2页 说明书6页 附图2页 CN 114968996 A 2022.08.30 CN 114968996 A 1.一种数据质量检测的方法, 其特 征在于, 具有如下步骤: S1、 定义基础规则; S2、 创建业 务规则; S3、 创建检测任务; S4、 执行质量检测; S5、 进行质量评分及总体波动率分析。 2.根据权利要求1所述的一种数据质量检测的方法, 其特征在于,在步骤S1中,检测脚 本符合JavaScript语言规范,所述检索脚本的方法签名中至少包括元祖数据和检测列两项 参数,所述检测脚本的返回值 为Boolean类型, 检测通过返回t rue, 检测不 通过返回 false。 3.根据权利要求2所述的一种数据质量检测的方法, 其特征在于, 客户端对用户创建的 检测脚本进行基本正则 校验,判断脚本的文法是否满足所述JavaScript的基本要求, 客户 端校验通过之后, 在服务器端对脚本进 行包括脚本的词法、 语法和语义分析检验, 若校验成 功, 则持久化到数据库中, 否则, 向用户给 出错误原因, 提 示用户修改脚本 。 4.根据权利要求3所述的一种数据质量检测的方法, 其特征在于, 在步骤S2中, 将定义 的基础规则与数据源进行绑定, 创建业务规则, 根据用户所选择的基础规则, 采用 AJAX方 式, 获取到基础规则的问题描述与建议信息, 并回显 到页面中。 5.根据权利要求4所述的一种数据质量检测的方法, 其特征在于, 在步骤S3中, 用户根 据业务需要创建检测任务, 将检测的结果进行 结构化或非结构化 转存; 在结构化转存时, 设置转存的目的数据表, 选择的转存目的数据表包含检测时间列、 检 测版本列、 错误标志列和错误信息描述列, 采用JDBC方式主动连接用户设置的转存目的表, 获取到表的元数据信息, 检测表中是否有上述检测列, 如果没有将提示用户修改转存目的 表; 在非结构化 转存时, 将检测结果数据转存在存 储载体上。 6.根据权利要求5所述的一种数据质量检测的方法, 其特征在于, 在步骤S4中, 调用脚 本引擎执行检测任务, 根据配置的校验规则对目标数据进行校验, 生成问题数据列表和评 分报告, 具体的步骤如下: S401、 对检测任务进行分布式调度, 通过设置redis键值的方式, 创建分布式任务锁, 对 任务进行分布式调度; S402、 执行参数解析, 对 任务参数进行解析; S403、 对检测规则列表进行解析, 获取到对应的JavaScript脚本列表, 创建java的 ScriptEngineManager脚本执行环境, 对用户编写的JavaScript脚本进行解析, 预加载脚 本; S404、 获取目标检测数据, 根据用户设置的检测范围对SQ L进行解析, 生成抽象语法树; S405、 根据所述语法树生成数据抽取SQL, 从目标数据源拉取数据, 并将获取到的数据 传入脚本执 行环境中; S406、 记录一元组中全部规则的校验结果, 对于校验未通过的规则, 系统获取到该规则 对应的问题描述与建议处理方案, 将异常数据元组与获取到的问题描述与建议处理方案一 起记录下来。 S407、 判断任务是否开启问题数据存储选项, 如果开启, 将问题数据及问题描述与建议权 利 要 求 书 1/2 页 2 CN 114968996 A 2保存到elasticSearc h非关系型 数据库中; 判断任务是否开启问题数据转存选项, 如果开启, 同时将问题数据转存至目标数据源, 在数据转储处理中, 继续判断, 是否将正确数据也转存到所述数据源, 如果开启, 将校验正 确的数据也转存到所述数据源中, 否则, 将问题数据及问题描述与建议存储到用户指定的 数据源中。 7.根据权利要求5所述的一种数据质量检测的方法, 其特征在于, 在步骤S5中, 用户对 检测任务中每条规则K配置 评分权重wk, 并根据权 重, 计算质量评分S,评分的计算方式为: 其中S为评分分值, n为所含规则数, 对于规则k的评 分权重为wk、 检测数据总量 为tk、 问题数据量 为ek; 上述公式分别计算各个维度的质量评分, 根据规则的检测字段, 采用上述公式分别计 算各个字段的质量评分。 8.根据权利要求5所述的一种数据质量检测的方法, 其特征在于, 在步骤S5中, 根据用 户配置的校验因子E,比较区间N, 预警偏差K,计算质量总体波动值, 并对大于预警偏差K的 检测结果, 在报告中进行 预警提示, 质量总体波动的计算方法为: 其中k为波动值, N为取最近n 次的评分分 值,Si为第i次检测的评分 分值, E为常值因子 。 9.一种数据质量检测的装置, 其特 征在于, 包括: 至少一个存 储器和至少一个处 理器; 所述至少一个存 储器, 用于存 储机器可读程序; 所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至8中任一所述的 方法。权 利 要 求 书 2/2 页 3 CN 114968996 A 3

.PDF文档 专利 一种数据质量检测的方法及装置

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据质量检测的方法及装置 第 1 页 专利 一种数据质量检测的方法及装置 第 2 页 专利 一种数据质量检测的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:11:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。