(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210506858.X
(22)申请日 2022.05.11
(71)申请人 浪潮云信息技 术股份公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S01号楼
(72)发明人 王东伟 张睿智 率为朋 朱亚静
李重阳
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 姜丽洁
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/2455(2019.01)
G06F 16/2458(2019.01)
G06F 16/835(2019.01)
(54)发明名称
一种数据质量检测的方法及装置
(57)摘要
本发明涉及结构化和半结构化数据的质量
检测和控制领域, 一种数据质量检测的方法, 具
有如下步骤: S1、 定义基础规则; S2、 创建业务规
则; S3、 创建检测任务; S4、 执行质量检测; S5、 进
行质量评分及总体波动率分析。 与现有技术相
比, 本发明通过提供脚本引擎, 允许用户以脚本
的方式编写检测规则, 降低了规则创建的难度,
可以更加灵活的满足各种场景需要。
权利要求书2页 说明书6页 附图2页
CN 114968996 A
2022.08.30
CN 114968996 A
1.一种数据质量检测的方法, 其特 征在于, 具有如下步骤:
S1、 定义基础规则;
S2、 创建业 务规则;
S3、 创建检测任务;
S4、 执行质量检测;
S5、 进行质量评分及总体波动率分析。
2.根据权利要求1所述的一种数据质量检测的方法, 其特征在于,在步骤S1中,检测脚
本符合JavaScript语言规范,所述检索脚本的方法签名中至少包括元祖数据和检测列两项
参数,所述检测脚本的返回值 为Boolean类型, 检测通过返回t rue, 检测不 通过返回 false。
3.根据权利要求2所述的一种数据质量检测的方法, 其特征在于, 客户端对用户创建的
检测脚本进行基本正则 校验,判断脚本的文法是否满足所述JavaScript的基本要求, 客户
端校验通过之后, 在服务器端对脚本进 行包括脚本的词法、 语法和语义分析检验, 若校验成
功, 则持久化到数据库中, 否则, 向用户给 出错误原因, 提 示用户修改脚本 。
4.根据权利要求3所述的一种数据质量检测的方法, 其特征在于, 在步骤S2中, 将定义
的基础规则与数据源进行绑定, 创建业务规则, 根据用户所选择的基础规则, 采用 AJAX方
式, 获取到基础规则的问题描述与建议信息, 并回显 到页面中。
5.根据权利要求4所述的一种数据质量检测的方法, 其特征在于, 在步骤S3中, 用户根
据业务需要创建检测任务, 将检测的结果进行 结构化或非结构化 转存;
在结构化转存时, 设置转存的目的数据表, 选择的转存目的数据表包含检测时间列、 检
测版本列、 错误标志列和错误信息描述列, 采用JDBC方式主动连接用户设置的转存目的表,
获取到表的元数据信息, 检测表中是否有上述检测列, 如果没有将提示用户修改转存目的
表;
在非结构化 转存时, 将检测结果数据转存在存 储载体上。
6.根据权利要求5所述的一种数据质量检测的方法, 其特征在于, 在步骤S4中, 调用脚
本引擎执行检测任务, 根据配置的校验规则对目标数据进行校验, 生成问题数据列表和评
分报告, 具体的步骤如下:
S401、 对检测任务进行分布式调度, 通过设置redis键值的方式, 创建分布式任务锁, 对
任务进行分布式调度;
S402、 执行参数解析, 对 任务参数进行解析;
S403、 对检测规则列表进行解析, 获取到对应的JavaScript脚本列表, 创建java的
ScriptEngineManager脚本执行环境, 对用户编写的JavaScript脚本进行解析, 预加载脚
本;
S404、 获取目标检测数据, 根据用户设置的检测范围对SQ L进行解析, 生成抽象语法树;
S405、 根据所述语法树生成数据抽取SQL, 从目标数据源拉取数据, 并将获取到的数据
传入脚本执 行环境中;
S406、 记录一元组中全部规则的校验结果, 对于校验未通过的规则, 系统获取到该规则
对应的问题描述与建议处理方案, 将异常数据元组与获取到的问题描述与建议处理方案一
起记录下来。
S407、 判断任务是否开启问题数据存储选项, 如果开启, 将问题数据及问题描述与建议权 利 要 求 书 1/2 页
2
CN 114968996 A
2保存到elasticSearc h非关系型 数据库中;
判断任务是否开启问题数据转存选项, 如果开启, 同时将问题数据转存至目标数据源,
在数据转储处理中, 继续判断, 是否将正确数据也转存到所述数据源, 如果开启, 将校验正
确的数据也转存到所述数据源中, 否则, 将问题数据及问题描述与建议存储到用户指定的
数据源中。
7.根据权利要求5所述的一种数据质量检测的方法, 其特征在于, 在步骤S5中, 用户对
检测任务中每条规则K配置 评分权重wk, 并根据权 重, 计算质量评分S,评分的计算方式为:
其中S为评分分值, n为所含规则数, 对于规则k的评
分权重为wk、 检测数据总量 为tk、 问题数据量 为ek;
上述公式分别计算各个维度的质量评分, 根据规则的检测字段, 采用上述公式分别计
算各个字段的质量评分。
8.根据权利要求5所述的一种数据质量检测的方法, 其特征在于, 在步骤S5中, 根据用
户配置的校验因子E,比较区间N, 预警偏差K,计算质量总体波动值, 并对大于预警偏差K的
检测结果, 在报告中进行 预警提示, 质量总体波动的计算方法为:
其中k为波动值, N为取最近n 次的评分分
值,Si为第i次检测的评分 分值, E为常值因子 。
9.一种数据质量检测的装置, 其特 征在于, 包括: 至少一个存 储器和至少一个处 理器;
所述至少一个存 储器, 用于存 储机器可读程序;
所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至8中任一所述的
方法。权 利 要 求 书 2/2 页
3
CN 114968996 A
3
专利 一种数据质量检测的方法及装置
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:11:28上传分享