(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210443573.6
(22)申请日 2022.04.26
(71)申请人 中国电子科技 集团公司第十五研究
所
地址 100083 北京市海淀区北四环中路21 1
号
(72)发明人 李常宝 康健 曹龙启 贾贺
薛铮
(74)专利代理 机构 北京理工大 学专利中心
11120
专利代理师 高燕燕
(51)Int.Cl.
G06F 16/21(2019.01)
G06F 16/2455(2019.01)
G06F 16/33(2019.01)
(54)发明名称
一种跨类型迁移的算子化多源大数据处理
方法
(57)摘要
本发明提出一种跨类型迁移的算子化多源
大数据处理方法, 能够解决传统数据迁移等数据
集成操作繁琐的问题, 实现无编程化跨数据源类
型的数据 操作。 包括: 步骤一、 根据不同类型数据
源的数据集成方法创建数据操作算子, 配置所述
数据操作算子中的数据源, 并根据所述数据源的
结构对输入数据和输出数据的元数据结构信息
进行配置, 得到数据操作流程文件; 步骤二、 根据
所述数据操作流程文件及其数据操作算子配置
信息, 使用spark读取数据源中的数据, 作为源数
据; 根据源数据对读取到的数据集进行类型转
换; 步骤三、 根据所述数据操作流程文件中绘制
的数据处理操作流程, 按流程使用各个数据操作
算子进行数据处理, 并将数据集写入到目的数据
源中。
权利要求书2页 说明书3页
CN 115221143 A
2022.10.21
CN 115221143 A
1.一种跨类型迁移的算子化多源大 数据处理方法, 其特 征在于, 包括:
步骤一、 根据不同类型数据源的数据集成方法创建数据操作算子, 配置所述数据操作
算子中的数据源, 并根据所述数据源的结构对输入数据和输出数据的元数据结构信息进 行
配置, 得到数据操作流 程文件;
步骤二、 根据所述数据操作 流程文件及其数据操作算子配置信息, 使用spark读取数据
源中的数据, 作为源 数据; 根据源数据对读取到的数据集进 行类型转换, 最 终得到待操作的
数据流, 并通过算子 定义的输出端口进行传输;
步骤三、 根据所述数据操作流程文件中绘制的数据处理操作流程, 按流程使用各个数
据操作算子进行数据 处理, 所述算子间的数据传递通过各算子定义的端口进行适配, 最终
将处理后的算子数据转换为满足目的数据源字段结构的数据集, 并将数据集写入到目的数
据源中。
2.如权利要求1所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征在于, 所
述输入数据是指从选择的数据源中读取到的数据, 所述输出数据是指将要保存在目的数据
源中的数据或待 进行处理操作的数据; 所述数据操作算子之间通过端口进行适配联系。
3.如权利要求2所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征在于, 所
述端口用于标识算子中流转数据的应用类型, 包括数据集dataset、 图形数据graph、 文本数
据text、 结构化数据jso n。
4.如权利要求1或2或3所述的一种跨类型迁移 的算子化多源大数据处理方法, 其特征
在于, 所述使用spark读取数据源中的数据包括JDBC驱动、 数据库授权信息、 数据库名、 表
名、 数据范围、 元 数据信息 。
5.如权利要求1或2或3所述的一种跨类型迁移 的算子化多源大数据处理方法, 其特征
在于, 所述使用各个数据操作算子进行 数据处理具体包括以下步骤:
步骤1、 根据数据操作流程文件的数据源类型与数据字段类型对所述数据操作算子进
行配置, 确定所选择 数据的元 数据结构;
步骤2、 连接所述数据操作算子处理和完善数据内容, 确定所述数据操作算子执行顺序
及数据流向, 生成数据导入导出流程对应的DAG图及其对应的Json数据, 提交执行流程请
求;
步骤3、 流程执行服务模块接收所述执行流程请求, 获取所述DAG图数据, 并解析出流程
中选择的算子、 算子配置参数、 算子执行顺序, 根据解析结果按顺序执行各数据算子, 在算
子中按照数据源的结构类型和记录的元数据进行类型处理, 读取或写入数据集, 最终完成
数据处理流程。
6.如权利要求5所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征在于, 所
述数据操作算子包括 算子配置 html文件以及执 行代码实体导出的Jar包。
7.如权利要求6所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征在于, 对
所述数据源类型的数据库读写操作进行算子封装, 包括关系型数据库MySQL、 以及非关系型
数据库Mn ogoDB、 elasticsearc h、 HBase, 以及HDFS和本地的各种类型文档的读写操作封装。
8.如权利要求5或6或7所述的一种跨类型迁移 的算子化多源大数据处理方法, 其特征
在于, 采用连接使用数据检索统计算子与柱状图、 折线图 图形化算子完善数据内容。
9.如权利要求5或6或7所述的一种跨类型迁移 的算子化多源大数据处理方法, 其特征权 利 要 求 书 1/2 页
2
CN 115221143 A
2在于, 在所述读取或写入数据集时, 采用分批导入 策略, 即从源数据源读取数据时分批次拉
取数据集, 再导入到目标 数据源中。
10.如权利要求5或6或7所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征
在于, 所述在算子中按照数据源的结构类型和记录的元 数据进行类型处 理, 具体为:
当处理MySQL结构化数据库时, 通过设置数据偏移量和单次读取数据数目拼接sql语
句, 利用JDBC执行该s ql语句获取数据集, 然后采用同样的方式拼接insert语句进行数据集
的插入。
11.如权利要求10所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征在于,
所述设置数据偏移 量, 采用基于指 针的方式进行数据定位, 通过where子句确定本次待读取
数据的起始位置, 使得读取 数据时不需要考虑目标 范围之外的数据记录 。
12.如权利要求5或6或7所述的一种跨类型迁移的算子化多源大数据处理方法, 其特征
在于, 所述在算子中按照数据源的结构类型和记录的元 数据进行类型处 理, 具体为:
当跨存储类型进行导入导出操作协同处理时, 利用dataset将源数据集转化为结构型
数据集, 再导入到目标 数据源中;
在对算子进行配置时, 根据选择的数据源结构读取数据的元数据信息metadata, 并在
界面中对met adata进行类型配置, 将其转化为常见的数据类型; 并按照目标数据的字段要
求和目的数据源字段类型, 对metadata进行最终的配置;
在算子执行时, dataset的数据类型根据配置的metadata的改变而进行转换, 通过
dataset提供的方法wit hColumn()与withColumnRenamed()进行数据类型的转换或者数据
字段的重命名, 最终达成异构数据源协同处 理的目标。权 利 要 求 书 2/2 页
3
CN 115221143 A
3
专利 一种跨类型迁移的算子化多源大数据处理方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:12:22上传分享