专利 一种跨类型迁移的算子化多源大数据处理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210443573.6 (22)申请日 2022.04.26 (71)申请人中国电子科技集团公司第十五研究所地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人李常宝　康健　曹龙启　贾贺　薛铮　 (74)专利代理机构北京理工大学专利中心 11120 专利代理师高燕燕 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/2455(2019.01) G06F 16/33(2019.01) (54)发明名称一种跨类型迁移的算子化多源大数据处理方法 (57)摘要本发明提出一种跨类型迁移的算子化多源大数据处理方法，能够解决传统数据迁移等数据集成操作繁琐的问题，实现无编程化跨数据源类型的数据操作。包括：步骤一、根据不同类型数据源的数据集成方法创建数据操作算子，配置所述数据操作算子中的数据源，并根据所述数据源的结构对输入数据和输出数据的元数据结构信息进行配置，得到数据操作流程文件；步骤二、根据所述数据操作流程文件及其数据操作算子配置信息，使用spark读取数据源中的数据，作为源数据；根据源数据对读取到的数据集进行类型转换；步骤三、根据所述数据操作流程文件中绘制的数据处理操作流程，按流程使用各个数据操作算子进行数据处理，并将数据集写入到目的数据源中。权利要求书2页说明书3页 CN 115221143 A 2022.10.21 CN 115221143 A 1.一种跨类型迁移的算子化多源大数据处理方法，其特征在于，包括：步骤一、根据不同类型数据源的数据集成方法创建数据操作算子，配置所述数据操作算子中的数据源，并根据所述数据源的结构对输入数据和输出数据的元数据结构信息进行配置，得到数据操作流程文件；步骤二、根据所述数据操作流程文件及其数据操作算子配置信息，使用spark读取数据源中的数据，作为源数据；根据源数据对读取到的数据集进行类型转换，最终得到待操作的数据流，并通过算子定义的输出端口进行传输；步骤三、根据所述数据操作流程文件中绘制的数据处理操作流程，按流程使用各个数据操作算子进行数据处理，所述算子间的数据传递通过各算子定义的端口进行适配，最终将处理后的算子数据转换为满足目的数据源字段结构的数据集，并将数据集写入到目的数据源中。 2.如权利要求1所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述输入数据是指从选择的数据源中读取到的数据，所述输出数据是指将要保存在目的数据源中的数据或待进行处理操作的数据；所述数据操作算子之间通过端口进行适配联系。 3.如权利要求2所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述端口用于标识算子中流转数据的应用类型，包括数据集dataset、图形数据graph、文本数据text、结构化数据jso n。 4.如权利要求1或2或3所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述使用spark读取数据源中的数据包括JDBC驱动、数据库授权信息、数据库名、表名、数据范围、元数据信息。 5.如权利要求1或2或3所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述使用各个数据操作算子进行数据处理具体包括以下步骤：步骤1、根据数据操作流程文件的数据源类型与数据字段类型对所述数据操作算子进行配置，确定所选择数据的元数据结构；步骤2、连接所述数据操作算子处理和完善数据内容，确定所述数据操作算子执行顺序及数据流向，生成数据导入导出流程对应的DAG图及其对应的Json数据，提交执行流程请求；步骤3、流程执行服务模块接收所述执行流程请求，获取所述DAG图数据，并解析出流程中选择的算子、算子配置参数、算子执行顺序，根据解析结果按顺序执行各数据算子，在算子中按照数据源的结构类型和记录的元数据进行类型处理，读取或写入数据集，最终完成数据处理流程。 6.如权利要求5所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述数据操作算子包括算子配置 html文件以及执行代码实体导出的Jar包。 7.如权利要求6所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，对所述数据源类型的数据库读写操作进行算子封装，包括关系型数据库MySQL、以及非关系型数据库Mn ogoDB、 elasticsearc h、 HBase，以及HDFS和本地的各种类型文档的读写操作封装。 8.如权利要求5或6或7所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，采用连接使用数据检索统计算子与柱状图、折线图图形化算子完善数据内容。 9.如权利要求5或6或7所述的一种跨类型迁移的算子化多源大数据处理方法，其特征权　利　要　求　书 1/2 页 2 CN 115221143 A 2在于，在所述读取或写入数据集时，采用分批导入策略，即从源数据源读取数据时分批次拉取数据集，再导入到目标数据源中。 10.如权利要求5或6或7所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述在算子中按照数据源的结构类型和记录的元数据进行类型处理，具体为：当处理MySQL结构化数据库时，通过设置数据偏移量和单次读取数据数目拼接sql语句，利用JDBC执行该s ql语句获取数据集，然后采用同样的方式拼接insert语句进行数据集的插入。 11.如权利要求10所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述设置数据偏移量，采用基于指针的方式进行数据定位，通过where子句确定本次待读取数据的起始位置，使得读取数据时不需要考虑目标范围之外的数据记录。 12.如权利要求5或6或7所述的一种跨类型迁移的算子化多源大数据处理方法，其特征在于，所述在算子中按照数据源的结构类型和记录的元数据进行类型处理，具体为：当跨存储类型进行导入导出操作协同处理时，利用dataset将源数据集转化为结构型数据集，再导入到目标数据源中；在对算子进行配置时，根据选择的数据源结构读取数据的元数据信息metadata，并在界面中对met adata进行类型配置，将其转化为常见的数据类型；并按照目标数据的字段要求和目的数据源字段类型，对metadata进行最终的配置；在算子执行时， dataset的数据类型根据配置的metadata的改变而进行转换，通过 dataset提供的方法wit hColumn()与withColumnRenamed()进行数据类型的转换或者数据字段的重命名，最终达成异构数据源协同处理的目标。权　利　要　求　书 2/2 页 3 CN 115221143 A 3

专利 一种跨类型迁移的算子化多源大数据处理方法

专利一种跨类型迁移的算子化多源大数据处理方法