专利 一种材料基因工程数据转换及检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210413041.8 (22)申请日 2022.04.19 (71)申请人四川大学地址 610000 四川省成都市一环路南一段 24号 (72)发明人左劼　张骏杰　陈子豪　郭正山　张袁昊　黄梦林　 (74)专利代理机构成都正煜知识产权代理事务所(普通合伙) 51312 专利代理师袁宇霞 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/248(2019.01)G06F 16/25(2019.01) G16C 60/00(2019.01) (54)发明名称一种材料基因工程数据转换及检索方法 (57)摘要本发明涉及材料基因工程数据存储领域，提供了一种材料基因工程数据转换及检索方法。本发明的目的在于解决现有材料基因工程数据库存在不能精确检索数据结果的技术问题。主要方案包括根据 json文件新建一张主表，读取json文件的templete部分，并解析为一棵树得到 templete树，将templete部分信息写入主表，遍历templete树的子节点，对数组型和表格型子节点新建子表，子表记录_pid_为父表的id，并将子节点信息写入子表；对i son数据中的data部分数据，依次处理每条记录数据，将记录数据中的每条数据写入主表和子表的对应的字段，给予每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_；使用SQL语言查询，通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联，实现跨模板的数据检索。权利要求书2页说明书10页附图3页 CN 114741393 A 2022.07.12 CN 114741393 A 1.一种材料基因工程数据转换及检索方法，材料基因工程数据的具体存储结构使用 json格式文件存储，一个json文件内的内容包含templete和data两个部分，其中templete 部分描述了数据的结构， data部分的数据包含若干条记录数据，描述了当前templete格式下的若干组实例，每组实例分为meta和content两个部分， meta用于描述当前实例的特征， content使用templete规定的格式描述了meta所描述的真实数据值，其特征在于，包括以下步骤：步骤1：获取json文件，根据json文件新建一张主表，读取json文件的templete部分，并解析为一棵树得到templete树，将templete部分信息写入主表，完成主表字段的添加，遍历 templete树的子节点，对数组型和表格型子节点新建子表，子表记录_pid_为父表的id，并将子节点信息写入子表，完成子表字段的添加；步骤2：对json数据中的data部分数据，依次处理每条记录数据，将记录数据中的每条数据写入主表和子表的对应的字段，给子每条数据唯一标识符_id_以及主表子表之间的关联表示_pid_；步骤3、使用SQL语言查询，通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联，或通过不同的表中字段的连接查询，实现跨模板的数据检索。 2.根据权利要求1所述的一种材料基因工程数据转换及检索方法，其特征在于，步骤1 具体包括如下步骤：输入为json文件的temp late部分， template部分解析为一棵树形结构，到temp lete树，处理从templete树的根节点开始，处理过程如下：步骤1.1：对于当前json文件建立一张主表，并给予表唯一标识符，主表名为json文件名，设置主表为当前表， template树的根节点为当前节点；步骤1.2：当前节点信息加入当前表，即根据节点信息向当前表添加字段；步骤1.3：以遍历当前节点的子节点，如果子节点是数组型或表格型执行步骤1.4，否则执行步骤1.6；步骤1.4：以当前表作为父表，新建立子表，给予子表唯一标识符，并记录_pid_为父表的id，并将当前节点信息加入新建的子表，即根据当前节点信息向字表添加子表字段，同时设置新建的子表为当前表；步骤1.5：递归执行步骤1.3，直至当前节点为叶子节点；步骤1.6：记录当前子节点信息，即根据当前子节点信息向当前表添加字段，然后递归执行步骤1.3，直到当前节点为叶节点。 3.根据权利要求1所述的一种材料基因工程数据转换及检索方法，其特征在于，步骤2 具体包括如下步骤：对json文件中的data部分，依次处理其中的每条数据，每条数据均为符合模板格式的树形文档，从文档树的根节点开始处理：步骤2.1：给予数据唯一标识符，即给_id_设置值，每次处理一条data中的数据时，从对应的template的主表开始采用data中数据的字段信息与主表的字段进行匹配处理，设定主表为当前表，数据根节点为当前节点；步骤2.2：处理当前节点，若当前节点的字段信息在当前表中，按模板表的顺序按顺序存储并记录当前数据唯一标识符；权　利　要　求　书 1/2 页 2 CN 114741393 A 2步骤2.3：若当前节点的字段信息不在当前表中，则当前字段为重复类型，设置字段信息所在的子表为当前表，如当前数据唯一标识符_id_为xxxx，则遍历当前节点下的每一条数据，将每一条数据添加到在当前表中，即给予其唯一标识符_id_为xxxx_ yyyy，设置字段_ pid_为xxxx，表示子表中数据和父表数据的关联，从data中的数据中复制字段的值到当前表对应的字段并存储；步骤2.4：重复递归步骤2 2直至数据全部存储完成；步骤2.5：处理完所有数据记录后，将每张表以parquet格式存储，以设定表的唯一标识符命名，至此，一个jso n文件的数据就转换为了若干张相关联的二维的数据表。 4.根据权利要求1所述的一种材料基因工程数据转换及检索方法，其特征在于，步骤3 具体包括如下步骤：使用SQL语言查询，查询处理步骤为：步骤3.1：接收到SQ L查询请求后，解析SQ L语句，提取出对数据表的访问。步骤3.2：通过数据表名，找到对应的p arquet文件，并在SparkSQL中加载，生成相应的 DataFrame。步骤3.3：在SparkSQ L中执行该查询，得到查询结果，以二维表的形式输出。其中使用SQL语句时，可以通过每张数据表中的_id_和_pid_字段对将主表、子表进行关联。也可以通过不同的表中字段的连接查询，实现跨模板的数据检索。权　利　要　求　书 2/2 页 3 CN 114741393 A 3

专利 一种材料基因工程数据转换及检索方法

专利一种材料基因工程数据转换及检索方法