说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210413041.8 (22)申请日 2022.04.19 (71)申请人 四川大学 地址 610000 四川省成 都市一环路南 一段 24号 (72)发明人 左劼 张骏杰 陈子豪 郭正山  张袁昊 黄梦林  (74)专利代理 机构 成都正煜知识产权代理事务 所(普通合伙) 51312 专利代理师 袁宇霞 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/248(2019.01)G06F 16/25(2019.01) G16C 60/00(2019.01) (54)发明名称 一种材料基因工程数据转换及检索方法 (57)摘要 本发明涉及材料基因工程数据存储 领域, 提 供了一种材料基因工程数据转换及检索方法。 本 发明的目的在于解决现有材料基因工程数据库 存在不能精确检索数据结果的技术问题。 主要 方 案包括根据 json文件新 建一张主表, 读取json文 件的templete部分, 并解析为一棵树得到 templete树, 将templete部分信息写入主表, 遍 历templete树的子节点, 对数组型和表 格型子节 点新建子表, 子表记录_pid_为父表的id, 并将子 节点信息写入子表; 对i son数据中的data部分数 据, 依次处理每条记录数据, 将记录数据中的每 条数据写入主表和子表的对应的字段, 给予每条 数据唯一标识符_id_以及主表子表之间的关联 表示_pid_; 使用SQL语言查询, 通过每张数据表 中的_id_和_pid_字段对将主表、 子表进行关联, 实现跨模板的数据检索。 权利要求书2页 说明书10页 附图3页 CN 114741393 A 2022.07.12 CN 114741393 A 1.一种材料基因工程数据转换及检索方法, 材料基因工程数据的具体存储结构使用 json格式文件存储, 一个json文件内的内容包含templete和data两个部分, 其中templete 部分描述了数据的结构, data部分 的数据包含若干条记录数据, 描述了当前templete格式 下的若干组实例, 每组实例分为meta和content两个部分, meta用于描述当前实例的特征, content使用templete规定的格式描述了meta所描述的真实数据值, 其特征在于, 包括以下 步骤: 步骤1: 获取json文件, 根据json文件新建一 张主表, 读取json文件的templete部分, 并 解析为一棵树得到templete树, 将templete部分信息写入主表, 完成主表字段的添加, 遍历 templete树的子节点, 对数组型和表格型子节点新建子表, 子表记录_pid_为父表的id, 并 将子节点信息写入子表, 完成子表字段的添加; 步骤2: 对json数据中的data部分数据, 依次处理每条记录数据, 将记录数据中的每条 数据写入主表和子表的对应的字段, 给子每条数据唯一标识符_id_以及主表子表之间的关 联表示_pid_; 步骤3、 使用SQL语言查询, 通过每张数据表中的_id_和_pid_字段对将主表、 子表进行 关联, 或通过不同的表中字段的连接查询, 实现跨模板的数据检索。 2.根据权利要求1所述的一种材料基因工程数据转换及检索方法, 其特征在于, 步骤1 具体包括如下步骤: 输入为json文件的temp late部分, template部分解析为一棵树形结构, 到temp lete树, 处理从templete树的根节点 开始, 处理过程如下: 步骤1.1: 对于当前json文件建立一张主表, 并给予表唯一标识符, 主表名为json文件 名, 设置主表为当前表, template树的根节点 为当前节点; 步骤1.2: 当前节点信息加入当前表, 即根据节点信息向当前表添加字段; 步骤1.3: 以遍历 当前节点的子节点, 如果子节点是数组型或表格型执行步骤1.4, 否则 执行步骤1.6; 步骤1.4: 以当前表作为父表, 新建立子表, 给予子表唯一标识符, 并记录_pid_为父表 的id, 并将当前节 点信息加入新建的子表, 即根据当前节点信息向字表添加子表字段, 同时 设置新建的子表为当前表; 步骤1.5: 递归执 行步骤1.3, 直至当前节点 为叶子节点; 步骤1.6: 记录当前子节点信息, 即根据当前子节点信息向当前表添加字段, 然后递归 执行步骤1.3, 直到当前节点 为叶节点。 3.根据权利要求1所述的一种材料基因工程数据转换及检索方法, 其特征在于, 步骤2 具体包括如下步骤: 对json文件中的data部分, 依次处理其中的每条数据, 每条数据均为符合模板格式的 树形文档, 从文档树的根节点 开始处理: 步骤2.1: 给予数据唯一标识符, 即给_id_设置值, 每次处理一条data中的数据时, 从对 应的template的主表 开始采用data中数据的字段信息与主表的字段进 行匹配处理, 设定主 表为当前表, 数据根节点 为当前节点; 步骤2.2: 处理当前节点, 若当前节点的字段信息在当前表中, 按模板表的顺序按顺序 存储并记录当前 数据唯一标识符;权 利 要 求 书 1/2 页 2 CN 114741393 A 2步骤2.3: 若当前节点的字段信息不在当前表中, 则当前字段为重复类型, 设置字段信 息所在的子表为当前表, 如当前数据唯一标识符_id_为xxxx, 则遍历当前节点下的每一条 数据, 将每一条数据添加到在当前表中, 即给予其唯一标识符_id_为xxxx_ yyyy, 设置字段_ pid_为xxxx, 表示子表 中数据和父表数据的关联, 从data中的数据中复制字段的值到当前 表对应的字段并存 储; 步骤2.4: 重复递归步骤2 2直至数据全部存 储完成; 步骤2.5: 处理完所有数据记录后, 将每 张表以parquet格式存储, 以设定表的唯一标识 符命名, 至此, 一个jso n文件的数据就 转换为了若干张相关联的二维的数据表。 4.根据权利要求1所述的一种材料基因工程数据转换及检索方法, 其特征在于, 步骤3 具体包括如下步骤: 使用SQL语言查询, 查询处 理步骤为: 步骤3.1: 接收到SQ L查询请求后, 解析SQ L语句, 提取 出对数据表的访问。 步骤3.2: 通过数据表名, 找到对应的p arquet文件, 并在SparkSQL中加载, 生成相应的 DataFrame。 步骤3.3: 在SparkSQ L中执行该查询, 得到查询结果, 以二维表的形式输出。 其中使用SQL语句时, 可以通过每张数据表中的_id_和_pid_字段对将主表、 子表进行 关联。 也可以通过不同的表中字段的连接查询, 实现跨模板的数据检索。权 利 要 求 书 2/2 页 3 CN 114741393 A 3

.PDF文档 专利 一种材料基因工程数据转换及检索方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种材料基因工程数据转换及检索方法 第 1 页 专利 一种材料基因工程数据转换及检索方法 第 2 页 专利 一种材料基因工程数据转换及检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:11:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。