(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210509681.9
(22)申请日 2022.05.11
(71)申请人 武汉镝次元 数据科技有限公司
地址 430000 湖北省武汉市东湖新 技术开
发区武大园路5-2号国家地球空间信
息产业基地二期北主楼二单元2楼
204-213号
(72)发明人 徐微 王琼 姚力
(74)专利代理 机构 武汉智嘉联合知识产权代理
事务所(普通 合伙) 42231
专利代理师 张璐
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/26(2019.01)
G06F 16/2455(2019.01)G06F 16/28(2019.01)
G06F 16/17(2019.01)
G06F 16/174(2019.01)
G06F 16/951(2019.01)
G06F 40/47(2020.01)
(54)发明名称
一种数据 产品制作管理与发布系统
(57)摘要
本发明提供了一种数据产品制作管理与发
布系统, 包括: 数据抓取子系统、 数据处理子系
统、 数据录入子系统以及数据展示子系统; 数据
抓取子系统用于对网站进行数据爬取, 获得爬取
数据, 并将爬取数据存储至目标数据库中; 数据
处理子系统用于从目标数据库中获得爬取数据,
并对爬取数据进行处理, 获得待录入数据; 数据
录入子系统用于获取待录入数据的属性信息, 并
基于属性信息和待录入数据生 成目标数据产品;
数据展示子系统用于将目标数据产品进行展示。
本发明可实现从在网站上进行数据爬取到根据
爬取数据生成目标数据产品的完整过程, 可供用
户直观、 清晰的获取想要的数据信息 。
权利要求书2页 说明书8页 附图2页
CN 114896233 A
2022.08.12
CN 114896233 A
1.一种数据产品制作管理与发布系统, 其特征在于, 包括: 数据抓取子系统、 数据处理
子系统、 数据录入子系统以及数据展示子系统;
所述数据抓取子系统用于对网站进行数据爬取, 获得爬取数据, 并将所述爬取数据存
储至目标 数据库中;
所述数据处理子系统用于从所述目标数据库中获得所述爬取数据, 并对所述爬取数据
进行处理, 获得待录入数据;
所述数据录入子系统用于获取所述待录入数据的属性信 息, 并基于所述属性信 息和所
述待录入数据生成目标 数据产品;
所述数据展示子系统用于将所述目标 数据产品进行展示。
2.根据权利要求1所述的数据产品制作管理与发布系统, 其特征在于, 所述目标数据产
品包括可视数据、 表格数据、 数据报告、 数据包以及数据图说, 所述可视数据和所述表格数
据的格式为电子表格格式, 所述数据报告的格式为便携式文件格式, 所述数据包的格式为
压缩文件格式, 所述数据图说的格式为可移植网络图形格式。
3.根据权利要求1所述的数据产品制作管理与发布系统, 其特征在于, 所述数据抓取子
系统包括爬虫 管理模块、 运行 管理模块、 监控管理模块以及数据库管理模块;
所述爬虫管理模块用于配置爬虫文件, 并基于所述爬虫文件对网站进行数据爬取, 获
得所述爬取 数据;
所述运行管理模块用于配置定时文件和/或终止文件, 并基于所述定时文件实现定时
对网站进行 数据爬取, 基于所述终止文件停止对网站进行 数据爬取;
所述监控管理模块用于对所述爬虫文件的数据爬取 过程进行监控, 生成监控文件;
所述数据库 管理模块用于配置存储规则, 并基于所述存储规则将所述爬取数据存储至
目标数据库中。
4.根据权利要求1所述的数据产品制作管理与发布系统, 其特征在于, 所述数据处理子
系统包括数据源管理模块、 任务调度管理模块以及数据清洗模块;
所述数据源管理模块用于从所述目标数据库中确定待取数据库, 并从所述待取数据库
中获取所述爬取 数据;
所述任务调度管理模块用于确定数据处理任务, 所述数据处理任务包括数据处理时
间;
所述数据清洗模块用于基于所述数据处理时间对所述爬取数据进行数据清洗, 获得所
述待录入数据。
5.根据权利要求2所述的数据产品制作管理与发布系统, 其特征在于, 所述数据录入子
系统包括数据录入 模块和数据审核模块;
所述数据录入模块用于获取所述待录入数据的属性信 息, 并将与所述属性信 息和所述
待录入数据生成待审核数据 产品;
所述数据审核模块用于对所述待审核数据产品进行审核, 若所述待审核数据产品通过
审核, 则所述待审核数据 产品为所述目标 数据产品。
6.根据权利要求5所述的数据产品制作管理与发布系统, 其特征在于, 所述数据录入子
系统还包括图表匹配模块;
所述图表匹配模块用于为所述可视数据匹配目标图表形式;权 利 要 求 书 1/2 页
2
CN 114896233 A
2所述数据展示子系统用于将所述可视数据按照所述目标图表形式进行展示。
7.根据权利要求5所述的数据产品制作管理与发布系统, 其特征在于, 所述数据录入子
系统还包括搜索模块; 所述搜索模块用于获取搜索关键词, 根据所述搜索关键词从所述待
录入数据中获取待选 录入数据, 并根据所述待选 录入数据生成所述数据包。
8.根据权利要求2所述的数据产品制作管理与发布系统, 其特征在于, 所述待录入数据
为第一语言种类, 所述数据产品制作管理与发布系统还包括数据录入智能协作子系统, 所
述数据录入智能协作子系统包括翻译功能模块、 判重功能模块、 纠错功能模块、 分类功能模
块以及关键词生成功能模块;
所述翻译功能模块用于将所述待录入数据转换为第二语言种类;
所述判重功能模块用于对所述待录入数据进行重复性判断, 并将重复的所述待录入数
据删除;
所述纠错功能模块用于确定所述待录入数据是否出错, 当所述待录入数据出错时, 生
成出错提醒信息;
所述分类功能模块用于对所述待录入数据进行分类;
所述关键词生成功能模块用于确定所述待录入数据的至少一个关键词。
9.根据权利要求8所述的数据产品制作管理与发布系统, 其特征在于, 所述待录入数据
包括多个数据格式为便携式文件格式的便携式文件数据, 所述便携式文件 数据包括第一便
携式文件子数据和 第二便携式文件子数据, 所述判重功能模块包括用于对 所述便携式文件
数据进行判重的第一判重单元, 所述第一判重单元包括转换子单元、 哈希处理子单元以及
第一判重 子单元;
所述转换子单元用于分别从所述第一便携式文件子数据和所述第二便携式文件子数
据中提取第一待判断子数据和第二待判断子数据;
所述哈希处理子单元用于分别对所述第一待判断子数据和所述第二待判断子数据进
行哈希处 理, 获得第一哈希字符串和第二哈希字符串;
所述第一判重子单元用于根据所述第一哈希字符串和第二哈希字符串对所述第一便
携式文件子数据和所述第二便携式文件子数据进 行重复性判断, 当所述第一便携式文件子
数据和所述第二便携式文件子数据重复时, 删除所述第一便携式文件子数据或所述第二便
携式文件子数据。
10.根据权利要求8所述的数据产品制作管理与发布系统, 其特征在于, 所述待录入数
据还包括多个数据格式为电子表格格式的电子表格文件数据, 所述电子表格文件数据包括
第一电子表格文件子数据和第二电子表格文件子数据, 所述判重功能模块包括用于对所述
电子表格文件数据进 行判重的第二判重单元, 所述第二判重单元包括数据处理子单元以及
第二判重 子单元;
所述数据处理子单元用于分别提取所述第一电子表格文件子数据和所述第二电子表
格文件子数据的第一数据信息和第二数据信息;
所述第二判重子单元用于根据所述第一数据信息和所述第二数据信息对所述第一电
子表格文件子数据和所述第二电子表格文件子数据进 行重复性判断, 当所述第一电子表格
文件子数据和所述第二电子表格文件子数据重复时, 删除所述第一电子表格文件子数据或
所述第二电子表格文件子数据。权 利 要 求 书 2/2 页
3
CN 114896233 A
3
专利 一种数据产品制作管理与发布系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:10:56上传分享