说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211278804.9 (22)申请日 2022.10.19 (71)申请人 浪潮卓数 大数据产业发展 有限公司 地址 214125 江苏省无锡市无锡经济开发 区金融一街15号1101、 1102、 1103、 1104、 1105、 1106、 1107、 1108 (72)发明人 邢荣 单震 谢传家 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 阚恭勇 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 16/9535(2019.01) G06F 16/9538(2019.01) (54)发明名称 一种股权结构信息自动采集方法 (57)摘要 本发明提供一种股权结构信息自动采集方 法, 属于大数据应用与分析领域, 本发明基于网 络爬虫技术及关键字提取技术, 对互联网上公开 的对外投资及股东信息进行下钻采集, 可以批量 获取企业的多级股权结构, 建立企业股权信息类 库, 便于查询监控企业结构变化、 资金流向与辐 射范围。 采集任务一经创建可反复调用, 可通过 修改入口(企业名称列表)调整 监控企业集合, 实 时动态获取最新股权变更信息。 高效易用, 降低 数据搜集的成本, 并为数据分析等后续工作提供 便利。 权利要求书1页 说明书3页 附图1页 CN 115481308 A 2022.12.16 CN 115481308 A 1.一种股权结构信息自动采集方法, 其特 征在于, 基于网络爬虫技术与文本提取技术搭建一个集发送访 问请求、 捕获网站响应、 提取关 键字段于一体的, 并提供有可视化操作界面的系统平台; 根据所配置的采集任务, 每次启动采集时创建一个新的采集实例, 并监控实例的运行, 运行结束后对采集结果数据进行降噪处理, 再经用户加工操作形成目标数据集, 以用于数 据分析。 2.根据权利要求1所述的方法, 其特 征在于, 数据源网站支持企业检索功能, 包含对外投资和或股东信息数据, 且对外投资数据中 包含字段被投资企业名称。 3.根据权利要求2所述的方法, 其特 征在于, 所述的采集任务, 即每次启动前, 用户按需更新下钻企业名单和下钻层级, 可以自行设 定启动时间与频次。 4.根据权利要求3所述的方法, 其特 征在于, 采集规则配置 完成后, 任务可反复启动实现对网站数据的动态获取。 5.根据权利要求 4所述的方法, 其特 征在于, 所述的采集 规则, 包含任务基本规则、 URL 解析规则、 内容抽取规则。 6.根据权利要求5所述的方法, 其特 征在于, 任务基本规则, 对采集任务整体参数进行调控, 包括下钻深度、 采集间隔(秒)、 访问重 试次数、 是否执 行JS、 是否加载图片、 是否登录 。 7.根据权利要求6所述的方法, 其特 征在于, URL解析规则, 控制启动 后URL的生成。 8.根据权利要求7 所述的方法, 其特 征在于, 内容抽取规则, 控制目标字段的抽取。 9.根据权利要求8所述的方法, 其特 征在于, 具体步骤如下: 1)站点录入, 通过搜索引擎查找互联网上的企业信息查询平台做为数据源, 将其检索 页面的网址链接做为站点入口URL, 并提供站点描述性信息的输入项; 维护该站点的数据 项, 即输入 对外投资; 2)建立采集任务, 基于1)中的站点, 创建采集任务, 提供描述性信息的输入项, 并于任 务提交后自动生成任务 id; 提供企业名称输入列表; 3)配置采集 规则, 即任务基本规则、 URL 解析规则、 内容抽取规则; 4)采集与监控, 通过设置启动时间实现任务定时启动或不设时间手动启动, 每次启动 后系统自动生成采集实例id; 提供可以监控采集实例的爬取参数 的图形界面, 以及实例采 集状态; 5)数据处 理, 采集实例已完成后, 将采集结果清洗降噪, 去重、 剔除脏数据; 6)结果呈现, 展示全部所采集企业的对外投资和股东信息, 提供结果数据集内的定向 检索与关联查询, 并可以将查询结果对应的后台数据全部或部分导出。权 利 要 求 书 1/1 页 2 CN 115481308 A 2一种股权 结构信息自动采集方 法 技术领域 [0001]本发明涉及大数据应用与分析领域、 数据挖掘及采集领域, 尤其涉及一种股权结 构信息自动采集方法。 背景技术 [0002]股权结构是公司治理结构的基础, 公司治理结构则是股权结构的具体运行形式。 它决定了股东结构、 股权集中程度以及大股东身份、 导致股东行使权力的方式和效果有较 大的区别, 进而对公司治理模式的形成、 运作及绩效有较大影响, 即股权结构与公司治理中 的内部监督机制直接发生作用; 同时, 股权结构一方面在很大程度上受公司外部治理机制 的影响, 反过来, 股权结构也对外 部治理机制产生间接作用。 [0003]不同的股权结构 决定了不 同的企业组织结构, 从而决定了不同的企业治理结构, 最终决定了企业的行为和绩效。 企业具有什么样的股权结构对企业的类型、 发展以及组织 结构的形成都具有重大 的意义, 因此人们 更加关注在股权结构各个组成部分的变动趋势。 当社会环境和科学技术 发生变化时, 企业股权结构也相应地 发生变化。 由此, 股权结构是一 个动态的可塑结构。 股权结构的动态变化会导致企业组织结构、 经营走向的管理方式的变 化, 所以, 企业实际上 是一个动态的、 具有弹性的柔 性经营组织。 [0004]利用数据采集技术可以有效地实现对不同企业股权结构信息变化的监控。 由于目 前各大网站的内容不断扩展、 数据总量不断增大, 对于海量数据的挖掘和运用, 预示着新一 波生产率增长和消费者盈余浪潮的到来。 而随着信息公开与企业数字化发展, 大量有价值 的数据都可以通过对互联网数据的采集 来获取。 [0005]网络爬虫是一种按照一定 的规则, 自动地抓取互联网信息 的程序或者脚本, 被广 泛用于互联网搜索引擎或其他类似信息平台, 可以自动采集所有其能够访问到的页面内 容, 以获取或更新这些网站的内容和检索方式。 通过网络爬虫可以很方便的获取指定网页 的数据, 可以通过爬虫爬取网站公开的数据, 并根据数据进行建模、 分析, 生成有利于自己 的数据报告。 发明内容 [0006]为了解决以上技术问题, 本发明提供了一种股权结构信息自动采集方法。 基于网 络爬虫技术及关键字提取技术, 对互联网上公开的企业信息平台的对外投资数据进行下钻 采集, 通过用户输入的一个或一批企业名称, 在指定企业平台检索得到其股东信息和对外 投资信息(含被投资企业名称), 用得到的被投资企业继续采集其对外投资信息, 不断重复 此过程若干次。 从而 可以批量 获取企业的多层级股权结构, 建立 企业股权信息类库, 便于查 询监控企业结构变化、 资金流向与辐射范围。 [0007]本发明的技 术方案是: [0008]基于网络爬虫技术与文本提取技术搭建一个集发送访问请求、 捕获网站响应、 提 取关键字段于一体的, 并提供有 可视化操作界面的系统平台。 根据所配置的采集任务, 每次说 明 书 1/3 页 3 CN 115481308 A 3
专利 一种股权结构信息自动采集方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 00:12:12
上传分享
举报
下载
原文档
(336.5 KB)
分享
友情链接
T-CCMI 10—2020 热锻冷锻联合成形驻车棘 轮技术条件.pdf
GB-T 33009.4-2016工业自动化和控制系统网络安全集散控制系统(DCS)第4部分风险与脆弱性检测要求.pdf
GB-T 26933-2011 钢制通用集装箱封闭槽型顶板.pdf
TTAF 150—2023 移动互联网应用人工智能模型安全指南.pdf
DB43-T 2424-2022 水土保持监测技术规程 湖南省.pdf
GB-T 42926-2023 金融信息系统网络安全风险评估规范.pdf
GB-T 42668-2023 钐铁氮粘结永磁粉.pdf
DB43-T 1956-2020 十字花科蔬菜黑斑病综合防治技术规程 湖南省.pdf
MZ-T 120-2018 自立式辅助起床架.pdf
GB-T 28449-2018 信息安全技术 网络安全等级保护测评过程指南.pdf
民航 CTSO-C145e 使用星基增强系统 SBAS 增强全球定位系统的机载导航传感器.pdf
GB-T 17901.3-2021 信息技术 安全技术 密钥管理 第3部分:采用非对称技术的机制.pdf
tc260 大数据安全标准化白皮书 2017版.pdf
ISO 11515 2022 Gas cylinders — Refillable composite reinforced tubes of water capacity between 450 l and 3000 l — Design, construction and testing.pdf
GB-T 37033.2-2018 信息安全技术 射频识别系统密码应用技术要求 第2部分:电子标签与读写器及其通信密码应用技术要求.pdf
GB-T 37472-2019 潜水器母船升沉补偿系统通用要求.pdf
GB-T 34690.4-2017 印刷技术 胶印数字化过程控制 第4部分:输出文件制作.pdf
QX-T 210-2013 城市景观照明设施防雷技术规范.pdf
DB43-T 1315-2023 森林城市评价指标 湖南省.pdf
GB-T 39254-2020 增材制造 金属制件机械性能评价通则.pdf
1
/
3
6
评价文档
赞助2.5元 点击下载(336.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。