说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211278804.9 (22)申请日 2022.10.19 (71)申请人 浪潮卓数 大数据产业发展 有限公司 地址 214125 江苏省无锡市无锡经济开发 区金融一街15号1101、 1102、 1103、 1104、 1105、 1106、 1107、 1108 (72)发明人 邢荣 单震 谢传家  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 阚恭勇 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 16/9535(2019.01) G06F 16/9538(2019.01) (54)发明名称 一种股权结构信息自动采集方法 (57)摘要 本发明提供一种股权结构信息自动采集方 法, 属于大数据应用与分析领域, 本发明基于网 络爬虫技术及关键字提取技术, 对互联网上公开 的对外投资及股东信息进行下钻采集, 可以批量 获取企业的多级股权结构, 建立企业股权信息类 库, 便于查询监控企业结构变化、 资金流向与辐 射范围。 采集任务一经创建可反复调用, 可通过 修改入口(企业名称列表)调整 监控企业集合, 实 时动态获取最新股权变更信息。 高效易用, 降低 数据搜集的成本, 并为数据分析等后续工作提供 便利。 权利要求书1页 说明书3页 附图1页 CN 115481308 A 2022.12.16 CN 115481308 A 1.一种股权结构信息自动采集方法, 其特 征在于, 基于网络爬虫技术与文本提取技术搭建一个集发送访 问请求、 捕获网站响应、 提取关 键字段于一体的, 并提供有可视化操作界面的系统平台; 根据所配置的采集任务, 每次启动采集时创建一个新的采集实例, 并监控实例的运行, 运行结束后对采集结果数据进行降噪处理, 再经用户加工操作形成目标数据集, 以用于数 据分析。 2.根据权利要求1所述的方法, 其特 征在于, 数据源网站支持企业检索功能, 包含对外投资和或股东信息数据, 且对外投资数据中 包含字段被投资企业名称。 3.根据权利要求2所述的方法, 其特 征在于, 所述的采集任务, 即每次启动前, 用户按需更新下钻企业名单和下钻层级, 可以自行设 定启动时间与频次。 4.根据权利要求3所述的方法, 其特 征在于, 采集规则配置 完成后, 任务可反复启动实现对网站数据的动态获取。 5.根据权利要求 4所述的方法, 其特 征在于, 所述的采集 规则, 包含任务基本规则、 URL 解析规则、 内容抽取规则。 6.根据权利要求5所述的方法, 其特 征在于, 任务基本规则, 对采集任务整体参数进行调控, 包括下钻深度、 采集间隔(秒)、 访问重 试次数、 是否执 行JS、 是否加载图片、 是否登录 。 7.根据权利要求6所述的方法, 其特 征在于, URL解析规则, 控制启动 后URL的生成。 8.根据权利要求7 所述的方法, 其特 征在于, 内容抽取规则, 控制目标字段的抽取。 9.根据权利要求8所述的方法, 其特 征在于, 具体步骤如下: 1)站点录入, 通过搜索引擎查找互联网上的企业信息查询平台做为数据源, 将其检索 页面的网址链接做为站点入口URL, 并提供站点描述性信息的输入项; 维护该站点的数据 项, 即输入 对外投资; 2)建立采集任务, 基于1)中的站点, 创建采集任务, 提供描述性信息的输入项, 并于任 务提交后自动生成任务 id; 提供企业名称输入列表; 3)配置采集 规则, 即任务基本规则、 URL 解析规则、 内容抽取规则; 4)采集与监控, 通过设置启动时间实现任务定时启动或不设时间手动启动, 每次启动 后系统自动生成采集实例id; 提供可以监控采集实例的爬取参数 的图形界面, 以及实例采 集状态; 5)数据处 理, 采集实例已完成后, 将采集结果清洗降噪, 去重、 剔除脏数据; 6)结果呈现, 展示全部所采集企业的对外投资和股东信息, 提供结果数据集内的定向 检索与关联查询, 并可以将查询结果对应的后台数据全部或部分导出。权 利 要 求 书 1/1 页 2 CN 115481308 A 2一种股权 结构信息自动采集方 法 技术领域 [0001]本发明涉及大数据应用与分析领域、 数据挖掘及采集领域, 尤其涉及一种股权结 构信息自动采集方法。 背景技术 [0002]股权结构是公司治理结构的基础, 公司治理结构则是股权结构的具体运行形式。 它决定了股东结构、 股权集中程度以及大股东身份、 导致股东行使权力的方式和效果有较 大的区别, 进而对公司治理模式的形成、 运作及绩效有较大影响, 即股权结构与公司治理中 的内部监督机制直接发生作用; 同时, 股权结构一方面在很大程度上受公司外部治理机制 的影响, 反过来, 股权结构也对外 部治理机制产生间接作用。 [0003]不同的股权结构 决定了不 同的企业组织结构, 从而决定了不同的企业治理结构, 最终决定了企业的行为和绩效。 企业具有什么样的股权结构对企业的类型、 发展以及组织 结构的形成都具有重大 的意义, 因此人们 更加关注在股权结构各个组成部分的变动趋势。 当社会环境和科学技术 发生变化时, 企业股权结构也相应地 发生变化。 由此, 股权结构是一 个动态的可塑结构。 股权结构的动态变化会导致企业组织结构、 经营走向的管理方式的变 化, 所以, 企业实际上 是一个动态的、 具有弹性的柔 性经营组织。 [0004]利用数据采集技术可以有效地实现对不同企业股权结构信息变化的监控。 由于目 前各大网站的内容不断扩展、 数据总量不断增大, 对于海量数据的挖掘和运用, 预示着新一 波生产率增长和消费者盈余浪潮的到来。 而随着信息公开与企业数字化发展, 大量有价值 的数据都可以通过对互联网数据的采集 来获取。 [0005]网络爬虫是一种按照一定 的规则, 自动地抓取互联网信息 的程序或者脚本, 被广 泛用于互联网搜索引擎或其他类似信息平台, 可以自动采集所有其能够访问到的页面内 容, 以获取或更新这些网站的内容和检索方式。 通过网络爬虫可以很方便的获取指定网页 的数据, 可以通过爬虫爬取网站公开的数据, 并根据数据进行建模、 分析, 生成有利于自己 的数据报告。 发明内容 [0006]为了解决以上技术问题, 本发明提供了一种股权结构信息自动采集方法。 基于网 络爬虫技术及关键字提取技术, 对互联网上公开的企业信息平台的对外投资数据进行下钻 采集, 通过用户输入的一个或一批企业名称, 在指定企业平台检索得到其股东信息和对外 投资信息(含被投资企业名称), 用得到的被投资企业继续采集其对外投资信息, 不断重复 此过程若干次。 从而 可以批量 获取企业的多层级股权结构, 建立 企业股权信息类库, 便于查 询监控企业结构变化、 资金流向与辐射范围。 [0007]本发明的技 术方案是: [0008]基于网络爬虫技术与文本提取技术搭建一个集发送访问请求、 捕获网站响应、 提 取关键字段于一体的, 并提供有 可视化操作界面的系统平台。 根据所配置的采集任务, 每次说 明 书 1/3 页 3 CN 115481308 A 3

.PDF文档 专利 一种股权结构信息自动采集方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种股权结构信息自动采集方法 第 1 页 专利 一种股权结构信息自动采集方法 第 2 页 专利 一种股权结构信息自动采集方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:12:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。