说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211164073.5 (22)申请日 2022.09.23 (71)申请人 郑州大学 地址 450001 河南省郑州市高新 技术开发 区科学大道100号 申请人 河南郑大道可信息技 术有限公司 (72)发明人 周兵 秦依 王培森 王俊淇  李凯江 李世华  (74)专利代理 机构 郑州大通专利商标代理有限 公司 41111 专利代理师 周艳巧 (51)Int.Cl. G06F 16/11(2019.01) G06V 30/148(2022.01) G06V 30/414(2022.01)G06V 30/416(2022.01) G06V 10/82(2022.01) G06Q 10/10(2012.01) (54)发明名称 人事档案目录自动化建库方法及系统 (57)摘要 本发明属于档案管 理技术领域, 特别涉及一 种人事档案目录自动化建库方法及系统, 首先, 扫描档案图像, 并依据预设条例规定建立用于区 分档案类别的一级目录; 然后, 读取扫描后的档 案图像, 并提取档案图像中数字分类标号、 档案 图像标题及档案制表时间; 将提取到的数字分类 标号、 档案图像标题及档案制表时间串接成字 符 串; 最后, 通过将数字分类标号与一级目录进行 匹配来构建由字符串组成的当前档案图像存放 路径的二级目录, 并将读取的当前档案图像存放 至该二级目录的路径中。 本发明通过定位并识别 人事档案中带连接符的手写数字分类标号、 档案 标题以及档案制表时间来构建目录名称, 并将相 应的电子档案自动存入对应目录下, 提高档案数 字化加工效率, 便 于档案数字化管理和归档。 权利要求书2页 说明书6页 附图4页 CN 115543915 A 2022.12.30 CN 115543915 A 1.一种人事档案目录自动化建库方法, 其特 征在于, 包 含如下内容: 扫描档案图像, 并依据预设条例规定建立用于区分档案类别的一级目录; 读取扫描后的档案 图像, 并提取档案 图像中数字分类标号、 档案 图像标题及档案制表 时间, 其中, 数字分类标号 为标记在档案类别首页上且带有连接符的手写数字标号; 将提取到的数字分类标号、 档案 图像标题及档案制表时间串接成字符串; 通过将数字 分类标号与一级目录进行匹配来构建由字符串组成的当前档案图像存放路径的二级目录, 并将读取的当前档案图像存放至该二级目录的路径中。 2.根据权利要求1所述的人事档案目录自动化建库方法, 其特征在于, 提取档 案图像中 数字分类标号中, 首先, 获取档案图像中数字 分类标号区域, 并对图像进 行去噪处理; 然后, 利用投影法获取数字分类标号区域的位置坐标, 并通过图像裁剪获取待处理档案图像数 据; 接着, 利用已训练的Y OLOX模型对待处理档案图像数据进 行分割识别来 获取当前档案图 像的数字分类标号。 3.根据权利 要求1或2所述的人事档案目录自动化建库方法, 其特征在于, YOLOX模型训 练中, 利用图片标注工具标注带有连接符的手写数字标号作为训练数据集, 利用该训练数 据集来训练Y OLOX模型参数, 其中, 手写 数字标号由 “0”至“9”中的任一 或多个数字及连接字 符组成。 4.根据权利要求1或2所述的人事档案目录自动化建库方法, 其特征在于, 提取档案 图 像中的数字分类标号时, 若读取 的当前档案图像中未提取到数字分类标号, 则判定当前档 案图像不是档案类别首页; 针对非首页的档案图像, 则按扫描档案图像扫描顺序, 将非首页 的档案图像放置 至与前一页扫描顺序一 致的档案图像存放路径中。 5.根据权利要求1所述的人事档案目录自动化建库方法, 其特征在于, 提取档 案图像标 题时, 首先, 利用已训练的特征提取模型提取档案图像标题边界框的坐标数据; 然后, 利用 坐标数据定位并通过图像裁剪获取档案图像标题; 接着, 采用CRNN文字识别算法对裁剪得 到的档案图像标题进行文字识别, 得到档案图像标题文本序列。 6.根据权利要求5所述的人事档案目录自动化建库方法, 其特征在于, 特征提取模型采 用ResNet50_vd作为主干网络, 并利用DB算法进行网络训练, 并在训练过程中, 通过上采样 和卷积操作将网络中特征金字塔特征层进 行融合, 通过级联方式产生用于预测概率图和阈 值图的特征图; 并利用概率图和阈值图生成近似二进制映射图, 由近似二进制映射图来获 取输入图像标题边界框 。 7.根据权利要求5所述的人事档案目录自动化建库方法, 其特征在于, 采用CRNN文字识 别算法进 行文字识别中, 在卷积层利用深度CNN对输入图像进 行特征提取来 获取特征序列; 在循环层利用双向RNN对 特征序列进 行预测, 对 特征序列中的每个特征向量进 行学习, 并输 出预测标签分布; 在转录层利用CTC损失将循环层获取的预测标签分布转换成文本序列。 8.根据权利要求1所述的人事档案目录自动化建库方法, 其特征在于, 提取档 案制表时 间时, 首先, 依据一级目录中档案类别来判定当前档案图像制表 时间所在页; 然后, 在当前 档案图像制表 时间所在页, 利用已训练的推理模型对当前档案图像进行光学字符识别, 获 取当前档案图像制表时间所在页的文本信息; 接着, 将识别获取的文本信息串接成字 符串, 依据预设时间规则并利用正则表达式来匹配制表时间。 9.根据权利要求8所述的人事档案目录自动化建库方法, 其特征在于, 利用已训练的推权 利 要 求 书 1/2 页 2 CN 115543915 A 2理模型进行光学字符识别中, 首先, 将输入的档案图像划分为多个区块; 然后, 通过对多个 区块的文字区域分别进行检测来获取文字位置信息和文字类型; 接着, 筛选出待识别文字 区域, 并基于待识别文字区域中的文字类型利用文字识别模型来识别出该待识别文字区域 中的文本信息 。 10.一种人事档案目录自动 化建库系统, 其特征在于, 包含: 图像扫描模块、 数据提取模 块及档案存放模块, 其中, 图像扫描模块, 用于扫描档案 图像, 并依据预设条例规定建立用于区分档案类别的一 级目录; 数据提取模块, 用于读取扫描后的档案图像, 并提取档案图像中数字分类标号、 档案图 像标题及档案制表时间, 其中, 数字分类标号为标记在档案类别首页上且带有连接符的手 写数字标号; 档案存放模块, 用于将提取到的数字分类标号、 档案 图像标题及档案制表时间串接成 字符串; 通过将数字分类标号与一级目录进 行匹配来构建由字符串组成的当前档案图像存 放路径的二级目录, 并将 读取的当前档案图像存放至该二级目录的路径中。权 利 要 求 书 2/2 页 3 CN 115543915 A 3

PDF文档 专利 人事档案目录自动化建库方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 人事档案目录自动化建库方法及系统 第 1 页 专利 人事档案目录自动化建库方法及系统 第 2 页 专利 人事档案目录自动化建库方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:29:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。