专利 一种面向文档扫描PDF文件的并行识别处理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210513081.X (22)申请日 2022.05.12 (71)申请人吉林省吉林祥云信息技术有限公司地址 130000 吉林省长春市净月开发区吉视传媒信息枢纽中心B座20层 (72)发明人赵阳　张巍元　张俊鹏　裴昀　林禹全　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 专利代理师姜明君 (51)Int.Cl. G06V 10/96(2022.01) G06V 10/94(2022.01) G06V 30/412(2022.01) G06V 10/82(2022.01)G06F 9/54(2006.01) G06F 9/50(2006.01) (54)发明名称一种面向文档扫描PDF文件的并行识别处理方法 (57)摘要本发明属于图像处理领域，公开了一种面向文档扫描PDF文件的并行识别处理方法。步骤1：通过扫描仪连续扫描纸质文档图像，保存图像采集结果为PDF文件；步骤2：将步骤1的PDF文件分页处理为页面图像集合，为每一幅页面图像添加页码标签；步骤3：将步骤2的页面图像集合划分为多个图像的分组数据；步骤4：基于步骤3的图像分组数据通过消息队列进行发送；步骤5：多块 GPU从队列中接收步骤4的图像分组数据，进行 OCR识别；步骤6：基于步骤5的识别结果根据标签进行重组，将识别内容保存为可编辑文件。本发明用以解决现有关于PDF文件的研究主要集中在对PDF的解析，对于包含较多页数PDF文件的处理效率问题。权利要求书2页说明书4页附图1页 CN 115063667 A 2022.09.16 CN 115063667 A 1.一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述并行识别处理方法具体包括以下步骤：步骤1：通过扫描仪连续扫描纸质文档图像，保存图像采集结果为PDF文件；步骤2：将步骤1的PDF文件分页处理为页面图像集合，为每一幅页面图像添加页码标签；步骤3：将步骤2的页面图像集合划分为多个图像的分组数据；步骤4：基于步骤3的图像分组数据通过消息队列进行发送；步骤5：多块GPU从队列中接收步骤4的图像分组数据，进行OCR识别；步骤6：基于步骤5的识别结果根据标签进行重组，将识别内容保存为可编辑文件。 2.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤2的PDF文件分页处理为页面图像集合具体为，通过java语言编程中的 ApachePDFBox开源工具或通过pytho n语言编程中的PyMuP DF库实现；所述步骤2的页码标签是其在原始PDF文件中的页码。 3.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤3的多个图像的分组数据具体为，按照标签顺序对页面图像集合进行分组，每组有 32幅。 4.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤4 发送数据具体为，图像组的数据分发过程基于消息队列协议，即发送图像组数据到队列中，被GPU捕获与处理；多个GPU通过抢占的方式接收队列中的图像组；如果处理过程中出现异常情况：将处理数据放回队列，供其他GPU处理，并记录重试次数，重试次数超过限定次数时，将数据组存储到存档异常数据的数据库中。 5.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤5首先对图像进行预处理，再进行OCR识别；所述进行OCR识别具体包括以下步骤：步骤5.1：对页面构成元素进行检测分类；步骤5.2：通过页面构成元素进行OCR识别；所述对页面构成元素进行检测分类具体为，通过目标检测神经网络模型实现，如YOLO 模型，通过预训练完成的目标检测模型检测图像，分类定位出图像中的文本区域、图像区域和表格区域。 6.根据权利要求5所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤5.2具体为，对文本区域的识别方式是通过OCR工具识别文字内容；对表格区域的识别：通过OCR工具识别表格单元格内的文字以及对应的位置信息，通过单元格文字的位置信息归类属于同一行、同一列的单元格，以还原表格的结构信息；对于图像区域不做识别处理，保留切片区域图像。 7.根据权利要求1所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，所述步骤6根据识别结果进行标签重组具体为，根据对应的标签，按顺序重组页面图像识别结果，根据页面图像的标签，按顺序组合每个页面图像的识别结果为可编辑文件，将识别结果保存为可编辑文件。 8.根据权利要求7所述一种面向文档扫描PDF文件的并行识别处理方法，其特征在于，权　利　要　求　书 1/2 页 2 CN 115063667 A 2所述将识别内容保存为可编辑文件具体为，通过Java语言编程的ApachePOI开源工具或 Python语言编程的Docx库将识别结果保存为可编辑的W ord文件。 9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1 ‑8任一所述的方法步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1 ‑8任一所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 115063667 A 3

专利 一种面向文档扫描PDF文件的并行识别处理方法

专利一种面向文档扫描PDF文件的并行识别处理方法