说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210882622.6 (22)申请日 2022.07.26 (65)同一申请的已公布的文献号 申请公布号 CN 114972947 A (43)申请公布日 2022.08.30 (73)专利权人 之江实验室 地址 311100 浙江省杭州市余杭区中泰街 道之江实验室南湖总部 (72)发明人 王芳芳 徐晓刚 李萧缘 王军  曹卫强  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 孙孟辉 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01)G06V 10/764(2022.01) G06V 10/28(2022.01) (56)对比文件 CN 111210518 A,2020.0 5.29 CN 114495103 A,2022.05.13 WO 201919 2397 A1,2019.10.10 CN 113343707 A,2021.09.0 3 CN 113591719 A,2021.1 1.02 CN 112101165 A,2020.12.18 CN 114494698 A,202 2.05.13 CN 110322495 A,2019.10.1 1 CN 114255464 A,202 2.03.29 CN 112950645 A,2021.0 6.11 CN 111931763 A,2020.1 1.13 CN 110738609 A,2020.01.31 CN 114202671 A,202 2.03.18 CN 114565913 A,202 2.05.31 CN 112966691 A,2021.0 6.15 (续) 审查员 李晓 (54)发明名称 一种基于模糊语义建模的深度场景文本检 测方法和装置 (57)摘要 本发明公开了一种基于模糊语义建模的深 度场景文本检测方法和装置, 该方法包括: 步骤 一, 获取现有的用于训练场景文本检测的多组具 有真值标注的图像数据集; 步骤二, 对数据集中 的图像进行特征学习 与全局特征融合, 得到融合 的全局特征图; 步骤三, 对融合的全局特征图进 行像素级别语义分类, 同时通过数值回归预测像 素级别的语义可靠性, 在全监督下进行多分支的 联合优化, 完成端到端联合学习框架的构建; 步 骤四, 使用端到端联合学习框架, 预测图像中的 模糊语义信息, 并利用可靠性分析及融合获得文 本属性图; 步骤五, 对文本属性图进行二值化和 联通域提取, 得到最终的文本检测结果。 本发明实现方法简便, 灵活鲁棒, 适用范围广。 [转续页] 权利要求书2页 说明书9页 附图4页 CN 114972947 B 2022.12.06 CN 114972947 B (56)对比文件 CN 10828 8088 A,2018.07.17 CN 114399497 A,202 2.04.26 CN 112966697 A,2021.0 6.15 US 2022058420 A1,202 2.02.24 US 20210 34700 A1,2021.02.04 US 2022207890 A1,202 2.06.30 WO 2022098203 A1,202 2.05.12 US 2022207861 A1,202 2.06.30 青晨等.深度卷积神经网络图像 语义分割研 究进展. 《中国图象图形 学报》 .2020,(第0 6期), Dan Hu.Semantic Genes and the Formalized Representati on of Lexical Meaning. 《2010 I nternati onal Conference o n Asian Langua ge Proces sing》 .2010, Fangfang Wang 等.Fuz zy Semantics for Arbitrary-shaped Scene Text Detecti on. 《IEEE Transacti ons on Image Proces sing》 .2022, Akshay C havan 等.Proposi ng a Semantic Analysis based Sanskrit Compi ler by mapping Sanskrit "s linguistic features with Compi ler phases. 《2021 Seco nd Internati onal Conference o n Electro nics and Sustai nable Com munication System s (ICESC)》 .2021,2/2 页 2[接上页] CN 114972947 B1.一种基于模糊语义建模的深度场景文本检测方法, 其特 征在于, 包括以下步骤: 步骤一, 获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集; 步骤二, 利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学 习与全局特 征融合, 得到融合的全局特 征图; 步骤三, 对融合的全局特征图进行像素级别语义分类, 同时通过数值回归预测像素级 别的语义可靠性, 在 全监督下进 行多分支的联合优化, 完成端到端联合学习框架的构建, 具 体包括以下子步骤: (3.1) 基于融合的全局特征图, 建立4个结构一致的预测分支, 每个预测分支包含三层 卷积操作, 对所述全局特征图上每个像素位置分别预测其文本语义类别得分 、 实例分界 线语义类别得分 、 文本可靠性 值 以及实例分界线可靠性 值 ; (3.2) 对由所述预测分支生成的文本分割图、 实例分界线分割图、 文本可靠性图以及实 例分界线可靠性图进行 学习优化, 从而建立端到端联合学习框架, 框架总体损失函数为: + +  , 其中 与 为smooth L1损失函数, 与 为归一化焦点损失函数; 步骤四, 使用端到端联合学习框架, 预测图像 中的模糊语义信 息, 并利用可靠性分析及 融合获得文本属性图, 具体为: 基于由步骤一到步骤三建立的端到端联合学习框架, 输入待 预测图像, 通过最小化损失函数学习得到文本分割图T、 文本可靠性图 、 实例分界线分割 图S、 实例分界线可靠性图 , 后进行可靠性分析并融合 为最终的文本属性图M: 其中 为平衡分支区间的加权系数; 步骤五, 对获得的文本属性图进行二值化和联通域提取, 得到最终的文本检测结果, 具 体为: 对步骤四输出的文本属性图进 行轮廓发现, 即二值化和联通域提取, 得到文本区域的 坐标表示: 其中, 为二值化函数, 为联通与提取函数, 其中每一个文本 实例均用点集 表示, 和 分别表示一个文本区域的第m个坐标的横、 纵坐标, N表示坐标 点个数。 2.如权利要求1所述的一种基于模糊语义建模的深度场景文本检测方法, 其特征在于, 所述步骤二具体包括以下子步骤: (2.1) 利用全卷积网络及特 征金字塔网络提取每张图像在不同尺度上的深度特 征; (2.2) 利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合, 得到融 合的全局特 征图。 3.如权利要求1所述的一种基于模糊语义建模的深度场景文本检测方法, 其特征在于, 利用所述文本区域的坐标, 通过文本区域扩张相交及截断距离函数的方式生成文本真值权 利 要 求 书 1/2 页 2 CN 114972947 B 3

.PDF文档 专利 一种基于模糊语义建模的深度场景文本检测方法和装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模糊语义建模的深度场景文本检测方法和装置 第 1 页 专利 一种基于模糊语义建模的深度场景文本检测方法和装置 第 2 页 专利 一种基于模糊语义建模的深度场景文本检测方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:10:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。