(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210183469.8
(22)申请日 2022.02.25
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 向宇波 王佳阳 何烩烩 沈俊宇
苏崔聪 张红光
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
代理人 张霞
(51)Int.Cl.
G06V 30/412(2022.01)
G06V 30/19(2022.01)
G06K 9/62(2022.01)
G06F 40/242(2020.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06Q 40/02(2012.01)
(54)发明名称
文本处理方法、 装置、 电子设备及存 储介质
(57)摘要
本公开提供了一种文本处理方法、 装置、 电
子设备及存储介质, 涉及图像处理技术领域, 尤
其涉及计算机视觉领域。 具体实现方案为: 确定
待处理文本图像包括的多个字段与多个预定字
段名彼此之间的相似度; 将多个字段中相似度大
于相似度阈值的字段, 确定为目标字段名; 从多
个字段中除目标字段名之外的M个剩余字段中,
确定与目标字段名相对应的目标字段值, M≥1;
以及输出目标字段名与 目标字段值之间的对应
关系。
权利要求书3页 说明书11页 附图6页
CN 114419640 A
2022.04.29
CN 114419640 A
1.一种文本处 理方法, 包括:
确定待处 理文本图像包括的多个字段与多个预定 字段名彼此之间的相似度;
将所述多个字段中相似度大于相似度阈值的字段, 确定为目标字段名;
从所述多个字段中除所述目标字段名之外的M个剩余字段中, 确定与所述目标字段名
相对应的目标字段值, 其中, M≥1; 以及
输出所述目标字段名与所述目标字段值之间的对应关系。
2.根据权利要求1所述的方法, 还 包括, 在确定为目标字段名之后:
从所述多个字段中确定N个目标分组字段以及N个重复字段, 其中, N≥2; 以及
根据所述待处理文本 图像中所述N个目标分组字段的位置信息和所述N个重复字段的
位置信息, 对 所述N个目标分组字段与所述N个重复字段进 行分组, 得到N个字段 组, 其中, 所
述N个字段组中的每 个字段组包括 一个目标分组字段和一个重复字段。
3.根据权利要求2所述的方法, 其中, 所述根据所述待处理文本 图像中所述N个目标分
组字段的位置信息和所述N个重复字段的位置信息, 对所述N个目标分组字段与所述N个重
复字段进行分组, 得到N个字段组包括:
确定多个分组方案, 其中, 所述多个分组方案中的每个分组方案与N个候选字段组相
关;
针对所述每个分组方案, 确定所述待处理文本 图像中与所述N个候选字段组分别对应
的字段距离, 基于所述字段距离 之和确定总距离; 其中, 与每个候选字段组对应的字段距离
是该候选字段组中的目标分组字段和重复字段之间的距离; 以及
将与所述总距离最小的分组方案相关的N个候选 字段组, 确定为所述 N个字段组。
4.根据权利要求1所述的方法, 其中, 从所述多个字段中除所述目标字段名之外的M个
剩余字段中, 确定与所述目标字段名相对应的目标字段值包括:
从所述M个剩余字段中, 确定所述待处理文本 图像中与所述目标字段名之间的距离小
于或等于预定距离的字段, 得到 至少一个候选 字段; 以及
根据所述目标字段名的类型和所述至少一个候选字段的类型, 从所述至少一个候选字
段中确定所述目标字段值。
5.根据权利要求1所述的方法, 还 包括对所述目标字段值进行以下操作中的至少一个:
根据所述目标字段值的类型, 修改所述目标字段值的格式; 以及
在确定与同一个所述目标字段名具有对应关系的两个目标字段值分别为汉字数码和
阿拉伯数字, 且所述汉字数码的数值和阿拉伯数字的数值不同的情况下, 利用所述汉字数
码的数值 修正所述阿拉伯数字的数值。
6.根据权利要求1所述的方法, 还 包括:
将所述待处理文本图像包括的多个原始字段中与所述多个预定字段名中任一预定字
段名相同的字段, 确定为所述目标字段名; 以及
将所述多个原始字段中除所述目标字段名之外的字段, 确定为所述待处理文本图像包
括的多个字段。
7.根据权利要求1所述的方法, 还 包括:
对所述待处 理文本图像进行识别, 得到多个分词; 以及
根据所述待处理文本图像中所述多个分词彼此之间的距离和所述多个分词中的每个权 利 要 求 书 1/3 页
2
CN 114419640 A
2分词的语义信息, 将所述多个分词中的至少两个分词组合 为字段, 得到所述多个字段。
8.一种文本处 理装置, 包括:
相似度确定模块, 用于确定待处理文本图像包括的多个字段与多个预定字段名彼此之
间的相似度;
第一目标字段名确定模块, 用于将所述多个字段中相似度大于相似度阈值的字段, 确
定为目标字段名;
目标字段值确定模块, 用于从所述多个字段中除所述目标字段名之外的M个剩余字段
中, 确定与所述目标字段名相对应的目标字段值, 其中, M≥1; 以及
输出模块, 用于 输出所述目标字段名与所述目标字段值之间的对应关系。
9.根据权利要求8所述的装置, 还 包括:
分组重复字段确定模块, 用于在确定目标字段名之后, 从所述多个字段中确定N个目标
分组字段以及N个重复字段, 其中, N≥2; 以及
字段组确定模块, 用于根据所述待处理文本 图像中所述N个目标分组字段的位置信息
和所述N个重复字段的位置信息, 对 所述N个目标分组字段与所述N个重复字段进 行分组, 得
到N个字段组, 其中, 所述N个字段组中的每个字段组包括一个目标分组字段和一个重复字
段。
10.根据权利要求9所述的装置, 其中, 所述字段组确定模块包括:
分组方案确定子模块, 用于确定多个分组方案, 其中, 所述多个分组方案 中的每个分组
方案与N个候选 字段组相关;
总距离确定子模块, 用于针对所述每个分组方案, 确定所述待处理文本图像 中与所述N
个候选字段 组分别对应的字段距离, 基于所述字段距离 之和确定总距离; 其中, 与每个候选
字段组对应的字段距离是 该候选字段组中的目标分组字段和重复字段之间的距离; 以及
字段组确定子模块, 用于将与 所述总距离最小的分组方案相关的N个候选字段组, 确定
为所述N个字段组。
11.根据权利要求8所述的装置, 其中, 所述目标字段值确定模块包括:
候选字段确定子模块, 用于从所述M个剩余字段中, 确定所述待处理文本图像 中与所述
目标字段名之间的距离小于或等于预定距离的字段, 得到 至少一个候选 字段; 以及
目标字段值确定子模块, 用于根据 所述目标字段名的类型和所述至少一个候选字段的
类型, 从所述至少一个候选 字段中确定所述目标字段值。
12.根据权利要求8所述的装置, 还 包括以下中的至少一个:
第一修正模块, 用于根据所述目标字段值的类型, 修改所述目标字段值的格式; 以及
第二修正模块, 用于在确定与同一个所述目标字段名具有对应关系的两个目标字段值
分别为汉字数码和阿拉伯数字, 且所述汉字数码的数值和阿拉伯数字的数值不同的情况
下, 利用所述汉字数码的数值 修正所述阿拉伯数字的数值。
13.根据权利要求8所述的装置, 还 包括:
第二目标字段名确定模块, 用于将所述待处理文本图像包括的多个原始字段中与 所述
多个预定 字段名中任一预定 字段名相同的字段, 确定为所述目标字段名; 以及
多个字段确定模块, 用于将所述多个原始字段中除所述目标字段名之外的字段, 确定
为所述待处 理文本图像包括的多个字段。权 利 要 求 书 2/3 页
3
CN 114419640 A
3
专利 文本处理方法、装置、电子设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:25上传分享