(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211272946.4
(22)申请日 2022.10.18
(71)申请人 中国银行股份有限公司
地址 100818 北京市西城区复兴门内大街1
号
(72)发明人 童楚婕
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 李艳艳
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/258(2020.01)
G06F 40/30(2020.01)
G06Q 40/02(2012.01)
(54)发明名称
产品标题实体识别方法及装置
(57)摘要
本发明公开了一种产品标题实体识别方法
及装置, 应用于人工智 能技术领域, 其中该方法
包括: 获取当前产品的标题文本; 确定当前产品
的标题文本中每一词语及对应的语义特征; 将每
一词语及对应的语义特征输入预先建立的产品
标题实体识别模 型中, 识别得到当前产品的标题
实体; 所述产品标题实体识别模 型根据多个历史
产品标题数据集样本预先建立, 在建立所述模型
的过程中, 利用预训练模型对每一历史产品标题
文本中每一词语进行语义特征的标注。 本发明避
免了人工标注, 减少了人力成本, 提高了产品标
题实体识别的效率和准确率, 进而提升了后续产
品搜索和推荐的准确性, 提升 了用户体验感。
权利要求书3页 说明书7页 附图4页
CN 115510865 A
2022.12.23
CN 115510865 A
1.一种产品标题实体识别方法, 其特 征在于, 包括:
获取当前产品的标题文本;
确定当前产品的标题文本中每一词语及对应的语义特 征;
将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型中, 识别得到当
前产品的标题实体; 所述产品标题实体识别模型根据多个历史产品标题数据集样本预先建
立, 在建立所述模型 的过程中, 利用预训练模型对每一历史产品标题文本中每一词语进行
语义特征的标注。
2.如权利要求1所述的方法, 其特征在于, 还包括: 按照如下方法预先建立所述产品标
题实体识别模型:
接收多个历史产品标题数据集样本数据;
将所述样本数据按照预设比例随机划分为训练集和验证集;
为训练集和验证集中的每一产品标题数据加工标签, 以使得每一产品标题数据中每一
词语具有语义特 征标签;
根据每一产品标题数据中每一词语具有语义特征标签, 得到每一产品标题数据中每一
词语与语义特 征标签之间的关系;
根据所述关系, 利用预训练模型, 将每一产品标题数据中每一词语标注对应的语义特
征标签, 得到用于建立产品标题实体识别模型的训练集和验证集;
利用所述训练集进行多轮模型训练, 得到多个产品标题实体识别模型, 从多个产品标
题实体识别模型中选择 出最佳产品标题实体识别模型;
利用所述验证集验证所述最佳产品标题实体识别模型, 得到最终的初步产品标题实体
识别模型。
3.如权利要求2所述的方法, 其特征在于, 利用所述训练集进行多轮模型训练, 得到多
个产品标题实体识别模型, 从多个产品标题实体识别模型中选择出最佳产品标题实体识别
模型, 包括:
通过不断从训练集中拿取批样本数据进入 模型训练过程做前向计算;
使用前向计算结果, 利用损失函数和预设评价指标, 计算损失值;
根据损失值反向回传更新梯度后, 重新拿取批样本数据重复来训练模型, 直到所述最
佳产品标题实体识别模型。
4.如权利要求1所述的方法, 其特 征在于, 所述产品为银 行产品。
5.如权利要求1所述的方法, 其特征在于, 所述产品包括: 银行理财产品、 优惠券产品、
活动产品或贵金属产品。
6.如权利要求1所述的方法, 其特征在于, 识别得到的标题实体用于产品搜索和产品推
荐。
7.如权利要求1所述的方法, 其特征在于, 利用预训练模型对每一历史产品标题文本中
每一词语进行语义特 征的标注, 包括:
利用ERINE预训练模型对每一历史产品标题文本中每一词语进行语义特 征的标注。
8.一种产品标题实体识别装置, 其特 征在于, 包括:
获取模块, 用于获取当前产品的标题文本;
确定模块, 用于确定当前产品的标题文本中每一词语及对应的语义特 征;权 利 要 求 书 1/3 页
2
CN 115510865 A
2识别模块, 用于将每一词语及对应的语义特征输入预先建立的产品标题实体识别模型
中, 识别得到当前产品的标题实体; 所述产品标题实体识别模型根据多个历史产品标题数
据集样本预先建立, 在建立所述模型 的过程中, 利用预训练模型对每一历史产品标题文本
中每一词语进行语义特 征的标注。
9.如权利要求8所述的装置, 其特征在于, 还包括产品标题实体识别模型建立模块, 用
于按照如下 方法预先建立所述产品标题实体识别模型:
接收多个历史产品标题数据集样本数据;
将所述样本数据按照预设比例随机划分为训练集和验证集;
为训练集和验证集中的每一产品标题数据加工标签, 以使得每一产品标题数据中每一
词语具有语义特 征标签;
根据每一产品标题数据中每一词语具有语义特征标签, 得到每一产品标题数据中每一
词语与语义特 征标签之间的关系;
根据所述关系, 利用预训练模型, 将每一产品标题数据中每一词语标注对应的语义特
征标签, 得到用于建立产品标题实体识别模型的训练集和验证集;
利用所述训练集进行多轮模型训练, 得到多个产品标题实体识别模型, 从多个产品标
题实体识别模型中选择 出最佳产品标题实体识别模型;
利用所述验证集验证所述最佳产品标题实体识别模型, 得到最终的初步产品标题实体
识别模型。
10.如权利要求9所述的装置, 其特征在于, 利用所述训练集进行多轮模型训练, 得到多
个产品标题实体识别模型, 从多个产品标题实体识别模型中选择出最佳产品标题实体识别
模型, 包括:
通过不断从训练集中拿取批样本数据进入 模型训练过程做前向计算;
使用前向计算结果, 利用损失函数和预设评价指标, 计算损失值;
根据损失值反向回传更新梯度后, 重新拿取批样本数据重复来训练模型, 直到所述最
佳产品标题实体识别模型。
11.如权利要求8所述的装置, 其特 征在于, 所述产品为银 行产品。
12.如权利要求8所述的装置, 其特征在于, 所述产品包括: 银行理财产品、 优惠券产品、
活动产品或贵金属产品。
13.如权利要求8所述的装置, 其特征在于, 识别得到的标题实体用于产品搜索和产品
推荐。
14.如权利要求8所述的装置, 其特征在于, 利用预训练模型对每一历史产品标题文本
中每一词语进行语义特 征的标注, 包括:
利用ERINE预训练模型对每一历史产品标题文本中每一词语进行语义特 征的标注。
15.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至7任一所述方
法。
16.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程
序, 所述计算机程序被处 理器执行时实现权利要求1至7任一所述方法。
17.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序, 所述计权 利 要 求 书 2/3 页
3
CN 115510865 A
3
专利 产品标题实体识别方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:25上传分享