(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211146339.3
(22)申请日 2022.09.20
(71)申请人 深圳今日人才信息科技有限公司
地址 518000 广东省深圳市福田区沙 头街
道新华社区新洲十一街139号中央西
谷大厦15 08A
(72)发明人 肖小范 刘王祥 李敬泉 刘雨晨
徐雯 谢志辉 景昊 吴显仁
(74)专利代理 机构 深圳市中科创为专利代理有
限公司 4 4384
专利代理师 游强 彭西洋
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/31(2019.01)
G06F 16/9535(2019.01)G06F 40/30(2020.01)
G06Q 10/10(2012.01)
(54)发明名称
基于岗位和简历内容的对比学习人岗智能
匹配方法及系统
(57)摘要
本发明提供一种基于岗位和简历内容的对
比学习人岗智能匹配方法及系统, 该方法包括:
离线岗位 ‑简历语义编码器训练、 简历索引构建;
在线人岗召回匹配。 本发明结合招聘行业人岗匹
配业务场景, 基于岗位和简历内容, 在招聘领域
提出一种基于对比学习的人岗匹配方法; 经过精
细化的训练样本对设计, 岗位 ‑简历对比学习语
义编码器模型能对简历和岗位内容进行精准的
语义编码, 提高了人岗匹配的效果; 采用缓存、
faiss的技术架构, 将百万级规模人岗匹配做到
了毫秒级响应, 达到了高并发低时延的性能要
求, 大大提高了人岗匹配的效率, 为猎企、 求职者
减负增效。
权利要求书3页 说明书8页 附图5页
CN 115481220 A
2022.12.16
CN 115481220 A
1.一种基于岗位和简历内容的对比学习人岗智能匹配方法, 其特征在于, 该方法包括
如下步骤:
S1, 离线模型训练和简 历索引构建;
S2, 在线人岗匹配。
2.根据权利要求1所述的基于岗位和简历内容的对比学习人岗智能匹配方法, 其特征
在于, 步骤S1具体包括如下步骤:
S11, 训练样本对构造; 提出训练样本生成器, 用于对比学习模型的训练;
S12, 模型训练; 用S11中生成的训练样本, 对对比学习模型进行训练, 得到CV ‑BERT和
JD‑BERT两个可分别用于简 历和岗位语义 提取的模型;
S13, 全量简历索引构建; 对于RCN简历池中的所有简历, 使用S12中训练好的CV ‑BERT模
型来对所有简历进行语义编码, 获得每一份简历的语义向量; 接着将所有简历的语义向量
放入fais s检索库中, 构建全量的简 历索引。
3.根据权利要求1所述的基于岗位和简历内容的对比学习人岗智能匹配方法, 其特征
在于, 步骤S2具体包括如下步骤:
S21, 岗位语义缓存; 提前用S12中训练好的JD ‑BERT提取部分热门、 急招或活跃岗位的
语义, 放入缓存中, 便 于在处理这些岗位时, 系统能快速的为 这些岗位进行简 历推荐;
S22, 人岗检索; 在完成S13和S21后, 得到了需要请求人岗匹配的岗位语义向量和全量
的简历向量索引, 经过faiss向量检索引擎的近似邻算法, 为请求中的每一个岗位召回t opk
个与之相关的简 历。
4.一种基于岗位和简历内容的对比学习人岗智能匹配系统, 用于实现权利要求1 ‑3任
意一项所述的基于岗位和简历 内容的对比学习 人岗智能匹配方法, 其特征在于, 该系统包
括: 训练样本生成器、 语义编码器、 实时批量匹配 器;
所述训练样本生成器: 采用Siamese ‑bert模型来对岗位和简历进行语义编码, 为了进
一步学习简历与岗位之间的相似性、 简历与简历之 间的相似性、 即类与类之 间的相似性, 类
内部的相似性, 简历岗位语义编 码模型采用输入的三元对输入, 将岗位文本信息作为锚点,
记为a, 与岗位匹配的简历作为正样本, 记为p, 与岗位不匹配的简历作为负样本, 记为n, 即
语义提取模型的输入为岗位和简 历组成的三元对s(a, p, n);
所述语义编码器: 采用伪Siamese ‑Bert模型用于岗位和简历的精准语义捕捉和匹配,
JD‑BERT用于捕捉岗位的语义信息, CV ‑BERT用于捕捉简历的语义信息。 通过对岗位内容和
简历内容的精准语义编码, 推荐语义高度相关的人岗对;
所述实时批量向量召回器: 采用Redis缓存技术和Faiss向量检索引擎实现批量人岗匹
配和检索。
5.根据权利要求4所述的基于岗位和简历内容的对比学习人岗智能匹配系统, 其特征
在于, 训练样本生成器包括: 正样本对构造、 负 样本对构造;
所述正样本对构造: 在RCN合作平台中, 找出合适的简历进行岗位匹配和投递, 将jd ‑cv
pair看成是一对正样 本, 在匹配中, 岗位和简历在语义层面上高度相关的、 契合的, 取RCN中
所有推荐至客户的订单, 对每个订单, 取岗位作为锚点, 简历作为正样本, 形成一个正样本
对;
所述负样本对构造: 将 负样本的构造分为简单样本和困难样本构造 。权 利 要 求 书 1/3 页
2
CN 115481220 A
26.根据权利要求5所述的基于岗位和简历内容的对比学习人岗智能匹配系统, 其特征
在于, 所述负 样本对构造包括: 简单负 样本对构造、 困难负 样本对构造;
所述简单负样本对构造: 选择与岗位要求的专业、 行业背景、 工作年 限、 掌握技能不匹
配的简历, 为该岗位 生成负样本;
所述困难负 样本对构造: 岗位和简 历间、 简历与简历之间存在 细微的差别的训练样本 。
7.根据权利要求6所述的基于岗位和简历内容的对比学习人岗智能匹配系统, 其特征
在于, 所述困难负 样本对构造包括: 基于技能点的构造方法、 基于 工作年限的构造方法;
所述基于技能点的构造方法: 基于简 历技能点的抽取和识别进行简 历解析;
所述基于 工作年限的构造方法: 基于 工作年限进行简 历筛选。
8.根据权利要求4所述的基于岗位和简历内容的对比学习人岗智能匹配系统, 其特征
在于,
所述语义编码器: 采用伪Siamese ‑Bert模型用于岗位和简历的精准语义捕捉和匹配,
JD‑BERT用于捕捉岗位的语义信息, CV ‑BERT用于捕捉简 历的语义信息,
同时对两个Bert进行训练, 分别对JD ‑BERT和CV ‑BERT模型最后一层输出的所有词的
embedding向量做全局平均池化, 并将池化后的embedding分别作为jd语义向量和cv的语义
向量, jd和 cv分别代表岗位和简历, 训练中使用jd和cv的语义 向量之间的余弦距离来衡量
两者的语义关系, 两者语义越相关, 则其语义向量间的距离越小, 如公式(1)所示:
其中, 岗位锚点a和正样本简历p在语义上是匹配的, 负样本简历n在语义上和岗位是不
匹配的, 模型的训练目标是, 能够准确地编码岗位和简历的文本语义, 使得在岗位锚点a和
正样本简历p在语义非常相似, 即两者的语义向量在空间上 的余弦夹角尽量小, 反之, 在负
样本中, 岗位锚点a和负样本简历n在语义上尽可能的相似度低, 即两者的语义向量的在空
间上余弦夹角尽可能大, 超参λ, 让模型把正样本的距离尽量减小, 把负样本对的距离尽量
拉大;
用
表示锚点岗位的语义向量,
和
分别表示与之匹配的正样
本简历的语义向量和负样 本简历语义向量, 可以得到人岗匹配语义编码Siamese ‑Bert模型
训练的损失函数如公式(2):
9.根据权利要求4所述的基于岗位和简历内容的对比学习人岗智能匹配系统, 其特征
在于, 所述实时批量向量召回器:
采用Redis缓存技 术和Fais s向量检索引擎实现批量人岗匹配和检索,
采用Redis存储岗位的语义向量, 减少匹配请求中因为计算岗位语义而产生的延时, 岗
位的语义向量以(岗位ID, 岗位向量)的键值对 形式存储在缓存 上, 采取allkeys ‑lru的淘汰权 利 要 求 书 2/3 页
3
CN 115481220 A
3
专利 基于岗位和简历内容的对比学习人岗智能匹配方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:18上传分享