专利 基于岗位和简历内容的对比学习人岗智能匹配方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211146339.3 (22)申请日 2022.09.20 (71)申请人深圳今日人才信息科技有限公司地址 518000 广东省深圳市福田区沙头街道新华社区新洲十一街139号中央西谷大厦15 08A (72)发明人肖小范　刘王祥　李敬泉　刘雨晨　徐雯　谢志辉　景昊　吴显仁　 (74)专利代理机构深圳市中科创为专利代理有限公司 4 4384 专利代理师游强　彭西洋 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/31(2019.01) G06F 16/9535(2019.01)G06F 40/30(2020.01) G06Q 10/10(2012.01) (54)发明名称基于岗位和简历内容的对比学习人岗智能匹配方法及系统 (57)摘要本发明提供一种基于岗位和简历内容的对比学习人岗智能匹配方法及系统，该方法包括：离线岗位 ‑简历语义编码器训练、简历索引构建；在线人岗召回匹配。本发明结合招聘行业人岗匹配业务场景，基于岗位和简历内容，在招聘领域提出一种基于对比学习的人岗匹配方法；经过精细化的训练样本对设计，岗位 ‑简历对比学习语义编码器模型能对简历和岗位内容进行精准的语义编码，提高了人岗匹配的效果；采用缓存、 faiss的技术架构，将百万级规模人岗匹配做到了毫秒级响应，达到了高并发低时延的性能要求，大大提高了人岗匹配的效率，为猎企、求职者减负增效。权利要求书3页说明书8页附图5页 CN 115481220 A 2022.12.16 CN 115481220 A 1.一种基于岗位和简历内容的对比学习人岗智能匹配方法，其特征在于，该方法包括如下步骤： S1，离线模型训练和简历索引构建； S2，在线人岗匹配。 2.根据权利要求1所述的基于岗位和简历内容的对比学习人岗智能匹配方法，其特征在于，步骤S1具体包括如下步骤： S11，训练样本对构造；提出训练样本生成器，用于对比学习模型的训练； S12，模型训练；用S11中生成的训练样本，对对比学习模型进行训练，得到CV ‑BERT和 JD‑BERT两个可分别用于简历和岗位语义提取的模型； S13，全量简历索引构建；对于RCN简历池中的所有简历，使用S12中训练好的CV ‑BERT模型来对所有简历进行语义编码，获得每一份简历的语义向量；接着将所有简历的语义向量放入fais s检索库中，构建全量的简历索引。 3.根据权利要求1所述的基于岗位和简历内容的对比学习人岗智能匹配方法，其特征在于，步骤S2具体包括如下步骤： S21，岗位语义缓存；提前用S12中训练好的JD ‑BERT提取部分热门、急招或活跃岗位的语义，放入缓存中，便于在处理这些岗位时，系统能快速的为这些岗位进行简历推荐； S22，人岗检索；在完成S13和S21后，得到了需要请求人岗匹配的岗位语义向量和全量的简历向量索引，经过faiss向量检索引擎的近似邻算法，为请求中的每一个岗位召回t opk 个与之相关的简历。 4.一种基于岗位和简历内容的对比学习人岗智能匹配系统，用于实现权利要求1 ‑3任意一项所述的基于岗位和简历内容的对比学习人岗智能匹配方法，其特征在于，该系统包括：训练样本生成器、语义编码器、实时批量匹配器；所述训练样本生成器：采用Siamese ‑bert模型来对岗位和简历进行语义编码，为了进一步学习简历与岗位之间的相似性、简历与简历之间的相似性、即类与类之间的相似性，类内部的相似性，简历岗位语义编码模型采用输入的三元对输入，将岗位文本信息作为锚点，记为a，与岗位匹配的简历作为正样本，记为p，与岗位不匹配的简历作为负样本，记为n，即语义提取模型的输入为岗位和简历组成的三元对s(a， p， n)；所述语义编码器：采用伪Siamese ‑Bert模型用于岗位和简历的精准语义捕捉和匹配， JD‑BERT用于捕捉岗位的语义信息， CV ‑BERT用于捕捉简历的语义信息。通过对岗位内容和简历内容的精准语义编码，推荐语义高度相关的人岗对；所述实时批量向量召回器：采用Redis缓存技术和Faiss向量检索引擎实现批量人岗匹配和检索。 5.根据权利要求4所述的基于岗位和简历内容的对比学习人岗智能匹配系统，其特征在于，训练样本生成器包括：正样本对构造、负样本对构造；所述正样本对构造：在RCN合作平台中，找出合适的简历进行岗位匹配和投递，将jd ‑cv pair看成是一对正样本，在匹配中，岗位和简历在语义层面上高度相关的、契合的，取RCN中所有推荐至客户的订单，对每个订单，取岗位作为锚点，简历作为正样本，形成一个正样本对；所述负样本对构造：将负样本的构造分为简单样本和困难样本构造。权　利　要　求　书 1/3 页 2 CN 115481220 A 26.根据权利要求5所述的基于岗位和简历内容的对比学习人岗智能匹配系统，其特征在于，所述负样本对构造包括：简单负样本对构造、困难负样本对构造；所述简单负样本对构造：选择与岗位要求的专业、行业背景、工作年限、掌握技能不匹配的简历，为该岗位生成负样本；所述困难负样本对构造：岗位和简历间、简历与简历之间存在细微的差别的训练样本。 7.根据权利要求6所述的基于岗位和简历内容的对比学习人岗智能匹配系统，其特征在于，所述困难负样本对构造包括：基于技能点的构造方法、基于工作年限的构造方法；所述基于技能点的构造方法：基于简历技能点的抽取和识别进行简历解析；所述基于工作年限的构造方法：基于工作年限进行简历筛选。 8.根据权利要求4所述的基于岗位和简历内容的对比学习人岗智能匹配系统，其特征在于，所述语义编码器：采用伪Siamese ‑Bert模型用于岗位和简历的精准语义捕捉和匹配， JD‑BERT用于捕捉岗位的语义信息， CV ‑BERT用于捕捉简历的语义信息，同时对两个Bert进行训练，分别对JD ‑BERT和CV ‑BERT模型最后一层输出的所有词的 embedding向量做全局平均池化，并将池化后的embedding分别作为jd语义向量和cv的语义向量， jd和 cv分别代表岗位和简历，训练中使用jd和cv的语义向量之间的余弦距离来衡量两者的语义关系，两者语义越相关，则其语义向量间的距离越小，如公式(1)所示：其中，岗位锚点a和正样本简历p在语义上是匹配的，负样本简历n在语义上和岗位是不匹配的，模型的训练目标是，能够准确地编码岗位和简历的文本语义，使得在岗位锚点a和正样本简历p在语义非常相似，即两者的语义向量在空间上的余弦夹角尽量小，反之，在负样本中，岗位锚点a和负样本简历n在语义上尽可能的相似度低，即两者的语义向量的在空间上余弦夹角尽可能大，超参λ，让模型把正样本的距离尽量减小，把负样本对的距离尽量拉大；用表示锚点岗位的语义向量，和分别表示与之匹配的正样本简历的语义向量和负样本简历语义向量，可以得到人岗匹配语义编码Siamese ‑Bert模型训练的损失函数如公式(2)： 9.根据权利要求4所述的基于岗位和简历内容的对比学习人岗智能匹配系统，其特征在于，所述实时批量向量召回器：采用Redis缓存技术和Fais s向量检索引擎实现批量人岗匹配和检索，采用Redis存储岗位的语义向量，减少匹配请求中因为计算岗位语义而产生的延时，岗位的语义向量以(岗位ID，岗位向量)的键值对形式存储在缓存上，采取allkeys ‑lru的淘汰权　利　要　求　书 2/3 页 3 CN 115481220 A 3

专利 基于岗位和简历内容的对比学习人岗智能匹配方法及系统

专利基于岗位和简历内容的对比学习人岗智能匹配方法及系统