System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機及互聯網的,特別涉及一種訓練樣本的構建方法、求職期望轉移模型的生成方法、裝置、電子設備及存儲介質。
技術介紹
1、在招聘領域中,候選人在撰寫簡歷、搜索篩選職位、投遞簡歷、面試等整個求職周期內,候選人的期望也會有一個不同程度的變化,比如:最開始期望和投遞的是比較高的薪資、自己喜歡的職位,隨著投遞反饋和面試結果的不理想,最初的期望會逐漸降低,薪資可以降低、工作城市可改變、職位可以改變等。為了提高推薦職位的準確性,需要實時地對推薦模型進行調整。目前,由于招聘系統可記錄的日志數據有限,已有的做法大多是基于候選人的行為,例如搜索關鍵詞、瀏覽曝光職位、點擊職位、收藏職位、投遞職位等來構建正負樣本,例如針對候選人輸入搜索關鍵詞之后的一系列行為,以該候選人最終投遞的職位為該次搜索的正樣本,以曝光但未被投遞和/或未被點擊的職位為負樣本,此正負樣本在一定程度上反映了該候選人的選擇傾向,可作為推薦模型的訓練樣本。但是,按照上述方式確定的樣本多樣性較差,與模型實際處理的數據分布差異較大,并未準確的捕捉和理解候選人的這種期望變化和轉移的信息,因此推薦模型訓練效果難以讓人滿意。
技術實現思路
1、本申請的目的是提供一種訓練樣本的構建方法、求職期望轉移模型的生成方法、裝置、電子設備及存儲介質。
2、本申請實施例提供一種訓練樣本的構建方法,包括:
3、獲取求職者第一時間段內的第一歷史投遞職位數據;其中,第一歷史投遞職位數據包括已投遞多個職位的職位信息;
4、按照
5、根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合;其中,每組正樣本集合包括一個目標職位和n個已投遞職位,目標職位為每組正樣本集合中投遞時間距當前時間最近的職位;n大于等于2;
6、從所述投遞序列數據中隨機選擇多個職位,以得到預選職位;其中,預選職位為非目標職位;
7、將預選職位替換每組正樣本集合中的目標職位,以得到相對應的多組負樣本集合;
8、根據正樣本集合和負樣本集合,以得到訓練樣本集合。
9、進一步地,所述根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合,包括:
10、用設定的滑動窗口依次截取所述第一投遞序列數據,以得到多組序列樣本;
11、將每組序列樣本中的序列對應的職位標記為正樣本,并將每組序列樣本中的第一個序號對應的職位作為目標職位。
12、進一步地,所述根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合,包括:
13、若當前序列樣本中的樣本數量不滿足滑動窗口中設定的樣本數量時,在當前序列樣本的序列后面填充“0”,以使當前序列樣本中的樣本數量滿足滑動窗口中設定的樣本數量。
14、進一步地,職位信息包括以下一個或多個影響因子:職位id、職能、行業、工作城市、薪資范圍、第n個職位和目標職位投遞時間差。
15、本申請實施例提供一種求職期望轉移模型的生成方法,基于所述的方法構建的訓練樣本集合,包括:
16、構建待訓練模型;其中,待訓練模型包括transformer結構和多層感知器,transformer結構輸出的多個轉換序列的向量數據經拼接后作為多層感知器的輸入;
17、采用所述訓練樣本集合對構建的待訓練模型進行訓練,以得到訓練好的求職期望轉移模型;其中,
18、求職期望轉移模型用于預測當前求職者的投遞序列數據和多個待預測職位的相關得分。
19、進一步地,所述采用所述訓練樣本集合對構建的待訓練模型進行訓練,以得到訓練好的求職期望轉移模型,還包括:
20、提取每組樣本集合中職位信息的各個影響因子和位置信息;
21、將職位信息中的各個影響因子映射為相對應維度的第一類特征向量;
22、將所述位置信息映射為相對應維度的第二類特征向量;
23、將各個第一類特征向量和第二類特征向量進行拼接,以得到拼接后第一類向量數據;
24、將拼接后第一類向量數據輸入transformer結構,對transformer結構進行訓練,以輸出多個轉換序列的向量數據;
25、將多個轉換序列的向量數據進行拼接,以得到拼接后第二類向量數據;
26、將拼接后第二類向量數據輸入多層感知器,對多層感知器進行訓練,以輸出目標職位與已投遞多個職位的第一相關得分。
27、進一步地,所述將所述位置信息映射為相對應維度的第二類特征向量,包括:
28、第t個位置,第i個向量pe可通過如下公式進行計算:
29、
30、其中:d為向量維度;k的取值為(向量維度d/2-1);
31、當i=2k時,向量為偶數位置;當i=2k+1時,向量為奇數位置。
32、進一步地,所述采用所述訓練樣本集合對構建的待訓練模型進行訓練,以得到訓練好的求職期望轉移模型,還包括:
33、將相關得分輸入交叉熵損失函數中,計算損失值;
34、根據計算得到的損失值,采用優化算法計算更新梯度,進行反向傳導更新求職期望轉移模型的參數和底層的第一類特征向量和第二類特征向量數據;其中,損失函數如以下條件式所示:
35、
36、式中,f(xi)為第一相關得分;訓練樣本為正樣本時,yi為1;訓練樣本為負樣本時,yi為0;m為樣本集合中的樣本組總數量。
37、本申請實施例提供一種訓練樣本的構建裝置,包括:
38、第一獲取模塊,其用于獲取求職者第一時間段內的第一歷史投遞職位數據;其中,第一歷史投遞職位數據包括已投遞多個職位的職位信息;
39、第一序列模塊,其用于按照距當前時間由后及前的順序依次排序第一歷史投遞職位數據,以得到第一投遞序列數據;其中,所述第一投遞序列數據包括已投遞多個職位按照距當前時間由后及前的順序依次排序的位置信息;
40、分割模塊,其用于根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合;其中,每組正樣本集合包括一個目標職位和n個已投遞職位,目標職位為每組正樣本集合中投遞時間距當前時間最近的職位;n大于等于2;
41、選擇模塊,其用于從所述投遞序列數據中隨機選擇多個職位,以得到預選職位;其中,預選職位為非目標職位;
42、替換模塊,其用于將預選職位替換每組正樣本集合中的目標職位,以得到相對應的多組負樣本集合;
43、訓練樣本模塊,其用于根據正樣本集合和負樣本集合,以得到訓練樣本集合。
44、本申請實施例提供一種求職期望轉移模型的生成裝置,基于所述的方法構建的訓練樣本集合,包括:
45、構建模塊,其用于構建待訓練模型;其中,本文檔來自技高網...
【技術保護點】
1.一種訓練樣本的構建方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合,包括:
3.根據權利要求1所述的方法,其特征在于,所述根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合,還包括:
4.根據權利要求1所述的方法,其特征在于,職位信息包括以下一個或多個影響因子:職位ID、職能、行業、工作城市、薪資范圍、第n個職位和目標職位投遞時間差。
5.一種求職期望轉移模型的生成方法,其特征在于,基于權利要求1-4任一項所述的方法構建的訓練樣本集合,包括:
6.根據權利要求5所述的方法,其特征在于,所述采用所述訓練樣本集合對構建的待訓練模型進行訓練,以得到訓練好的求職期望轉移模型,包括:
7.根據權利要求6所述的方法,其特征在于,所述將所述位置信息映射為相對應維度的第二類特征向量,包括:
8.根據權利要求5所述的方法,其特征在于,所述采用所述訓練樣本集合對構建的待訓練模型進行訓練,以得到訓練好的求職期望轉移模型,還
9.一種訓練樣本的構建裝置,其特征在于,包括:
10.一種求職期望轉移模型的生成裝置,其特征在于,基于權利要求1-4任一項所述的方法構建的訓練樣本集合,包括:
11.根據權利要求10所述的生成裝置,其特征在于,所述訓練模塊包括:
12.一種電子設備,其特征在于,所述電子設備包括:處理器以及存儲有計算機程序指令的存儲器;所述電子設備執行所述計算機程序指令時實現如權利要求1-8中任一項所述的方法。
13.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序指令,所述計算機程序指令被處理器執行時實現如權利要求1-8中任一項所述的方法。
...【技術特征摘要】
1.一種訓練樣本的構建方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合,包括:
3.根據權利要求1所述的方法,其特征在于,所述根據預設的分割策略將所述第一投遞序列數據分割成多組正樣本集合,還包括:
4.根據權利要求1所述的方法,其特征在于,職位信息包括以下一個或多個影響因子:職位id、職能、行業、工作城市、薪資范圍、第n個職位和目標職位投遞時間差。
5.一種求職期望轉移模型的生成方法,其特征在于,基于權利要求1-4任一項所述的方法構建的訓練樣本集合,包括:
6.根據權利要求5所述的方法,其特征在于,所述采用所述訓練樣本集合對構建的待訓練模型進行訓練,以得到訓練好的求職期望轉移模型,包括:
7.根據權利要求6所述的方法,其特征在于,所述將所述位置信...
【專利技術屬性】
技術研發人員:李波,張輝,余峻,
申請(專利權)人:前錦網絡信息技術上海有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。