System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機,尤其涉及一種用戶推薦模型的訓練方法和裝置。
技術介紹
1、在互聯網
,隨著新能源技術的發展成熟,各新能源汽車企業的首要任務就是占據更大的用戶市場,以保障自身品牌的發展。對于不同汽車品牌,占據用戶市場的一項重要操作就是新用戶的拉取。新用戶的拉取方式主要通過人找人,或物找人的方式實現。
2、現有的常用的用戶拉新方法是通過各類模型,例如相似度模型、分類模型、聚類模型等,進行新用戶的篩選。但是基于現有的模型進行用戶拉新時,由于用戶的特征長度可能會很長,例如用戶在網站查詢新能源時的搜索詞的特征,導致模型的輸入特征序列較長,會造成模型的計算量成幾何倍增,訓練消耗時間較長。
技術實現思路
1、有鑒于此,本專利技術實施例提供一種用戶推薦模型的訓練方法和裝置,能夠降低模型的計算量,提高模型計算效率。
2、為實現上述目的,根據本專利技術實施例的一個方面,提供了一種用戶推薦模型的訓練方法,包括:
3、獲取目標數量的樣本數據和全量搜索詞數據,其中,每個樣本具有用戶類別;
4、基于全量搜索詞數據確定每個用戶類別的搜索詞的排序數據;
5、基于每個用戶類別的搜索詞的排序數據和每個樣本對應的用戶類別,對目標數量的樣本數據中每個樣本包含的搜索詞進行排序處理,得到樣本數據的預處理數據;
6、基于樣本數據的預處理數據訓練檢索增強語言模型,得到目標用戶推薦模型。
7、可選地,基于目標數量和全量搜索詞數據確定每個
8、基于全量搜索詞數據確定每個搜索詞的頻次;
9、基于每個搜索詞的頻次計算搜索詞的概率分布數據;
10、基于概率分布數據確定每個用戶類別的搜索詞的排序數據。
11、可選地,基于概率分布數據確定每個用戶類別的搜索詞的排序數據,包括:
12、基于概率分布數據確定滿足預設概率分布條件的搜索詞的頻次;
13、按照滿足預設概率分布條件的搜索詞的頻次從高到低的順序,對每個用戶類別的搜索詞進行分類排序,得到每個用戶類別的搜索詞的排序數據。
14、可選地,基于每個用戶類別的搜索詞的排序數據和每個樣本對應的用戶類別,對目標數量的樣本數據中每個樣本包含的搜索詞進行排序處理,得到樣本數據的預處理數據,包括:
15、確定每個樣本包含的搜索詞中在每個樣本對應的用戶類別的搜索詞的排序數據范圍內的第一搜索詞;
16、確定每個樣本包含的搜索詞中除第一搜索詞外的第二搜索詞;
17、按照從第一搜索詞到第二搜索詞的順序對每個樣本的搜索詞進行排序處理,得到樣本數據的預處理數據。
18、可選地,基于樣本數據的預處理數據訓練檢索增強語言模型,得到目標用戶推薦模型,包括:
19、根據第一預設特征序列長度對樣本數據的預處理數據中的每條數據進行截取,得到目標樣本數據;
20、確定目標樣本數據中目標用戶類別的數據為正樣本數據,確定目標類別以外的類別的數據為負樣本數據;
21、基于正樣本數據和負樣本數據訓練檢索增強模型,得到目標用戶推薦模型。
22、可選地,方法還包括:
23、獲取待推薦用戶數據,待推薦用戶數據包括待推薦用戶的搜索詞和對應的頻次;
24、基于待推薦用戶的搜索詞對應的頻次對待推薦用戶的搜索詞進行排序,得到排序數據;
25、根據預設第二預設特征序列長度對排序數據進行截取,得到待推薦用戶的預處理數據;
26、將待推薦用戶的預處理數據輸入目標用戶推薦模型,得到目標推薦用戶數據。
27、可選地,檢索增強語言模型采用雙塔結構,且包括全局信息處理單元和局部信息處理單元,通過對全局信息處理單元和局部信息處理單元進行簡化,以將指數形式的計算方式修改為線性形式的計算方式。。
28、可選地,將指數形式的計算方式修改為線性形式的計算方式的實現過程如下:
29、對全局信息處理單元和局部信息處理單元中的激活函數單元和初始化參數變量進行刪除,得到第一全局信息處理簡化單元和第一局部信息處理簡化單元,第一全局信息處理簡化單元和第一局部信息處理簡化單元包括e指數形式的計算項;
30、將e指數形式的計算項變換成通用的計算項,得到簡化后的第二全局信息處理簡化單元和第二局部信息處理簡化單元;
31、對第二全局信息處理簡化單元和第二局部信息處理簡化單元進行泰勒展開,并對展開結果中的變量進行歸一化處理,以將指數形式計算方式轉換為線性形式的計算方式。
32、根據本專利技術實施例的另一方面,提供了一種用戶推薦模型的訓練裝置,包括:
33、獲取模塊,用于獲取目標數量的樣本的數據和全量搜索詞數據,其中,每個樣本具有用戶類別;
34、確定模塊,用于基于全量搜索詞數據確定每個用戶類別的搜索詞的排序數據;
35、處理模塊,用于基于每個用戶類別的搜索詞的排序數據和每個樣本對應的用戶類別,對目標數量的樣本數據中每個樣本包含的搜索詞進行排序處理,得到樣本數據的預處理數據;
36、訓練模塊,用于基于樣本數據的預處理數據訓練檢索增強語言模型,得到目標用戶推薦模型。
37、可選地,確定模塊,還用于:基于全量搜索詞數據確定每個搜索詞的頻次;基于每個搜索詞的頻次計算搜索詞的概率分布數據;基于概率分布數據確定每個用戶類別的搜索詞的排序數據。
38、可選地,確定模塊,還用于:基于概率分布數據確定滿足預設概率分布條件的搜索詞的頻次;按照滿足預設概率分布條件的搜索詞的頻次從高到低的順序,對每個用戶類別的搜索詞進行分類排序,得到每個用戶類別的搜索詞的排序數據。
39、可選地,處理模塊,還用于:確定每個樣本包含的搜索詞中在每個樣本對應的用戶類別的搜索詞的排序數據范圍內的第一搜索詞;確定每個樣本包含的搜索詞中除第一搜索詞外的第二搜索詞;按照從第一搜索詞到第二搜索詞的順序對每個樣本的搜索詞進行排序處理,得到樣本數據的預處理數據。
40、可選地,訓練模塊,還用于:根據第一預設特征序列長度對樣本數據的預處理數據中的每條數據進行截取,得到目標樣本數據;確定目標樣本數據中目標用戶類別的數據為正樣本數據,確定目標類別以外的類別的數據為負樣本數據;基于正樣本數據和負樣本數據訓練檢索增強模型,得到目標用戶推薦模型。
41、可選地,裝置還包括:獲取模塊,還用于獲取待推薦用戶數據,待推薦用戶數據包括待推薦用戶的搜索詞和對應的頻次;排序模塊,用于基于待推薦用戶的搜索詞對應的頻次對待推薦用戶的搜索詞進行排序,得到排序數據;截取模塊,用于根據預設第二預設特征序列長度對排序數據進行截取,得到待推薦用戶的預處理數據;輸入模塊,用于將待推薦用戶的預處理數據輸入目標用戶推薦模型,得到目標推薦用戶數據。
42、可選地,檢索增強語言模型采用雙塔結構,且包括全局信息本文檔來自技高網...
【技術保護點】
1.一種用戶推薦模型的訓練方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述全量搜索詞數據確定每個用戶類別的搜索詞的排序數據,包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述概率分布數據確定每個用戶類別的搜索詞的排序數據,包括:
4.根據權利要求2或3所述的方法,其特征在于,所述基于所述每個用戶類別的搜索詞的排序數據和每個樣本對應的用戶類別,對所述目標數量的樣本數據中每個樣本包含的搜索詞進行排序處理,得到樣本數據的預處理數據,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述樣本數據的預處理數據訓練檢索增強語言模型,得到目標用戶推薦模型,包括:
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
7.根據權利要求1所述的方法,其特征在于,所述檢索增強語言模型采用雙塔結構,且包括全局信息處理單元和局部信息處理單元,通過對所述全局信息處理單元和所述局部信息處理單元進行簡化,以將指數形式的計算方式修改為線性形式的計算方式。
8.根據權利要求
9.一種用戶推薦模型的訓練裝置,其特征在于,包括:
10.一種電子設備,其特征在于,包括:
11.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-8中任一所述的方法。
12.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-8中任一所述的方法。
...【技術特征摘要】
1.一種用戶推薦模型的訓練方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述全量搜索詞數據確定每個用戶類別的搜索詞的排序數據,包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述概率分布數據確定每個用戶類別的搜索詞的排序數據,包括:
4.根據權利要求2或3所述的方法,其特征在于,所述基于所述每個用戶類別的搜索詞的排序數據和每個樣本對應的用戶類別,對所述目標數量的樣本數據中每個樣本包含的搜索詞進行排序處理,得到樣本數據的預處理數據,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述樣本數據的預處理數據訓練檢索增強語言模型,得到目標用戶推薦模型,包括:
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
【專利技術屬性】
技術研發人員:傅希俊,
申請(專利權)人:北京沃東天駿信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。