一種基于對比學習框架的短視頻推薦方法及系統技術方案

技術編號：44447200 閱讀：4 留言：0更新日期：2025-02-28 18:53

本發明專利技術公開了一種基于對比學習框架的短視頻推薦方法及系統，用于對多行為序列編碼器進行自監督學習，提高用戶正負偏好的區分性，進而提升短視頻推薦模型的推薦準確度。本發明專利技術主要分為三個部分：第一部分是為多行為序列編碼器的用戶正負偏好計算偽標簽，設計對比學習任務對該用戶正負偏好進行解耦；第二部分是設計對比學習任務使得多行為序列編碼器學習到的用戶正面偏好和用戶負面偏好的中間狀態一直具有區分性；第三部分是融合用戶正面偏好和用戶負面偏好得到融合偏好，結合推薦任務和對比學習任務訓練短視頻推薦模型。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于互聯網服務，尤其涉及一種基于對比學習框架的短視頻推薦方法及系統。

技術介紹

1、現有的推薦系統為了提升推薦準確度，通常會對用戶的多行為序列進行建模，學習用戶的正面和負面偏好。平臺中的多行為之間是有依賴和關聯的，如電商購物中存在“觀看→加購→購買”的順序依賴關系，文章推薦場景中存在“立即跳出→淺閱讀→掃讀→快速閱讀→正常閱讀→深度閱讀”的條件依賴模式，短視頻推薦場景中存在的“跳過→點擊”的依賴關系。基于多行為序列的推薦方法為了捕捉不同行為之間的關聯，設計多行為序列編碼器，編碼器將用戶的多行為序列作為輸入，輸出用戶在不同行為中的偏好表征。例如，2022年上海交通大學的shen等人提出的mbn模型，提出元多行為序列編碼器(meta?multi-behavior?sequence?encoder)對用戶多行為序列進行建模，得到用戶在不同行為空間下的偏好。

2、這類方法雖然可以捕捉用戶不同行為之間的聯系，并得到用戶在不同行為空間下的偏好。但是，不同行為空間下的偏好可能會互相影響，導致沒有區分性。尤其是當某一類行為較為稀疏，稠密的行為會干擾稀疏行為下的用戶偏好學習。例如，mbn模型是對電商中的多行為進行建模，包括“點擊”、“購買”、“加購”以及“收藏”行為。其中，“購買”、“加購”以及“收藏”行為極為稀疏，在ijcai15數據集中，“加購”行為僅占所有行為的0.14％。若不對用戶不同行為空間下學到的用戶偏好進行區分，“加購”行為空間下的用戶偏好會被“點擊”行為影響。

技術實現思路

1、本專利技術的目的在于解決現有技術中存在的問題，并提供一種基于對比學習框架的短視頻推薦方法及系統。本專利技術的方法針對在短視頻推薦領域中多行為編碼器在對用戶多行為序列建模時，忽視了用戶在不同行為空間下的偏好區分性。本方法旨在加大用戶在不同行為空間下的偏好的區分性，進而提升推薦效果。在短視頻推薦領域中，多行為編碼器通常將用戶的“跳過”和“點擊”行為序列作為一個整體輸入到模型中來抽取用戶的正面和負面偏好。這類編碼器為了捕獲“跳過”和“點擊”行為之間的聯系，從一個行為序列中同時抽取用戶正面和負面偏好，導致用戶的正面和負面偏好區分度降低。本方法從兩種技術思路來設計對比任務來增大用戶正面和負面偏好的區分度，第一個對比任務是直接讓學習到的用戶正面和負面偏好具有區分度。第一個對比任務只能保證模型輸出的結果的區分性，但不能保證模型學習過程中正面、負面偏好之間的區分性。因此，設計第二個對比任務使得在用戶正面、負面偏好的變化過程中，用戶前后正面偏好的區分度小于前后正負偏好的相似度，同理，用戶前后負面偏好的區分度也小于前后正負偏好的相似度。

2、為了實現上述專利技術目的，本專利技術具體采用如下技術方案：

3、第一方面，本專利技術提供了一種基于對比學習框架的短視頻推薦方法，其包括以下步驟：

4、將待進行短視頻推薦的用戶歷史行為序列以及目標短視頻輸入到經過訓練的短視頻推薦模型中，輸出用戶點擊目標短視頻的概率，完成短視頻的推薦；其中，用戶歷史行為序列由用戶點擊行為子序列和用戶跳過行為子序列組成；

5、所述短視頻推薦模型采用對比學習方法進行訓練，在短視頻推薦模型的訓練中，將獲取到的用戶歷史行為序列輸入到短視頻推薦模型中的多行為序列編碼器，多行為序列編碼器從用戶歷史行為序列中抽取用戶正面偏好和用戶負面偏好，計算用戶正面偏好和用戶負面偏好各自對應的偽標簽，由設計好的兩個對比任務對用戶正面偏好和用戶負面偏好進行解耦，解耦的方式是使用戶正面偏好與用戶負面偏好均與各自對應的偽標簽更接近，將用戶正面偏好和用戶負面偏好進行融合得到融合偏好后，將融合偏好和目標短視頻輸入到預測層，得到用戶點擊目標短視頻的概率，將用戶點擊目標短視頻的概率和用戶點擊目標短視頻的概率真實值之間的交叉熵損失作為推薦任務損失，將推薦任務損失和每個對比任務的損失函數加權求和作為總損失，基于最小化總損失對短視頻推薦模型的參數進行更新；

6、在第一個對比任務中，將用戶正面偏好、用戶負面偏好、用戶正面偏好的偽標簽以及用戶負面偏好的偽標簽各自經過第一mlp層，對應得到映射后的用戶正面偏好、映射后的用戶負面偏好、用戶正面偏好的偽標簽表征以及用戶負面偏好的偽標簽表征，基于infonce損失函數計算第一個對比任務的損失函數并將其作為第一對比學習損失；

7、在第二個對比任務中，將多行為序列編碼器每一個單元輸出的隱狀態均經過第二mlp層，每一個單元對應得到一個映射后的隱狀態，將用戶正面偏好以及用戶負面偏好經過第二mlp層，對應得到投影后的用戶正面偏好和投影后的的用戶負面偏好，基于infonce損失函數計算第二個對比任務的損失函數并將其作為第二對比學習損失。

8、在上述方案基礎上，各步驟可以采用如下優選的具體方式實現。

9、作為上述第一方面的優選，用戶正面偏好和用戶負面偏好各自對應的偽標簽表征的具體計算過程如下：將用戶點擊行為子序列進行平均池操作，得到用戶正面偏好的偽標簽，將用戶跳過行為子序列進行平均池操作，得到用戶負面偏好的偽標簽。

10、作為上述第一方面的優選，用戶正面偏好和用戶負面偏好各自對應的偽標簽表征的具體計算過程如下：將用戶點擊行為子序列輸入到訓練好的點擊行為子序列編碼器中，得到用戶正面偏好的偽標簽，將用戶跳過行為子序列輸入到訓練好的跳過行為子序列編碼器中，得到用戶負面偏好的偽標簽。

11、作為上述第一方面的優選，所述第一對比學習損失的函數形式為：

12、

13、其中，表示映射后的用戶正面偏好；表示用戶正面偏好的偽標簽表征；表示映射后的用戶負面偏好；表示用戶負面偏好的偽標簽表征；表示infonce損失函數，其函數形式為：

14、

15、其中，sim()表示cosine相似度函數；q,k+,k-是infonce損失函數的輸入；τ是溫度超參數。

16、作為上述第一方面的優選，在多行為序列編碼器第t個單元的一次循環過程中，由單元更新函數對第t-1個單元的隱狀態進行處理，得到第t個單元的隱狀態。

17、進一步地，所述多行為序列編碼器第t個單元的一次循環過程為：

18、

19、其中，p∈{+,-}是占位符，是p的邏輯非操作；表示第t個單元的隱狀態；f(·)是單元更新函數；表示第t個單元的指示函數；xt是第t個時間步下的輸入短視頻表征；均表示第t-1個單元的隱狀態。

20、作為上述第一方面的優選，當第t個單元的指示函數時，第t個單元的單元更新函數由第t-1個單元的指示函數、第t個單元隱藏層的輸出、更新門的輸出以及候選激活向量進行表示。

21、進一步地，當第t個單元的指示函數時，第t個單元的單元更新函數f(·)表示為：

22、

23、其中，ht-1表示第t-1個單元隱藏層的輸出；均表示第t-1個單元的指示函數；表示更新門的輸出；表示重置門的輸出；表示候選激活向量；t表示向量轉置本文檔來自技高網...

【技術保護點】

1.一種基于對比學習框架的短視頻推薦方法，其特征在于，包括以下步驟：

2.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，用戶正面偏好和用戶負面偏好各自對應的偽標簽表征的具體計算過程如下：將用戶點擊行為子序列進行平均池操作，得到用戶正面偏好的偽標簽，將用戶跳過行為子序列進行平均池操作，得到用戶負面偏好的偽標簽。

3.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，用戶正面偏好和用戶負面偏好各自對應的偽標簽表征的具體計算過程如下：將用戶點擊行為子序列輸入到訓練好的點擊行為子序列編碼器中，得到用戶正面偏好的偽標簽，將用戶跳過行為子序列輸入到訓練好的跳過行為子序列編碼器中，得到用戶負面偏好的偽標簽。

4.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，所述第一對比學習損失的函數形式為：

5.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，在多行為序列編碼器第t個單元的一次循環過程中，由單元更新函數對第t-1個單元的隱狀態進行處理，得到第t個單元的隱狀態。>

6.如權利要求5所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，當第t個單元的指示函數時，第t個單元的單元更新函數由第t-1個單元的指示函數、第t個單元隱藏層的輸出、更新門的輸出以及候選激活向量進行表示。

7.如權利要求4所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，所述第二對比學習損失的函數形式為：

8.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，采用加權求和的方式將用戶正面偏好和用戶負面偏好進行融合，或者采用將用戶正面偏好和用戶負面偏好直接相加的方式進行融合，以得到融合偏好。

9.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，所述預測層由兩層MLP層依次級聯而成。

10.一種基于對比學習框架的短視頻推薦系統，其特征在于，包括：

...

【技術特征摘要】

1.一種基于對比學習框架的短視頻推薦方法，其特征在于，包括以下步驟：

4.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，所述第一對比學習損失的函數形式為：

5.如權利要求1所述的一種基于對比學習框架的短視頻推薦方法，其特征在于，在多行...

【專利技術屬性】
技術研發人員：胡海洋，顧盼，
申請(專利權)人：紹興映謐信息科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

基于超循環網絡和多任務訓練的短視頻推...

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術