System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及視頻推薦,特別地涉及一種基于大數據的短視頻推薦方法及系統。
技術介紹
1、在現有的技術中,短視頻推薦主要基于用戶的瀏覽歷史、點贊、評論等行為數據,以及視頻的內容特征進行推薦,由于現有的推薦系統多數是基于傳統的機器學習算法,采用比較單一的視頻推薦方法,無法針對不同的用戶制定更為個性化的推薦策略,不能很好地適應用戶的興趣變化和需求變化,難以提供符合用戶需求和興趣的高質量推薦內容,難以提高用戶的滿意度和留存率。
技術實現思路
1、針對上述問題,本申請提供一種基于大數據的短視頻推薦方法及系統,根據獲取的視頻g相關數據得到推送信息,根據推送信息推送視頻,針對不同的用戶制定更為個性化的推薦策略,提供符合用戶需求和興趣的高質量推薦內容,實時更新推薦模型以提高用戶的滿意度和留存率。
2、作為本申請的一個方面,提供一種基于大數據的短視頻推薦方法,包括:
3、s1:獲取用戶對當前觀看視頻的操作信息,并與興趣操作列表進行匹配;
4、s2:若是與興趣操作列表中的任意一項或多項操作匹配成功,則將該視頻記為視頻g,進入s3;否則,返回s1;
5、s3:獲取視頻g中的文本信息,其中文本信息包括視頻文案和評論文本,并根據自定義詞典對視頻文案和評論文本進行分詞,將得到的詞語與停用詞表進行匹配,將未匹配成功的詞語記為特征詞da,由特征詞da組成特征詞集合d,基于特征詞集合d得到詞典向量;
6、s4:基于詞典向量,通過tf-idf算法計算每個特征
7、s5:根據特征詞暫存集合e內部的特征詞da與標簽數據庫的匹配結果,將與標簽數據庫匹配成功的特征詞da記為關鍵詞,并對其進行分類,其中一個標簽對應多個關鍵詞,得到標簽hc對應的關鍵詞集合,c=1、2、?、e,計算標簽hc對應的相關度值jc,jc為每個關鍵詞集合內關鍵詞tf-idf值的平均值,根據相關度值jc得到相關度值集合k1{le、le-1、?lc?、l1},lc為相關度值集合k1內任意相關度值,相關度值集合k1由相關度值jc從大到小依次排序得到,由相關度值集合k1得到對應排列順序的標簽集合,并更新記為標簽集合f1{he、he-1、?hc?、h1};
8、s6:從未觀看視頻庫中選擇標簽集合fp{he、he-1、?hc?、h1}內每個標簽hc的代表視頻集mh,h=1、2、?、e,p的初始值為1,p用于作為編號選擇標簽集合,根據標簽集合fp{he、he-1、?hc?、h1}內部的標簽順序從左往右依次從對應代表視頻集mh中隨機選取一個視頻,并將選擇的視頻依次記錄于推送視頻集合np{ξe、ξe-1、?ξc?、ξ1},從未觀看視頻庫中刪除推送視頻集合np內部視頻;
9、s7:根據推送視頻集合np{ξe、ξe-1、?ξc?、ξ1}內部的視頻順序從左往右依次將推送視頻集合np內的視頻推送給用戶;
10、s8:判斷推送視頻集合np內部所有視頻是否推送完成,若是推送完成,將推送視頻ξe更新記為視頻g,返回s3;否則,進入s9;
11、s9:繼續推送視頻集合np內部未推送的視頻,返回s8。
12、更為優選地,基于特征詞集合d得到詞典向量的步驟具體包括:
13、詞典向量的存在形式為:;b為特征詞集合d對應的詞頻向量,ia為特征詞da在文本信息中出現的次數,下標a表示特征詞集合d內總共有a個特征詞。
14、更為優選地,對于s4中將tf-idf值大于第一閾值β的特征詞da記錄于特征詞暫存集合e內的步驟,具體包括:
15、s4.1:獲取視頻庫中所有視頻的個數并記為c,令j=?,j為特征詞da出現次數總和;
16、s4.2:令k=1,k用于作為編號選取特征詞;
17、s4.3:選擇特征詞dk及其在文本信息中的出現次數ik,獲取視頻庫中包含特征詞dk的所有視頻的數量并記為;
18、s4.4:令dk,tf-idf=;
19、s4.5:判斷“dk,tf-idf>β”是否成立,若是“dk,tf-idf>β”成立,則將特征詞dk記錄于特征詞暫存集合e,進入s4.6;若是“dk,tf-idf>β”不成立,進入s4.6;
20、s4.6:判斷“k≥a”是否成立,若是“k≥a”成立,則開始s4中的標簽匹配過程;若是“k≥a”不成立,則將k+1賦值給k,返回s4.3。
21、更為優選地,對于s5,計算標簽hc對應的相關度值jc,根據相關度值jc得到相關度值集合k1,具體步驟包括:
22、s5.1:令m=1,m用于作為編號選取關鍵詞集合;
23、s5.2:獲取關鍵詞集合內部的關鍵詞個數并記為,將其內部的關鍵詞的tf-idf值記為pm,n,tf-idf,n=1、2、?、、,n為關鍵詞集合內部關鍵詞的tf-idf值的標號,qm=,qm即為標簽hm對應的相關度值,將qm記錄于集合內;
24、s5.3:判斷“m≥e”是否成立,若是“m≥e”成立,則進入s5.4;若是“m≥e”不成立,則將m+1賦值給m,返回s5.2;
25、s5.4:根據集合內相關度值qm從大到小依次排序,得到相關度值集合k1{le、le-1、?lc?、l1}。
26、更為優選地,對于s8和s9,還包括進一步對視頻推薦進行優化,具體步驟如下:
27、s8.1:將相關度值集合k1記為相關度值集合w1;
28、s8.2:在推送視頻集合np內視頻的推送過程當中,實時獲取用戶對當前觀看視頻的操作信息,并與興趣操作列表進行匹配,若是與興趣操作列表中的任意一項或多項操作匹配成功,則將該視頻放入感興趣視頻列表內;
29、s8.3:判斷推送視頻集合np內部所有視頻是否推送完成,若是推送完成,進入s8.4;否則,繼續推送視頻集合np內部未推送的視頻,返回s8.2;
30、s8.4:判斷感興趣視頻列表內部的視頻數量是否為零,若是感興趣視頻列表內部的視頻數量為零,執行s6-s7步驟,返回s8.2;若是感興趣視頻列表內部的視頻數量不為零,進入s8.5;
31、s8.5:將感興趣視頻列表內部的視頻均更新記為視頻g,執行s3-s5步驟,將得到的相關度值集合k1記為xp,將得到的標簽集合f1更新記為標簽集合tp{ur、ur-1、?、u1},字母r表示標簽集合tp內標簽的數量總共有r個,進入s8.6;
32、s8.6:判斷“p=1”是否成立,若是“p=1”成立,則由相關度值集合w1得到其對應的標簽集合f1;若是“p=1”不成立,則進入s8.7;
3本文檔來自技高網...
【技術保護點】
1.一種基于大數據的短視頻推薦方法,其特征在于,包括:
2.根據權利要求1所述的一種基于大數據的短視頻推薦方法,其特征在于,基于特征詞集合D得到詞典向量的步驟具體包括:
3.根據權利要求2所述的一種基于大數據的短視頻推薦方法,其特征在于,對于S4中將TF-IDF值大于第一閾值β的特征詞da記錄于特征詞暫存集合E內的步驟,具體包括:
4.根據權利要求3所述的一種基于大數據的短視頻推薦方法,其特征在于,對于S5,計算標簽Hc對應的相關度值Jc,根據相關度值Jc得到相關度值集合K1,具體步驟包括:
5.根據權利要求4所述的一種基于大數據的短視頻推薦方法,其特征在于,對于S8和S9,還包括進一步對視頻推薦進行優化,具體步驟如下:
6.根據權利要求5所述的一種基于大數據的短視頻推薦方法,其特征在于,包括:停用詞表為哈工大停用詞表、復旦停用詞表、停用詞表中的任意一個。
7.一種基于大數據的短視頻推薦系統,其特征在于,所述系統應用上述權利要求1-6任一項所述的一種基于大數據的短視頻推薦方法,包括:
8.根據權利
...【技術特征摘要】
1.一種基于大數據的短視頻推薦方法,其特征在于,包括:
2.根據權利要求1所述的一種基于大數據的短視頻推薦方法,其特征在于,基于特征詞集合d得到詞典向量的步驟具體包括:
3.根據權利要求2所述的一種基于大數據的短視頻推薦方法,其特征在于,對于s4中將tf-idf值大于第一閾值β的特征詞da記錄于特征詞暫存集合e內的步驟,具體包括:
4.根據權利要求3所述的一種基于大數據的短視頻推薦方法,其特征在于,對于s5,計算標簽hc對應的相關度值jc,根據相關度值jc得到相關度值集合k1,具體步驟包括:
5.根據權利...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。