本申請公開了一種基于多層預測采樣的引文網絡作者合作鏈接預測方法及裝置,所述方法包括:獲取原始引文網絡已知數據;基于原始引文網絡已知數據,構建引文網絡作者關系張量和多層引文網絡作者鏈接的隱特征矩陣;基于所述引文網絡作者關系張量,構建引文網絡作者關系預測的目標損失函數,采用所述目標損失函數對每一層引文網絡作者鏈接的隱特征矩陣進行訓練并迭代優化;基于訓練后的每一層引文網絡作者鏈接的隱特征矩陣,獲得引文網絡作者關系鏈路的預測結果。本發明專利技術專門作用于張量作者關系數據,能夠進行符合統計規律的、準確度高的作者關系鏈接預測。可廣泛應用在信息檢索、網絡分析等領域。
【技術實現步驟摘要】
本專利技術涉及本專利技術涉及信息檢索與網絡分析領域,尤其涉及一種基于多層預測采樣的引文網絡作者合作鏈接預測方法及裝置。
技術介紹
1、隨著各類網絡的快速發展,引文網絡嵌入逐漸成為研究的熱點,旨在學習節點表示的同時,保留網絡的結構和語義信息。引文網絡包含多種類型的節點以及它們之間的多樣化關系,這些關系在現實世界中廣泛存在。作為引文網絡的重要組成部分,作者節點之間存在多種關聯,例如:兩位作者共同撰寫論文,或者他們的論文包含相同的關鍵詞等。通過引文網絡嵌入表示,我們可以對作者之間的合作鏈接進行預測。因此,如何有效利用引文網絡中的多種節點關系來進行作者合作鏈接的預測,成為急需解決的關鍵問題。
2、目前,許多研究者通常通過提取特征并訓練模型來計算鏈路的權重概率,以解決鏈路預測問題。然而,這些方法往往依賴于元路徑的選擇,而元路徑選擇在很大程度上依賴于領域知識。此外,神經網絡模型的訓練通常需要大量的計算資源和數據,當處理大規模網絡時,計算能力和數據獲取的局限性成為顯著瓶頸。現實中的引文網絡數據往往非常稀疏,這會對模型的性能和預測準確性產生影響。因此,如何在引文網絡中有效地預測作者合作鏈接,并提高預測的精度和可靠性,已成為研究者們關注的焦點問題。
技術實現思路
1、基于此,本專利技術所要解決的技術問題在于提供一種基于多層預測采樣的引文網絡作者合作鏈接預測方法及裝置。
2、第一方面,本申請實施例提供了一種基于多層預測采樣的引文網絡作者合作鏈接預測方法,包括如下步驟:
<
p>3、s1:獲取原始引文網絡已知數據;4、s2:基于原始引文網絡已知數據,構建引文網絡作者關系張量和多層引文網絡作者鏈接的隱特征矩陣;
5、s3:基于所述引文網絡作者關系張量,構建引文網絡作者關系預測的目標損失函數,采用所述目標損失函數對每一層引文網絡作者鏈接的隱特征矩陣進行訓練并迭代優化所述目標損失函數;
6、s4:基于訓練后的每一層引文網絡作者鏈接的隱特征矩陣,獲得引文網絡作者關系鏈路的預測結果。
7、優選地,所述引文網絡已知數據以四元組的形式進行存儲,四元組表示為w=(a1,a2,rel,l);
8、其中,a1和a2分別表示引文網絡中不同的作者,rel表示作者a1和作者a2之間的元路徑關系,l表示作者a1和作者a2通過元路徑關系rel的作者合作的關系鏈接值。
9、優選地,所述步驟s2包括:
10、s21:將所述引文網絡已知數據中的所有的四元組w=(a1,a2,rel,l)按照元路徑關系rel劃分為k個時間段數據;
11、s22:基于rel=1的四元組w(1)=(a1,a2,1,l)得到w(1)的數據(a1,a2,l),并根據w(1)構造元路徑關系rel=1的切片矩陣t(1);
12、s23:根據其余元路徑關系rel依次基于上述步驟從四元組w=(a1,a2,rel,l)中依次選擇出四元組w(2)、w(3)、…、w(k),分別構造切片矩陣t(2)、t(3)、…、t(k);
13、s24:將k個所述切片矩陣按照劃分的元路徑關系的先后順序從小到大依次排列,構建引文網絡作者關系張量y;
14、s25:基于所述引文網絡已知數據,構建多層引文網絡作者鏈接的隱特征矩陣g、d、q;
15、其中,切片矩陣t(1)的大小為i行j列,i、j均為作者的數,k為正整數,切片矩陣t(1)中的元素t(1)ij表示在第1種關系下第i個作者和第j個作者的關系鏈接值,1≤i≤i,1≤j≤j,y∈ri×j×k,r表示實數集;其中,隱特征矩陣g為的大小為i行r列、隱特征矩陣d的大小為j行r列,隱特征矩陣q的大小為k行r列。
16、優選地,所述步驟s3包括:
17、s31:初始化引文網絡作者關系鏈路預測過程中涉及的過程參數;
18、s32:根據引文網絡作者關系張量y和多層引文網絡作者鏈接的隱特征矩陣g、d、q,構建引文網絡作者關系鏈路預測的目標損失函數;
19、s33:采用所述目標損失函數對每一層引文網絡作者鏈接的隱特征矩陣進行訓練并迭代優化所述目標損失函數;
20、s34:判斷所述目標損失函數是否滿足迭代終止條件,若是,則終止迭代,將所述目標損失函數作為迭代優化后的目標損失函數并輸出;若否,則繼續迭代。
21、優選地,所述過程參數包括:引文網絡作者關系張量y,隱特征矩陣g、d、q;決定隱特征矩陣g、d、q的隱特征空間維數的秩r;多層采樣層數n;最大訓練迭代輪數max?round;訓練過程中的迭代輪數控制變量round;收斂終止閾值τ。
22、優選地,步驟s32包括:
23、s321:遍歷多層采樣層數n∈{1,…,n},針對每一層構造的引文網絡作者關系張量y以及所述過程參數,利用目標函數訓練并獲取每一層引文網絡作者連接的隱特征矩陣gn,dn,qn;
24、s322:以歐式距離作為優化目標對所述目標函數進行迭代優化。
25、優選地,步驟s22具體通過sgd算法對第n層的隱特征矩陣gn,dn,qn訓練迭代,包括:
26、(1)固定dn和qn,通過公式(1)訓練gn:
27、
28、(2)固定gn和qn,通過公式(2)訓練dn:
29、
30、(3)固定gn和dn,通過公式(3)訓練qn:
31、
32、其中,←為賦值操作,gn,dn,qn分別代表第n層對應的隱特征矩陣,分別表示第n層的隱特征矩陣gn,dn,qn對應的單個元素,η為學習率,n為采樣層數;yijk表示引文網絡作者關系張量y中第i個作者在第k個元路徑關系上與第j個作者合作的關系鏈接值;表示引文網絡生成數據的最終預測值;
33、其中,ε為目標損失函數,通過如下公式(4)表示:
34、
35、其中,目標損失函數ε在第n層時在引文網絡已知數據和引文網絡生成數據的情況下的單個元素的瞬時損失通過如下公式表示:
36、
37、其中,α和β代表權重,為未知作者gi在對應元路徑關系qk下鏈接作者dj的關系鏈接預測值,通過如下公式表示:
38、
39、優選地,所述步驟s34的迭代終止條件為迭代輪數控制變量round達到最大訓練迭代輪數max?round或本輪迭代結束后上一輪引文網絡的預測結果與本輪迭代結束后的引文網絡的預測結果之差小于收斂終止閾值τ。
40、優選地,所述步驟s4包括:
41、將所述引文網絡作者關系張量y劃分的k個切片矩陣,依次順序遍歷每一行,從兩個引文網絡已知數據中隨機選擇一個空白位置,進行未知作者關系的預測并獲得關系連接預測值,再通過非線性激活函數對該關系鏈接預測值進行映射,獲得最終預測值;
42、按切片按行順序不斷選擇新的未知作者關系重復上述步驟直至滿足預設條本文檔來自技高網
...
【技術保護點】
1.一種基于多層預測采樣的引文網絡作者合作鏈接預測方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的方法,其特征在于,所述引文網絡已知數據以四元組的形式進行存儲,四元組表示為W=(a1,a2,rel,l);
3.根據權利要求2所述的方法,其特征在于,所述步驟S2包括:
4.根據權利要求3所述的方法,其特征在于,所述步驟S3包括:
5.根據權利要求4所述的方法,其特征在于,所述過程參數包括:引文網絡作者關系張量Y,隱特征矩陣G、D、Q;決定隱特征矩陣G、D、Q的隱特征空間維數的秩R;采樣層數N;最大訓練迭代輪數max?Round;訓練過程的迭代輪數控制變量round;收斂終止閾值τ。
6.根據權利要求5所述的方法,其特征在于,步驟S32包括:
7.根據權利要求6所述的方法,其特征在于,步驟S322為通過SGD算法對第n層的隱特征矩陣Gn,Dn,Qn訓練迭代,包括:
8.根據權利要求7所述的方法,其特征在于,所述步驟S34的迭代終止條件為迭代輪數控制變量round達到最大訓練迭代輪數max?Round或本輪迭代結束后上一輪引文網絡的預測結果與本輪迭代結束后的引文網絡的預測結果之差小于收斂終止閾值τ。
9.根據權利要求8所述的方法,其特征在于,所述步驟S4包括:
10.一種基于多層預測采樣的引文網絡作者合作鏈接預測裝置,其特征在于,包括:
...
【技術特征摘要】
1.一種基于多層預測采樣的引文網絡作者合作鏈接預測方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的方法,其特征在于,所述引文網絡已知數據以四元組的形式進行存儲,四元組表示為w=(a1,a2,rel,l);
3.根據權利要求2所述的方法,其特征在于,所述步驟s2包括:
4.根據權利要求3所述的方法,其特征在于,所述步驟s3包括:
5.根據權利要求4所述的方法,其特征在于,所述過程參數包括:引文網絡作者關系張量y,隱特征矩陣g、d、q;決定隱特征矩陣g、d、q的隱特征空間維數的秩r;采樣層數n;最大訓練迭代輪數max?round;訓練過程的迭代輪數控制變量round;收斂終...
【專利技術屬性】
技術研發人員:吳昊,劉志剛,李蔚凌,鐘裕榮,
申請(專利權)人:東莞理工學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。