System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及多域數(shù)據(jù)交互的,更具體的,涉及一種基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法及系統(tǒng)。
技術(shù)介紹
1、現(xiàn)有的圖遷移學(xué)習(xí)的方法大多數(shù)是基于領(lǐng)域自適應(yīng)實(shí)現(xiàn)的,這些方法在圖遷移學(xué)習(xí)領(lǐng)域上取得了一定的效果,但仍存在一些缺陷,這些方法沒有考慮域間樣本的潛在關(guān)系,無法編碼有效的結(jié)構(gòu)信息;并且,結(jié)構(gòu)信息的缺失,使得豐富的屬性數(shù)據(jù)無法被充分利用,影響節(jié)點(diǎn)表示的學(xué)習(xí),繼而影響數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性。
2、現(xiàn)有一種基于細(xì)粒度領(lǐng)域自適應(yīng)的圖遷移學(xué)習(xí)方法,包括:采集源域和目標(biāo)域中的樣本,并分別標(biāo)注源域和目標(biāo)域中的部分或全部樣本,獲得帶標(biāo)簽的樣本;為帶標(biāo)簽的樣本分別構(gòu)建源域圖和目標(biāo)域圖;將源域圖中帶標(biāo)簽的樣本劃分為訓(xùn)練集和驗(yàn)證集,將目標(biāo)域圖中帶標(biāo)簽的樣本視作測(cè)試集;使用源域圖的訓(xùn)練集及目標(biāo)域樣本訓(xùn)練圖神經(jīng)網(wǎng)絡(luò),得到至少兩個(gè)參數(shù)不同的圖神經(jīng)網(wǎng)絡(luò);使用源域圖的驗(yàn)證集挑選圖神經(jīng)網(wǎng)絡(luò);使用挑選出的圖神經(jīng)網(wǎng)絡(luò)為目標(biāo)域的樣本預(yù)測(cè)標(biāo)簽;通過對(duì)比目標(biāo)域中全部帶標(biāo)簽樣本的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽,得到評(píng)價(jià)結(jié)果;該方法的原理仍是基于傳統(tǒng)領(lǐng)域自適應(yīng)的方法,通過減小兩個(gè)網(wǎng)絡(luò)之間的數(shù)據(jù)分布差異,從而將現(xiàn)有網(wǎng)絡(luò)上的標(biāo)簽信息傳遞到新網(wǎng)絡(luò)上以提升分類效果。圖是一種特殊的數(shù)據(jù),除了節(jié)點(diǎn)的屬性之外,還有蘊(yùn)含在邊中的結(jié)構(gòu)信息,而這些信息對(duì)于節(jié)點(diǎn)的表征學(xué)習(xí)以及分類都是至關(guān)重要的,這是傳統(tǒng)方法難以解決的一個(gè)問題。
3、綜上所述,現(xiàn)有技術(shù)存在忽略邊中的結(jié)構(gòu)信息的問題,因此,如何專利技術(shù)一種考慮邊結(jié)構(gòu)的多域數(shù)據(jù)分類方法,是本
亟需解決的技術(shù)問題。
技術(shù)實(shí)
1、本專利技術(shù)為了解決現(xiàn)有分類技術(shù)忽略邊中的結(jié)構(gòu)信息的問題,提供了一種基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法及系統(tǒng),其具有能夠提升數(shù)據(jù)表征學(xué)習(xí)效率和分類準(zhǔn)確率的特點(diǎn)。
2、為實(shí)現(xiàn)上述本專利技術(shù)目的,采用的技術(shù)方案如下:
3、一種基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,包括以下具體步驟:
4、s1:獲取不同域的帶屬性的數(shù)據(jù);
5、s2:對(duì)帶屬性的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造圖數(shù)據(jù);
6、s3:考慮域內(nèi)和域間搬運(yùn)的代價(jià)及約束條件,設(shè)置最優(yōu)傳輸目標(biāo)函數(shù)、得到域間樣本最優(yōu)傳輸方案;
7、s4:利用域間樣本最優(yōu)傳輸方案合并域;
8、s5:將合并后的域輸入到圖神經(jīng)網(wǎng)絡(luò),獲得節(jié)點(diǎn)表示;
9、具體的,通過將合并后的域輸入到圖神經(jīng)網(wǎng)絡(luò)后,圖神經(jīng)網(wǎng)絡(luò)的每一層將合并后的域的鄰接矩陣和原始屬性輸入到圖神經(jīng)網(wǎng)絡(luò)中,獲得節(jié)點(diǎn)表示;
10、s6:基于節(jié)點(diǎn)表示,獲得分類結(jié)果。
11、優(yōu)選的,所述s1中,根據(jù)標(biāo)簽信息的有無,將帶屬性數(shù)據(jù)劃分為源域和目標(biāo)域。
12、進(jìn)一步的,所述s2中對(duì)帶屬性的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造圖數(shù)據(jù)的具體方法為:
13、將帶屬性的數(shù)據(jù)中的每個(gè)樣本作為節(jié)點(diǎn);
14、若樣本間天然存在指向關(guān)系,則將其作為依據(jù)連接兩個(gè)點(diǎn)作為邊;否則,計(jì)算樣本屬性間的距離,將其作為兩個(gè)點(diǎn)之間邊的權(quán)重,最后將邊存放于鄰接矩陣中。
15、更進(jìn)一步的,所述步驟s3中,考慮域內(nèi)和域間搬運(yùn)的代價(jià)及約束條件,設(shè)置最優(yōu)傳輸目標(biāo)函數(shù)、得到域間樣本最優(yōu)傳輸方案,其具體步驟為:
16、s31:設(shè)置最優(yōu)傳輸目標(biāo)函數(shù):
17、將數(shù)據(jù)在域內(nèi)和域間搬運(yùn)的代價(jià)及約束條件作為輸入;
18、搬運(yùn)代價(jià)具體為:
19、
20、其中,cu表示域u內(nèi)的搬運(yùn)代價(jià),c(·,·)表示樣本之間的距離度量,在圖上定義為兩個(gè)節(jié)點(diǎn)之間的最短路徑,表示域u內(nèi)的第i個(gè)樣本;m表示域間的搬運(yùn)代價(jià),d(·,·)表示屬性之間的距離度量,定義為兩個(gè)屬性之間的歐氏距離,表示源域s內(nèi)第i個(gè)樣本的屬性,表示目標(biāo)域t內(nèi)第j個(gè)樣本的屬性;
21、約束條件具體為:
22、μs=π1,μt=πt1
23、其中,μu表示域u內(nèi)的樣本的貢獻(xiàn)度,π表示最優(yōu)傳輸方案,(·)t表示矩陣的轉(zhuǎn)置,1為元素值全為1的列向量;
24、目標(biāo)函數(shù)具體為:
25、
26、其中,π表示傳輸方案,π*表示傳輸方案的最優(yōu)值,<·,·>表示輸入之間的內(nèi)積,α表示調(diào)節(jié)參數(shù),||·||表示l2范數(shù);
27、s32:對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,獲得最優(yōu)傳輸方案:
28、在第i步時(shí),計(jì)算目標(biāo)函數(shù)對(duì)第i-1步的梯度:
29、
30、線性規(guī)劃求解問題:
31、
32、線搜索得到權(quán)重,更新傳輸方案:
33、
34、其中,π(i)為第i步的傳輸方案,τ(i)為第i步的權(quán)重。
35、更進(jìn)一步的,所述步驟s4中,利用域間樣本最優(yōu)傳輸方案合并域,具體方法為:
36、s41:利用最優(yōu)傳輸方案,將屬性由源域搬運(yùn)至目標(biāo)域,作為源域數(shù)據(jù)在目標(biāo)域上的最優(yōu)表示,與目標(biāo)域樣本屬性協(xié)同:
37、搬運(yùn)源域?qū)傩跃唧w為:
38、
39、其中,為搬運(yùn)后源域s樣本的屬性,diag(·)-1表示保留矩陣的對(duì)角元素并求逆,π為最優(yōu)傳輸方案,1為元素值全為1的列向量,xt為目標(biāo)域t樣本的屬性;
40、合并源域和目標(biāo)域?qū)傩跃唧w為:
41、
42、其中,為合并后所有樣本的屬性;
43、s42:利用最優(yōu)傳輸方案,將結(jié)構(gòu)由源域搬運(yùn)至目標(biāo)域,作為源域數(shù)據(jù)在目標(biāo)域上的最優(yōu)表示,與目標(biāo)域樣本間結(jié)構(gòu)協(xié)同:
44、搬運(yùn)源域結(jié)構(gòu)具體為:
45、
46、其中,為搬運(yùn)后源域s樣本的鄰接矩陣,μs表示源域s內(nèi)的樣本的貢獻(xiàn)度,π為最優(yōu)傳輸方案,at為目標(biāo)域t樣本的鄰接矩陣,(·)t表示矩陣的轉(zhuǎn)置;
47、合并源域和目標(biāo)域結(jié)構(gòu)具體為:
48、
49、其中,為合并后所有樣本間的鄰接矩陣。
50、更進(jìn)一步的,所述步驟s5中,通過將合并后的域輸入到圖神經(jīng)網(wǎng)絡(luò)后,圖神經(jīng)網(wǎng)絡(luò)的每一層將合并后的域的鄰接矩陣和原始屬性輸入到圖神經(jīng)網(wǎng)絡(luò)中,獲得節(jié)點(diǎn)表示,具體為:
51、s51:將合并后的域輸入到圖神經(jīng)網(wǎng)絡(luò),圖神經(jīng)網(wǎng)絡(luò)的每一層將每個(gè)節(jié)點(diǎn)v從其鄰居節(jié)點(diǎn)接收消息:
52、
53、其中,aggregate()為聚合函數(shù),為節(jié)點(diǎn)v在第k+1次迭代的鄰居消息,為節(jié)點(diǎn)i在第k次迭代的表示;
54、s52:每個(gè)節(jié)點(diǎn)v使用接收到的消息更新其特征:
55、
56、其中,update()為更新函數(shù);
57、經(jīng)過若干層后,得到最終的節(jié)點(diǎn)表示。
58、更進(jìn)一步的,所述s6中,基于節(jié)點(diǎn)表示,獲得分類結(jié)果,具體為:
59、s61:基于節(jié)點(diǎn)表示,利用分類算法對(duì)分類器進(jìn)行訓(xùn)練,利用訓(xùn)練好的分類器對(duì)待分類的節(jié)點(diǎn)及邊進(jìn)行分類,獲得分類結(jié)果;
60、s62:采用交叉驗(yàn)證法對(duì)分類器的分類結(jié)果進(jìn)行驗(yàn)證。
61、更進(jìn)一步的,所述的聚合本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:包括以下具體步驟:
2.根據(jù)權(quán)利要求1所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述S1中,根據(jù)標(biāo)簽信息的有無,將帶屬性數(shù)據(jù)劃分為源域和目標(biāo)域。
3.根據(jù)權(quán)利要求2所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述S2中對(duì)帶屬性的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造圖數(shù)據(jù)的具體方法為:
4.根據(jù)權(quán)利要求3所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述步驟S3中,考慮域內(nèi)和域間搬運(yùn)的代價(jià)及約束條件,設(shè)置最優(yōu)傳輸目標(biāo)函數(shù)、得到域間樣本最優(yōu)傳輸方案,其具體步驟為:
5.根據(jù)權(quán)利要求4所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述步驟S4中,利用域間樣本最優(yōu)傳輸方案合并域,具體方法為:
6.根據(jù)權(quán)利要求5所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述步驟S5中,通過將合并后的域輸入到圖神經(jīng)網(wǎng)絡(luò)后,圖神經(jīng)網(wǎng)絡(luò)的每一層將合并后的域的鄰接矩陣和原始屬性輸入到圖神經(jīng)網(wǎng)絡(luò)中,獲得節(jié)點(diǎn)表示,具體為:
7.根據(jù)權(quán)利要求6所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其
8.根據(jù)權(quán)利要求6所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述的聚合函數(shù)AGGREGATE()具體為求和、平均或最大值任一種或多種函數(shù)。
9.根據(jù)權(quán)利要求6所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述的更新函數(shù)UPDATE()具體為求和、平均或最大值任一種或多種函數(shù)。
10.一種基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類系統(tǒng),其特征在于:包括以下模塊:數(shù)據(jù)采集模塊、預(yù)處理模塊、關(guān)系發(fā)現(xiàn)模塊、協(xié)同模塊、圖神經(jīng)網(wǎng)絡(luò)模塊、分類模塊;
...【技術(shù)特征摘要】
1.一種基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:包括以下具體步驟:
2.根據(jù)權(quán)利要求1所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述s1中,根據(jù)標(biāo)簽信息的有無,將帶屬性數(shù)據(jù)劃分為源域和目標(biāo)域。
3.根據(jù)權(quán)利要求2所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述s2中對(duì)帶屬性的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造圖數(shù)據(jù)的具體方法為:
4.根據(jù)權(quán)利要求3所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述步驟s3中,考慮域內(nèi)和域間搬運(yùn)的代價(jià)及約束條件,設(shè)置最優(yōu)傳輸目標(biāo)函數(shù)、得到域間樣本最優(yōu)傳輸方案,其具體步驟為:
5.根據(jù)權(quán)利要求4所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方法,其特征在于:所述步驟s4中,利用域間樣本最優(yōu)傳輸方案合并域,具體方法為:
6.根據(jù)權(quán)利要求5所述的基于最優(yōu)傳輸?shù)亩嘤驍?shù)據(jù)分類方...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:閆玉光,陳梓瀚,陳志偉,蔡瑞初,
申請(qǐng)(專利權(quán))人:廣東工業(yè)大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。