本發明專利技術公開了基于用戶意圖學習的交互式聚類質量提升方法,屬于人機交互、可視分析技術領域,包括以下步驟:步驟一:數據采集和存儲,并得到數據集D;步驟二:從D中抽取樣本得到樣本集S;步驟三:對S進行初始聚類,系統進行數據分析,通過可視化形式推薦聚類調整方案;步驟四:用戶調整C
【技術實現步驟摘要】
基于用戶意圖學習的交互式聚類質量提升方法
[0001]本專利技術屬于人機交互、可視分析
,尤其涉及基于用戶意圖學習的交互式聚類質量提升方法。
技術介紹
[0002]聚類分析起源于分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,于是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之后又將多元分析的技術引入到數值分類學形成了聚類分析。
[0003]現有的聚類算法大多依賴初始狀態的設定、輸入數據的質量以及用戶的先驗知識。用戶若想獲得高質量的輸出結果,就需要對數據科學和聚類原理有較深的理解。此外,現有方法容易引發以下問題:
[0004]一、初始參數如簇類數目、距離度量以及一些隨機量的設置,會顯著影響聚類結果,然而此類參數值的選擇缺乏明確的指導,需要用戶根據經驗或者重復的試錯過程來確定;
[0005]二、聚類是一種無監督的機器學習方法,其對應的各種模型屬于黑盒系統,缺乏專業背景知識的用戶難以理解其內在的工作機制,更無法對其進行改動從而優化性能;
[0006]三、由于輸入數據特征的明顯差異,同一套參數設置很難在跨領域場景中獲得穩定且高精度的結果,用戶需要在不同的應用上花費巨大的人力和算力來尋找合適的設置,即現有的聚類方法要想取得理想的結果,需要用戶具備堅實的專業知識,導致其難以實現跨學科、跨數據的應用。
技術實現思路
[0007]本專利技術的目的在于:為了解決
技術介紹
中列出的問題,提出基于用戶意圖學習的交互式聚類質量提升方法。
[0008]為了實現上述目的,本專利技術采用了如下技術方案:
[0009]基于用戶意圖學習的交互式聚類質量提升方法,包括以下步驟:
[0010]步驟一:數據采集和存儲:采集數據并得到數據集D={d1,d2,...,d
n
};
[0011]步驟二:小批量數據采樣:從數據集D中抽取r個樣本并得到樣本集S={s1,s2,...,s
r
};
[0012]步驟三:小樣本初始聚類:采用任意聚類方法,如kmeans對樣本集S進行初始聚類,并得到初步聚類結果C
S
,系統進行數據分析,通過可視化形式推薦聚類調整方案;
[0013]步驟四:交互式聚類調整:用戶根據經驗知識或系統推薦對聚類結果C
S
進行調整,得到C
’
S
,系統通過半監督方法學習用戶調整過程中反映的聚類意圖,并根據該聚類意圖對更大量的未調整樣本進行自動化聚類;
[0014]步驟五:聚類意圖傳播:構造包含所有樣本的全連接圖,以在當前小樣本與新數據樣本之間建立聯系,將聚類問題轉化為基于GNN模型的半監督學習問題,對未調整樣本進行自動校準;
[0015]步驟六:聚類結果評估:通過Kullback
–
Leibler(KL)散度來計算兩個概率分布之間的距離,樣本屬于各個簇的概率越接近,模型輸出的最終結果越不可靠。
[0016]優選的,步驟一中采集數據后需對該數據進行清洗、集成等預處理操作,再得到數據集D。
[0017]優選的,步驟二中從數據集D中抽取r個樣本的方法為均勻隨機采樣或藍噪音采樣。
[0018]優選的,步驟四中,用戶調節聚類結果C
S
時,將樣本顯示在顯示屏上,樣本通過t
?
SNE算法確定位置,特征類似的樣本會形成一個樣本簇類。
[0019]優選的,步驟四中對聚類結果C
S
的調整包括:
[0020]創建:若樣本不屬于當前的任何簇類,則將其拖至空白處,形成只包含一個樣本的新簇類;
[0021]移動:若與當前樣本特征相近的大多數樣本屬于另一個簇類,則將該樣本從當前簇拖至目標簇中;
[0022]刪除:若對當前樣本的歸屬情況不確定,可以選中該樣本并刪除;
[0023]合并:若兩個簇類的特征十分接近,可以拖動其中一個使兩者對應的展示區域相交進行合并;
[0024]分割:若一個簇類的特征劃分過于粗糙,可以通過套索工具選擇多個樣本,并將它們拖離當前簇類以構成新的簇類。
[0025]優選的,在用戶調節聚類結果C
S
時,系統采用從簇類到樣本的調整方案,該方案包括:
[0026]A、利用下列公式確定要調整的簇類:
[0027][0028][0029]rank(C)=variation(C)+1/(density(C)+μ)其中,density表示簇類內部樣本之間特征的統一程度,w
i,j
是樣本i和j的特征向量的余弦相似度,density的值越小,簇類內部的樣本特征越不統一,該簇越需要被調整;variation表示簇類內部樣本特征之間的變化程度,variation的值越高,樣本特征越不相似,該簇越需要被調整;rank的值表示簇類需要被調整的程度,rank值越大的簇類越需要調整。
[0030]B、確定要調整的樣本:根據A中確定的簇類,對其所包含的每個樣本查找k近鄰,k值與簇類的數目相同,同時計算這些k近鄰在各個簇類的分布情況{p1,p2,...,p
k
},系統將推薦樣本調整到分布概率最大的簇類。
[0031]優選的,聚類意圖的傳播通過神經網絡模型的訓練來實現,該模型包含兩層圖卷積層,每層都采用ReLU激活函數,最終經過softmax函數,得到每個樣本屬于各個簇類的概率;模型的損失函數L的定義同時使用已標注和未標注數據的信息,其中未標注數據信息所
占比重
ɑ
(.)隨著訓練輪數的增加而增大;
[0032]損失函數L的計算公式如下:
[0033][0034]ɑ
(.)的計算公式如下:
[0035][0036]優選的,在聚類結果評估中,新樣本所屬的簇由半監督模型輸出的概率分布P
c
={c1,c2,...,c
k
}決定,其中k代表簇的數目,c
i
(1<=i<=k)表示當前樣本屬于第i個簇類的可能性,樣本最終會被分配至可能性最大的簇類。
[0037]綜上所述,由于采用了上述技術方案,本專利技術的有益效果是:
[0038]1、本專利技術的核心在于使用用戶調整后的樣本的分組信息對更大量的未調整樣本進行自動化聚類;具體來說,就是在已調整和未調整樣本之間建立關系,使得已調整樣本的信息盡大可能只傳遞給與之具有較強關聯的樣本;本專利技術通過構建連通的隱式語義關系圖對所有樣本的關聯關系進行建模,特征相近的樣本之間相互連接,用戶意圖可以通過圖上的路徑從已標注小樣本傳遞至未標注新樣本,從而使得用戶無需具有較高的專業背景知識即可使用該方法,也有利于實現該方法的跨學科、跨數據的應用;同時,將無監督的聚類問題轉化為半監督學習問題,用本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.基于用戶意圖學習的交互式聚類質量提升方法,其特征在于,包括以下步驟:步驟一:數據采集和存儲:采集數據并得到數據集D={d1,d2,...,d
n
};步驟二:小批量數據采樣:從數據集D中抽取r個樣本并得到樣本集S={s1,s2,...,s
r
};步驟三:小樣本初始聚類:采用任意聚類方法,如kmeans對樣本集S進行初始聚類,并得到初步聚類結果C
S
,系統進行數據分析,通過可視化形式推薦聚類調整方案;步驟四:交互式聚類調整:用戶根據經驗知識或系統推薦對聚類結果C
S
進行調整,得到C
’
S
,系統通過半監督方法學習用戶調整過程中反映的聚類意圖,并根據該聚類意圖對更大量的未調整樣本進行自動化聚類;步驟五:聚類意圖傳播:構造包含所有樣本的全連接圖,以在當前小樣本與新數據樣本之間建立聯系,將聚類問題轉化為基于GNN模型的半監督學習問題,對未調整樣本進行自動校準;步驟六:聚類結果評估:通過Kullback
–
Leibler(KL)散度來計算兩個概率分布之間的距離,樣本屬于各個簇的概率越接近,模型輸出的最終結果越不可靠。2.根據權利要求1所述的基于用戶意圖學習的交互式聚類質量提升方法,其特征在于,步驟一中采集數據后需對該數據進行清洗、集成等預處理操作,再得到數據集D。3.根據權利要求1所述的基于用戶意圖學習的交互式聚類質量提升方法,其特征在于,步驟二中從數據集D中抽取r個樣本的方法為均勻隨機采樣或藍噪音采樣。4.根據權利要求1所述的基于用戶意圖學習的交互式聚類質量提升方法,其特征在于,步驟四中,用戶調節聚類結果C
S
時,將樣本顯示在顯示屏上,樣本通過t
?
SNE算法確定位置,特征類似的樣本會形成一個樣本簇類。5.根據權利要求4所述的基于用戶意圖學習的交互式聚類質量提升方法,其特征在于,步驟四中對聚類結果C
S
的調整包括:創建:若樣本不屬于當前的任何簇類,則將其拖至空白處,形成只包含一個樣本的新簇類;移動:若與當前樣本特征相近的大多數樣本屬于另一個簇類,則將該樣本從當前簇拖至目標簇中;刪除:若對當前樣本的歸屬情況不確定,可以選中該樣本并刪除;...
【專利技術屬性】
技術研發人員:王蘊哲,
申請(專利權)人:蘇州科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。