基于用戶意圖學習的交互式聚類質量提升方法技術

技術編號：37470918 閱讀：36 留言：0更新日期：2023-05-06 09:51

本發明專利技術公開了基于用戶意圖學習的交互式聚類質量提升方法，屬于人機交互、可視分析技術領域，包括以下步驟：步驟一：數據采集和存儲，并得到數據集D；步驟二：從D中抽取樣本得到樣本集S；步驟三：對S進行初始聚類，系統進行數據分析，通過可視化形式推薦聚類調整方案；步驟四：用戶調整C

全部詳細技術資料下載

【技術實現步驟摘要】
基于用戶意圖學習的交互式聚類質量提升方法

[0001]本專利技術屬于人機交互、可視分析
，尤其涉及基于用戶意圖學習的交互式聚類質量提升方法。

技術介紹

[0002]聚類分析起源于分類學，在古老的分類學中，人們主要依靠經驗和專業知識來實現分類，很少利用數學工具進行定量的分類。隨著人類科學技術的發展，對分類的要求越來越高，以致有時僅憑經驗和專業知識難以確切地進行分類，于是人們逐漸地把數學工具引用到了分類學中，形成了數值分類學，之后又將多元分析的技術引入到數值分類學形成了聚類分析。
[0003]現有的聚類算法大多依賴初始狀態的設定、輸入數據的質量以及用戶的先驗知識。用戶若想獲得高質量的輸出結果，就需要對數據科學和聚類原理有較深的理解。此外，現有方法容易引發以下問題：
[0004]一、初始參數如簇類數目、距離度量以及一些隨機量的設置，會顯著影響聚類結果，然而此類參數值的選擇缺乏明確的指導，需要用戶根據經驗或者重復的試錯過程來確定；
[0005]二、聚類是一種無監督的機器學習方法，其對應的各種模型屬于黑盒系統，缺乏專業背景知識的用戶難以理解其內在的工作機制，更無法對其進行改動從而優化性能；
[0006]三、由于輸入數據特征的明顯差異，同一套參數設置很難在跨領域場景中獲得穩定且高精度的結果，用戶需要在不同的應用上花費巨大的人力和算力來尋找合適的設置，即現有的聚類方法要想取得理想的結果，需要用戶具備堅實的專業知識，導致其難以實現跨學科、跨數據的應用。

技術實現思路

[0007]...

【技術保護點】

【技術特征摘要】
1.基于用戶意圖學習的交互式聚類質量提升方法，其特征在于，包括以下步驟：步驟一：數據采集和存儲：采集數據并得到數據集D＝{d1,d2,...,d
n
}；步驟二：小批量數據采樣：從數據集D中抽取r個樣本并得到樣本集S＝{s1,s2,...,s
r
}；步驟三：小樣本初始聚類：采用任意聚類方法，如kmeans對樣本集S進行初始聚類，并得到初步聚類結果C
S
，系統進行數據分析，通過可視化形式推薦聚類調整方案；步驟四：交互式聚類調整：用戶根據經驗知識或系統推薦對聚類結果C
S
進行調整，得到C
’
S
，系統通過半監督方法學習用戶調整過程中反映的聚類意圖，并根據該聚類意圖對更大量的未調整樣本進行自動化聚類；步驟五：聚類意圖傳播：構造包含所有樣本的全連接圖，以在當前小樣本與新數據樣本之間建立聯系，將聚類問題轉化為基于GNN模型的半監督學習問題，對未調整樣本進行自動校準；步驟六：聚類結果評估：通過Kullback
–
Leibler(KL)散度來計算兩個概率分布之間的距離，樣本屬于各個簇的概率越接近，模型輸出的最終結果越不可靠。2.根據權利要求1所述的基于用戶意圖學習的交互式聚類質量提升方法，其特征在于，步驟一中采集數據后需對該數據進行清洗、集成等預處理操作，再得到數據集D。3.根據權利要求1所述的基于用戶意圖學習的交互式聚類質量提升方法，其特征在于，步驟二中從數據集D中抽取r個樣本的方法為均勻隨機采樣或藍噪音采樣。4.根據權利要求1所述的基于用戶意圖學習的交互式聚類質量提升方法，其特征在于，步驟四中，用戶調節聚類結果C
S
時，將樣本顯示在顯示屏上，樣本通過t
?
SNE算法確定位置，特征類似的樣本會形成一個樣本簇類。5.根據權利要求4所述的基于用戶意圖學習的交互式聚類質量提升方法，其特征在于，步驟四中對聚類結果C
S
的調整包括：創建：若樣本不屬于當前的任何簇類，則將其拖至空白處，形成只包含一個樣本的新簇類；移動：若與當前樣本特征相近的大多數樣本屬于另一個簇類，則將該樣本從當前簇拖至目標簇中；刪除：若對當前樣本的歸屬情況不確定，可以選中該樣本并刪除；...

【專利技術屬性】
技術研發人員：王蘊哲，
申請(專利權)人：蘇州科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術