System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大數據可視化與人機交互領域,具體涉及一種基于大語言模型的表格數據探索式可視分析系統與方法。
技術介紹
1、表格數據是一種基本數據格式,用于表示從業務分析、科學研究到社會科學、醫療保健等廣泛領域的信息。然而,表格數據的龐大數量和復雜性使得理解和探索變得具有挑戰性。有效探索表格數據對于做出明智的決策至關重要,需要識別趨勢和異常值等數據洞察。然而,原始表格數據展示的是原始且具體的信息視圖,通常缺乏深入理解所需的清晰度和上下文。為了彌合這一差距,將提取出的數據洞察轉化為敘述性的數據故事變得至關重要。敘事可視化提供了一種強大的方式,將離散的數據點連接起來,創建連貫的數據故事以幫助用戶了解數據的關鍵發現。通過制作引人入勝的數據故事,這些可視化可以增強理解力,使得復雜的信息更加易于理解,從而使非專業受眾能夠更有效地參與并保留數據洞察。
2、傳統創建數據故事的方法要求用戶手動提取洞察并通過邏輯將多個故事元素組合起來,這一過程效率低下,且高度依賴于用戶的經驗和技能。為了簡化這一過程,人們進行了廣泛的研究。常見的一種方法是使用基于規則的算法從表格數據中自動提取洞察并生成數據故事。然而,由于這些數據故事是自動生成的,它們可能無法與用戶的具體分析意圖完全契合。另一種方法通過將提取的洞察連接起來,幫助用戶發現相關信息,允許用戶參與數據故事的創建過程。然而,這種方法仍然效率較低,因為它需要用戶通過反復試驗,依賴他們的直覺和經驗來選擇并組合相關洞察,最終形成連貫的敘事。
3、數據科學家們使用探索式數據分析過程分析和研究數
4、因此,將用戶從復雜耗時的手動數據探索和數據理解過程中剝離,自動化地挖掘和分析有價值信息的數據片段(即數據洞察)是一件需求強烈且重要的任務。已有研究工作提出自動化挖掘數據洞察的系統框架,并對數據洞察的類型以及重要性評價標準提出了標準規范。在此基礎上,許多專注于自動化探索系統研發的工作期望設計并實現擁有更高智能的推薦系統,以最大程度地替代用戶完成探索式數據分析過程中的計算和推理,直接向用戶返回有價值、易理解的探索結果。一般地,現有系統會使用自動化方法挖掘數據洞察,然后基于某種規則或啟發式評價標準,將獲得的數據洞察組織成最佳探索序列,最后直接向用戶輸出探索序列對應的可視化表示。這些現有的自動化能夠輸出內容更加豐富的高級可視化結果,展現出數據可視化敘事的巨大潛力,但它們都普遍面臨著關鍵的局限:
5、(1)輸出結果質量不高。組成結果的數據洞察在語義和邏輯上的關聯不強,造成生成的高級數據敘事整體質量的大幅降低。
6、(2)忽略用戶意圖。在探索式數據分析過程中,用戶的主動探索是最為重要的部分,而且往往是動態的,會隨著當前探索結果的反饋進行調整。然而,這些自動化系統與用戶的交互手段有限,用戶往往只能在探索開始之前和探索結束階段進行初始化設置和得到生成的最終結果,無法干預數據洞察探索、組織的中間過程,使得這些系統不具備捕捉用戶動態需求的能力,生成的結果往往與用戶實際上的探索目的之間存在巨大差距。
技術實現思路
1、針對現有技術中存在的缺陷,本專利技術的目的在于針對廣泛存在的結構化表格數據,提出一種可視化與人機交互方法支持探索性數據分析和數據故事交互生成。大語言模型的出現為自然語言處理領域帶來了革命性的進步,在合適的提示詞框架下,大語言模型在理解用戶意圖,推理下一步行動、從而完成用戶指定目標的場景中展現了卓越的應用潛力。為此,該方法的關鍵思路是充分利用大語言模型優秀的語義理解、文字生成和推理能力,使用它基于用戶以自然語言形式給出的關于數據洞察的提問,執行探索路徑的邏輯推理和數據洞察間語義關系的文本描述生成,從而能夠自然且有邏輯地整合用戶的主動探索需求,組建出高質量的數據洞察序列,支持用戶能充分參與數據洞察探索序列的構建過程。
2、具體地,基于大語言模型的表格數據探索式可視分析系統,提出了reinact框架,利用基于大語言模型的推理的推理模塊、通過交互產生的人類直覺的交互模塊和計算洞察力生成的計算模塊,并針對不同模塊的特性定制了不同格式的數據洞察:向交互模塊呈現洞察的可視化圖表,為洞察計算模塊構建具有連接的洞察圖,為推理模塊生成洞察的文本描述。在該框架下,洞察引擎搜索結構相關的數據洞察,大語言模型推薦語義相關的數據洞察,用戶使用自然語言問題和交互式選擇來指導視覺探索的過程,最終生成連貫的數據故事。
3、基于大語言模型的表格數據探索式可視分析方法,包括以下五個步驟:(1)解析原始表格數據并建立數據模型;(2)自動化挖掘洞察并生成洞察的三種不同形式;(3)交互模塊中用戶主導探索性數據分析并生成數據故事;(4)計算模塊中洞察引擎通過洞察圖查找具有結構性關聯的洞察;(5)推理模塊中大語言模型通過語義關聯推薦進行洞察推薦。
4、具體的:
5、(1)解析原始表格數據并建立數據模型:
6、數據模型為數據處理和分析提供了基礎框架,確保在多維度的表格數據中能夠有效地定位特定子空間,從而進行深入分析,提取有價值的數據洞察。建立數據模型需要從粗粒度到細粒度明確數據子空間、分析實體、洞察及其相互關系。這一方案的設計旨在滿足兩大核心需求:一是準確性,即能夠準確定義和計算各個數據范圍內的多種類數據洞察;二是靈活性,即該方案適用于各類表格數據結構,并支持靈活的數據探索和洞察提取。
7、首先,表格數據可以劃分為多個數據子空間。為了支持多樣化的數據分析,通過為數據維度設置過濾器,來精確定位目標數據子集。這些過濾器允許用戶指定某些維度的特定條件,從而將數據過濾到特定范圍。對于未指定條件的維度,則保留所有可能的屬性值,確保數據的完整性。通過這種靈活的過濾機制,系統能夠遍歷所有存在的子空間,并支持動態的子空間生成,從而適應各種分析需求。
8、在數據子空間的基礎上,進一步定義了分析實體。分析實體是對數據的細粒度劃分,系統通過選擇某些分類屬性來對數據進行分組,并對數值型屬性執行統計匯總操作,例如計算最大值、最小值或總和等。通過細分分析實體,用戶可以從這些聚合結果中獲取有意義的信息,從而確保數據分析能夠深入到更細微的層面。
9、通過識別和分類每個分析實體中的模式來實現洞察提取。洞察代表的是數據分析中的關鍵發現,如趨勢、異常點等模式信息。為了幫助用戶更好地理解洞察以及在數據探索中快速定位關鍵發現,系統為每一個洞察生成文字描述,并對其重要性進行量化本文檔來自技高網...
【技術保護點】
1.基于大語言模型的表格數據探索式可視分析系統,其特征在于,包括:由大語言模型提供支持的推理模塊、以用戶參與為中心的交互模塊以及由洞察引擎驅動的計算模塊;
2.基于大語言模型的表格數據探索式可視分析方法,其特征在于,采用權利要求1所述的基于大語言模型的表格數據探索式可視分析系統,所述的方法包括以下五個步驟:
3.根據權利要求1所述的基于大語言模型的表格數據探索式可視分析方法,其特征在于,步驟(1)的具體方法為:
4.根據權利要求1所述的基于大語言模型的表格數據探索式可視分析方法,其特征在于,步驟(2)的具體方法為:
5.根據權利要求1所述的基于大語言模型的表格數據探索式可視分析方法,其特征在于,步驟(3)的具體方法為:
6.根據權利要求1所述的基于大語言模型的表格數據探索式可視分析方法,其特征在于,步驟(4)的具體方法為:
7.根據權利要求1所述的基于大語言模型的表格數據探索式可視分析方法,其特征在于,步驟(5)的具體方法為:
【技術特征摘要】
1.基于大語言模型的表格數據探索式可視分析系統,其特征在于,包括:由大語言模型提供支持的推理模塊、以用戶參與為中心的交互模塊以及由洞察引擎驅動的計算模塊;
2.基于大語言模型的表格數據探索式可視分析方法,其特征在于,采用權利要求1所述的基于大語言模型的表格數據探索式可視分析系統,所述的方法包括以下五個步驟:
3.根據權利要求1所述的基于大語言模型的表格數據探索式可視分析方法,其特征在于,步驟(1)的具體方法為:
4....
【專利技術屬性】
技術研發人員:李國政,奧登格日樂,馮云姍,梁宸偉,張少坤,劉馳,歐創新,姜峰,汪松,
申請(專利權)人:北京理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。