【技術實現步驟摘要】
一種基于人工智能大語言模型平臺的數據治理方法及系統
[0001]本專利技術涉及大語言模型
,具體地說,涉及一種基于人工智能大語言模型平臺的數據治理方法及系統。
技術介紹
[0002]大語言模型是指使用大量文本數據訓練的深度學習模型,可以生成自然語言文本或理解語言文本的含義,大語言模型可以處理多種自然語言任務,如文本分類、問答、對話等,是通向人工智能的一條重要途徑。
[0003]現有的大語言模型在進行數據采集過程中,雖然能夠對數據按照表達方式進行分類處理,但用戶在進行檢索時,大語言模型會結合用戶需求進行目標數據檢索,并根據用戶對輸出結果的限定,對目標數據進行處理,但符合限定的目標數據種類繁多,需要用戶自行進行挑選,且檢索到的目標數據輸出順序不同,大部分的目標數據的用戶選擇率偏低,基本不會使用,這就導致大語言模型響應速度降低,且無法對選取率偏低的目標數據進行提前篩分,導致其處理工作量大大增加。
[0004]為了應對上述問題,現亟需一種基于人工智能大語言模型平臺的數據治理方法及系統。
技術實現思路
[0005]本專利技術的目的在于提供一種基于人工智能大語言模型平臺的數據治理方法及系統,以解決上述
技術介紹
中提出的問題。
[0006]為實現上述目的,本專利技術目的之一在于,提供了一種基于人工智能大語言模型平臺的數據治理系統,包括數據采集模塊、數據特征識別模塊、調用數據選取模塊、數據處理平臺以及優先級評估模塊;所述數據采集模塊用于采集文本數據,將采集的文本數據通過表達形式進行分類存儲 ...
【技術保護點】
【技術特征摘要】
1.一種基于人工智能大語言模型平臺的數據治理系統,其特征在于:包括數據采集模塊(10)、數據特征識別模塊(20)、調用數據選取模塊(30)、數據處理平臺以及優先級評估模塊(70);所述數據采集模塊(10)用于采集文本數據,將采集的文本數據通過表達形式進行分類存儲;所述數據采集模塊(10)輸出端與所述數據特征識別模塊(20)輸入端連接,所述數據特征識別模塊(20)用于對分類后的文本數據進行特征識別;所述數據特征識別模塊(20)輸出端與所述調用數據選取模塊(30)輸入端連接,所述調用數據選取模塊(30)采集用戶提供的數據特征檢索模式以及使用場景,通過用戶提供的數據特征,比對分類后的文本數據,調用比對成功的文本數據作為預選取文本數據;所述調用數據選取模塊(30)輸出端與所述數據處理平臺輸入端連接,所述數據處理平臺結合用戶提供的使用場景,規劃不同處理方案,并記錄各項處理方案對應的處理流程以及預選取文本數據處理結果,統計相同預選取文本數據中不同處理結果的選取率;所述數據處理平臺輸出端與所述優先級評估模塊(70)輸入端連接,所述優先級評估模塊(70)結合相同預選取文本數據中不同處理結果的選取率,對相同預選取文本數據中不同處理結果進行優先級評估。2.根據權利要求1所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述文本數據包括圖像數據、文字數據以及語音數據。3.根據權利要求1所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述調用數據選取模塊(30)包括特征點比對單元(310)、重合閾值規劃單元(320)以及比對數據標記單元(330);所述特征點比對單元(310)結合用戶提供的數據特征檢索模式,比對文本數據中同類型數據特征,確定各個同類型數據比對的特征重合率;所述特征點比對單元(310)輸出端與所述重合閾值規劃單元(320)輸入端連接,所述重合閾值規劃單元(320)規劃特征重合率閾值;所述重合閾值規劃單元(320)輸出端與所述比對數據標記單元(330)輸入端連接,所述比對數據標記單元(330)將低于特征重合率閾值的同類型數據剔除,將不低于特征重合率閾值的同類型數據標記為預選取文本數據。4.根據權利要求3所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述調用數據選取模塊(30)采用閾值比對算法,其算法公式如下:;;;其中為定用戶提供的預期數據的各個特征點集合,至為預期數據的各個特征點,為文本數據中與預期數據同類型數據的各個特征點集合,至為同類型數
據的各個特征點,為閾值比對函數,C為重合特征率,為重合特征率閾值,當重合特征率閾值低于重合特征率C時,閾值比對函數輸出為0,表明該同類型數據不為預選取文本數據,當重合特征率閾值不低于重合特征率C時,閾值比對函數輸出為1,表明該同類型數據為預選取文本數據。5.根據權利要求1所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述數據處理平臺包括數據處理方案規劃模塊(40)、處理流程記錄模塊(50)以及結果選取率計算模塊(60);所述數據處理方案規劃模塊(...
【專利技術屬性】
技術研發人員:薛林桐,楊紹杰,羅恒,
申請(專利權)人:北京法伯宏業科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。