• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于人工智能大語言模型平臺的數據治理方法及系統技術方案

    技術編號:38346904 閱讀:21 留言:0更新日期:2023-08-02 09:27
    本發明專利技術涉及大語言模型技術領域,具體地說,涉及一種基于人工智能大語言模型平臺的數據治理方法及系統。其包括數據處理平臺以及優先級評估模塊。本發明專利技術通過數據處理平臺接收到預選取文本數據,結合用戶提供的使用場景,規劃不同處理方案,并記錄各項處理方案對應的處理流程以及預選取文本數據處理結果,統計相同預選取文本數據中不同處理結果的選取率,通過優先級評估模塊對相同預選取文本數據中不同處理結果進行優先級評估,后期遇到相同數據特征檢索模式以及使用場景時,大語言模型會通過優先級給用戶順序推送處理結果,從而減少大語言模型處理方案流程,提高大語言模型響應速度。度。度。

    【技術實現步驟摘要】
    一種基于人工智能大語言模型平臺的數據治理方法及系統


    [0001]本專利技術涉及大語言模型
    ,具體地說,涉及一種基于人工智能大語言模型平臺的數據治理方法及系統。

    技術介紹

    [0002]大語言模型是指使用大量文本數據訓練的深度學習模型,可以生成自然語言文本或理解語言文本的含義,大語言模型可以處理多種自然語言任務,如文本分類、問答、對話等,是通向人工智能的一條重要途徑。
    [0003]現有的大語言模型在進行數據采集過程中,雖然能夠對數據按照表達方式進行分類處理,但用戶在進行檢索時,大語言模型會結合用戶需求進行目標數據檢索,并根據用戶對輸出結果的限定,對目標數據進行處理,但符合限定的目標數據種類繁多,需要用戶自行進行挑選,且檢索到的目標數據輸出順序不同,大部分的目標數據的用戶選擇率偏低,基本不會使用,這就導致大語言模型響應速度降低,且無法對選取率偏低的目標數據進行提前篩分,導致其處理工作量大大增加。
    [0004]為了應對上述問題,現亟需一種基于人工智能大語言模型平臺的數據治理方法及系統。

    技術實現思路

    [0005]本專利技術的目的在于提供一種基于人工智能大語言模型平臺的數據治理方法及系統,以解決上述
    技術介紹
    中提出的問題。
    [0006]為實現上述目的,本專利技術目的之一在于,提供了一種基于人工智能大語言模型平臺的數據治理系統,包括數據采集模塊、數據特征識別模塊、調用數據選取模塊、數據處理平臺以及優先級評估模塊;所述數據采集模塊用于采集文本數據,將采集的文本數據通過表達形式進行分類存儲;所述數據采集模塊輸出端與所述數據特征識別模塊輸入端連接,所述數據特征識別模塊用于對分類后的文本數據進行特征識別;所述數據特征識別模塊輸出端與所述調用數據選取模塊輸入端連接,所述調用數據選取模塊采集用戶提供的數據特征檢索模式以及使用場景,通過用戶提供的數據特征,比對分類后的文本數據,調用比對成功的文本數據作為預選取文本數據;所述調用數據選取模塊輸出端與所述數據處理平臺輸入端連接,所述數據處理平臺結合用戶提供的使用場景,規劃不同處理方案,并記錄各項處理方案對應的處理流程以及預選取文本數據處理結果,統計相同預選取文本數據中不同處理結果的選取率;所述數據處理平臺輸出端與所述優先級評估模塊輸入端連接,所述優先級評估模塊結合相同預選取文本數據中不同處理結果的選取率,對相同預選取文本數據中不同處理結果進行優先級評估。
    [0007]作為本技術方案的進一步改進,所述文本數據包括圖像數據、文字數據以及語音數據。
    [0008]作為本技術方案的進一步改進,所述調用數據選取模塊包括特征點比對單元、重合閾值規劃單元以及比對數據標記單元;所述特征點比對單元結合用戶提供的數據特征檢索模式,比對文本數據中同類型數據特征,確定各個同類型數據比對的特征重合率;所述特征點比對單元輸出端與所述重合閾值規劃單元輸入端連接,所述重合閾值規劃單元規劃特征重合率閾值;所述重合閾值規劃單元輸出端與所述比對數據標記單元輸入端連接,所述比對數據標記單元將低于特征重合率閾值的同類型數據剔除,將不低于特征重合率閾值的同類型數據標記為預選取文本數據。
    [0009]作為本技術方案的進一步改進,所述調用數據選取模塊采用閾值比對算法,其算法公式如下:;;;其中為定用戶提供的預期數據的各個特征點集合,至為預期數據的各個特征點,為文本數據中與預期數據同類型數據的各個特征點集合,至為同類型數據的各個特征點,為閾值比對函數,C為重合特征率,為重合特征率閾值,當重合特征率閾值低于重合特征率C時,閾值比對函數輸出為0,表明該同類型數據不為預選取文本數據,當重合特征率閾值不低于重合特征率C時,閾值比對函數輸出為1,表明該同類型數據為預選取文本數據。
    [0010]作為本技術方案的進一步改進,所述數據處理平臺包括數據處理方案規劃模塊、處理流程記錄模塊以及結果選取率計算模塊;所述數據處理方案規劃模塊結合用戶提供的使用場景,為預選取文本數據規劃不同處理方案;所述數據處理方案規劃模塊輸出端與所述處理流程記錄模塊輸入端連接,所述處理流程記錄模塊用于記錄各個處理方案對應的處理流程;所述處理流程記錄模塊輸出端與所述結果選取率計算模塊輸入端連接,所述結果選取率計算模塊用于統計相同預選取文本數據中不同處理結果的選取率。
    [0011]作為本技術方案的進一步改進,所述優先級評估模塊包括評估值規劃單元、更新單位量制定單元以及優先級排序單元;所述評估值規劃單元規劃選取率評估值,確定各個選取率對應的優先級;所述評估值規劃單元輸出端與所述更新單位量制定單元輸入端連接,所述更新單
    位量制定單元制定優先級遞減值以及優先級疊加值,作為后期各個處理結果優先級更新值;所述更新單位量制定單元輸出端與所述優先級排序單元輸入端連接,所述優先級排序單元結合更新后的處理結果優先級大小,對各個處理結果進行優先級排序。
    [0012]作為本技術方案的進一步改進,所述優先級評估模塊中的處理結果優先級評估包括如下步驟:步驟一、確定用戶使用場景S0,按照優先級由高到低給用戶順序提供處理結果:N0
    ?
    Nm,進入匹配區進行匹配選擇;步驟二、依次標記用戶未選擇的各個處理結果,進入置換區,并對各個處于置換區的處理結果進行優先級遞減值
    ?
    N降低;步驟三、將用戶選擇的處理結果進行優先級遞增值+N增加;步驟四、按照更新后的處理結果對應的優先級進行重新排序。
    [0013]作為本技術方案的進一步改進,所述優先級評估模塊輸出端連接有數據庫存儲模塊,所述數據庫存儲模塊輸入端與所述調用數據選取模塊輸出端連接,所述數據庫存儲模塊用于規劃分類數據庫,對優先級評估過程中的數據以及特征比對結果進行分類存儲。
    [0014]本專利技術目的之二在于,提供了一種使用基于人工智能大語言模型平臺的數據治理系統的方法,包括如下方法步驟:S1、通過數據采集模塊對文本數據進行采集,將采集的文本數據通過表達形式進行分類存儲;S2、數據特征識別模塊對分類后的文本數據進行特征識別,作為后期比對識別的參考依據;S3、調用數據選取模塊采集用戶提供的數據特征檢索模式以及使用場景,比對分類后的文本數據,調用比對成功的文本數據作為預選取文本數據;S4、數據處理平臺接收到預選取文本數據,結合用戶提供的使用場景,規劃不同處理方案,并記錄各項處理方案對應的處理流程以及預選取文本數據處理結果,統計相同預選取文本數據中不同處理結果的選取率;S5、優先級評估模塊對相同預選取文本數據中不同處理結果進行優先級評估。
    [0015]與現有技術相比,本專利技術的有益效果:該基于人工智能大語言模型平臺的數據治理方法及系統中,通過數據處理平臺接收到預選取文本數據,結合用戶提供的使用場景,規劃不同處理方案,并記錄各項處理方案對應的處理流程以及預選取文本數據處理結果,統計相同預選取文本數據中不同處理結果的選取率,通過優先級評估模塊對相同預選取文本數據中不同處理結果進行優先級評估,后期遇到相同數據特征檢索模式以及使用場景時,大語言模型會通過優先級給用戶順序推送處理結果,從而減少大本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于人工智能大語言模型平臺的數據治理系統,其特征在于:包括數據采集模塊(10)、數據特征識別模塊(20)、調用數據選取模塊(30)、數據處理平臺以及優先級評估模塊(70);所述數據采集模塊(10)用于采集文本數據,將采集的文本數據通過表達形式進行分類存儲;所述數據采集模塊(10)輸出端與所述數據特征識別模塊(20)輸入端連接,所述數據特征識別模塊(20)用于對分類后的文本數據進行特征識別;所述數據特征識別模塊(20)輸出端與所述調用數據選取模塊(30)輸入端連接,所述調用數據選取模塊(30)采集用戶提供的數據特征檢索模式以及使用場景,通過用戶提供的數據特征,比對分類后的文本數據,調用比對成功的文本數據作為預選取文本數據;所述調用數據選取模塊(30)輸出端與所述數據處理平臺輸入端連接,所述數據處理平臺結合用戶提供的使用場景,規劃不同處理方案,并記錄各項處理方案對應的處理流程以及預選取文本數據處理結果,統計相同預選取文本數據中不同處理結果的選取率;所述數據處理平臺輸出端與所述優先級評估模塊(70)輸入端連接,所述優先級評估模塊(70)結合相同預選取文本數據中不同處理結果的選取率,對相同預選取文本數據中不同處理結果進行優先級評估。2.根據權利要求1所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述文本數據包括圖像數據、文字數據以及語音數據。3.根據權利要求1所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述調用數據選取模塊(30)包括特征點比對單元(310)、重合閾值規劃單元(320)以及比對數據標記單元(330);所述特征點比對單元(310)結合用戶提供的數據特征檢索模式,比對文本數據中同類型數據特征,確定各個同類型數據比對的特征重合率;所述特征點比對單元(310)輸出端與所述重合閾值規劃單元(320)輸入端連接,所述重合閾值規劃單元(320)規劃特征重合率閾值;所述重合閾值規劃單元(320)輸出端與所述比對數據標記單元(330)輸入端連接,所述比對數據標記單元(330)將低于特征重合率閾值的同類型數據剔除,將不低于特征重合率閾值的同類型數據標記為預選取文本數據。4.根據權利要求3所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述調用數據選取模塊(30)采用閾值比對算法,其算法公式如下:;;;其中為定用戶提供的預期數據的各個特征點集合,至為預期數據的各個特征點,為文本數據中與預期數據同類型數據的各個特征點集合,至為同類型數
    據的各個特征點,為閾值比對函數,C為重合特征率,為重合特征率閾值,當重合特征率閾值低于重合特征率C時,閾值比對函數輸出為0,表明該同類型數據不為預選取文本數據,當重合特征率閾值不低于重合特征率C時,閾值比對函數輸出為1,表明該同類型數據為預選取文本數據。5.根據權利要求1所述的基于人工智能大語言模型平臺的數據治理系統,其特征在于:所述數據處理平臺包括數據處理方案規劃模塊(40)、處理流程記錄模塊(50)以及結果選取率計算模塊(60);所述數據處理方案規劃模塊(...

    【專利技術屬性】
    技術研發人員:薛林桐楊紹杰羅恒
    申請(專利權)人:北京法伯宏業科技發展有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费A级毛片无码A∨| 国产Av激情久久无码天堂| 小SAO货水好多真紧H无码视频| 亚洲a∨无码一区二区| 久久久久久AV无码免费网站下载| 亚洲国产精品无码中文lv| 亚洲欧洲AV无码专区| 无码人妻H动漫中文字幕| 亚洲v国产v天堂a无码久久| 久久99久久无码毛片一区二区| 亚洲中文字幕无码爆乳av中文| 久久久国产精品无码免费专区| 亚洲综合av永久无码精品一区二区| 国产丝袜无码一区二区视频| 人妻夜夜添夜夜无码AV| 中文午夜人妻无码看片| 精品久久久久久无码人妻蜜桃| 国产成人无码AV一区二区在线观看| 亚洲成av人片在线观看无码不卡| 精品无码久久久久久国产| 久久99久久无码毛片一区二区| 日韩人妻无码一区二区三区综合部| 无码人妻一区二区三区免费视频| 精品久久久无码人妻中文字幕豆芽| 免费看无码自慰一区二区| 亚洲国产精品无码专区| 亚洲精品无码你懂的| 色综合热无码热国产| 欧洲精品无码成人久久久| 精品无码日韩一区二区三区不卡| 粉嫩大学生无套内射无码卡视频| 日韩电影无码A不卡| 国产啪亚洲国产精品无码| 天天看高清无码一区二区三区| 亚洲av无码成人精品区在线播放| 亚洲成AV人片在线播放无码| 亚洲中文字幕久久精品无码VA| 亚洲AV成人无码天堂| 亚洲成A∨人片在线观看无码| 免费看国产成年无码AV片| 台湾无码AV一区二区三区|