當(dāng)前位置: 首頁(yè) > 專利查詢>啟明信息技術(shù)股份有限公司專利>正文

一種基于人工智能大模型的評(píng)估系統(tǒng)及方法技術(shù)方案

技術(shù)編號(hào)：44126160 閱讀：20 留言：0更新日期：2025-01-24 22:45

本發(fā)明專利技術(shù)公開了一種基于人工智能大模型的評(píng)估系統(tǒng)及方法，系統(tǒng)包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊，方法步驟為S1：模型管理；S2：模型評(píng)估；S3：在線評(píng)估；S4：評(píng)估報(bào)表。本發(fā)明專利技術(shù)比靜態(tài)指標(biāo)更加靈活，覆蓋更多復(fù)雜場(chǎng)景針對(duì)專業(yè)領(lǐng)域的全方位評(píng)測(cè)，在安全性、功能性、精確性、困惑度方面全方位評(píng)測(cè)大模型；覆蓋更多邊緣場(chǎng)景，大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入，自動(dòng)規(guī)則能夠有效識(shí)別并進(jìn)行必要的干預(yù)，裁判員則能夠從更人性化的角度進(jìn)行評(píng)估，從而補(bǔ)足傳統(tǒng)評(píng)估的不足；能夠提高評(píng)估效率和擴(kuò)展性，自動(dòng)規(guī)則處理大規(guī)模評(píng)估任務(wù)，加快模型部署后的評(píng)估流程，能在海量數(shù)據(jù)中快速執(zhí)行并發(fā)現(xiàn)問題。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及大模型，尤其涉及一種基于人工智能大模型的評(píng)估系統(tǒng)及方法。

技術(shù)介紹

1、在機(jī)器學(xué)習(xí)和人工智能ai模型的發(fā)展中，模型評(píng)估是一個(gè)至關(guān)重要的環(huán)節(jié)。旨在驗(yàn)證模型在不同數(shù)據(jù)集、場(chǎng)景或任務(wù)中的性能表現(xiàn)，并確保模型的輸出結(jié)果符合預(yù)期，隨著大模型如gpt、bert、llama等逐漸成為主流技術(shù)，如何有效、準(zhǔn)確地評(píng)估這些模型的表現(xiàn)成為了一個(gè)關(guān)鍵挑戰(zhàn)。

2、傳統(tǒng)評(píng)估方法往往依賴于靜態(tài)指標(biāo)，但這些指標(biāo)難以應(yīng)對(duì)大規(guī)模生成任務(wù)或復(fù)雜的自然語言處理場(chǎng)景，問題有：

3、1．復(fù)雜場(chǎng)景下的表現(xiàn)問題：傳統(tǒng)的靜態(tài)指標(biāo)如準(zhǔn)確率、f1分?jǐn)?shù)等往往難以應(yīng)對(duì)復(fù)雜場(chǎng)景下的表現(xiàn)評(píng)估；

4、2．邊緣場(chǎng)景問題：大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入。傳統(tǒng)方式很難對(duì)這些情況進(jìn)行識(shí)別和干預(yù)；

5、3．評(píng)估效率和主觀偏差問題：人工評(píng)估難以確保評(píng)估的標(biāo)準(zhǔn)一致性，并且評(píng)估效率低下。
技術(shù)實(shí)現(xiàn)思路

6、本專利技術(shù)的目的在于，針對(duì)上述的技術(shù)問題，提出一種基于人工智能大模型的評(píng)估系統(tǒng)及方法，基于前沿深度學(xué)習(xí)方法，通過完善的評(píng)估數(shù)據(jù)集、評(píng)估指標(biāo)、評(píng)估任務(wù)，評(píng)估定制大模型的能力，對(duì)繼續(xù)優(yōu)化、模型應(yīng)用提供依據(jù)。

7、一種基于人工智能大模型的評(píng)估系統(tǒng)，包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊；

8、所述數(shù)據(jù)集管理模塊定義數(shù)據(jù)類型，對(duì)數(shù)據(jù)進(jìn)行版本化存儲(chǔ)，增量導(dǎo)入數(shù)據(jù)，導(dǎo)出數(shù)據(jù)、發(fā)布數(shù)據(jù)集；

9、所述我的模型模塊對(duì)精調(diào)生成的領(lǐng)域模型進(jìn)行管理；

10、所述模型評(píng)估模塊提供可視化模

11、進(jìn)一步的，一種基于人工智能大模型的評(píng)估系統(tǒng)，所述數(shù)據(jù)類型包括prompt+response、prompt+多response、純文本、promp集、prompt-chosen-rejected。

12、進(jìn)一步的，一種基于人工智能大模型的評(píng)估系統(tǒng)，所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型評(píng)估報(bào)表模塊；

13、所述數(shù)據(jù)集選擇模塊對(duì)數(shù)據(jù)集管理模塊定義的數(shù)據(jù)集進(jìn)行選擇；

14、所述基礎(chǔ)模型選擇模塊對(duì)我的模型模塊定義的領(lǐng)域模型進(jìn)行選擇；

15、所述參數(shù)設(shè)置模塊對(duì)模型的參數(shù)進(jìn)行調(diào)整，查看當(dāng)前gpu使用情況，以應(yīng)對(duì)多種不同評(píng)估；

16、所述資源設(shè)置模塊對(duì)模型使用的存儲(chǔ)空間進(jìn)行設(shè)置，保證資源可控；

17、所述存儲(chǔ)空間包括cpu、內(nèi)存、gpu個(gè)數(shù)、gpu內(nèi)存；

18、所述評(píng)估方式模塊提供人工和自動(dòng)兩種評(píng)估方式；

19、所述人工評(píng)估提供人工評(píng)估指標(biāo)設(shè)置、在線評(píng)估功能，綜合人類專家的主觀見解、經(jīng)驗(yàn)從不同評(píng)價(jià)維度對(duì)模型回復(fù)進(jìn)行打分，用于評(píng)估模型回復(fù)的效果；

20、所述自動(dòng)評(píng)估方式包括自動(dòng)規(guī)則，裁判員；

21、所述模型評(píng)估報(bào)表對(duì)評(píng)估結(jié)果進(jìn)行圖形化展示。

22、進(jìn)一步的，一種基于人工智能大模型的評(píng)估系統(tǒng)，所述評(píng)估方式模塊包括llamafactory模型；

23、所述llamafactory模型為用于評(píng)估和微調(diào)大語言模型的框架或工具集，提供評(píng)估與調(diào)優(yōu)機(jī)制；

24、所述llamafactory模型包括多維度評(píng)估指標(biāo)、特定領(lǐng)域評(píng)估、裁判員機(jī)制、自動(dòng)規(guī)則系統(tǒng)；

25、所述多維度評(píng)估指標(biāo)包括標(biāo)準(zhǔn)的靜態(tài)評(píng)估指標(biāo)和高維度的動(dòng)態(tài)評(píng)估指標(biāo)；

26、所述靜態(tài)評(píng)估指標(biāo)包括準(zhǔn)確率、f1分?jǐn)?shù)；

27、所述動(dòng)態(tài)評(píng)估指標(biāo)為在生成任務(wù)、復(fù)雜自然語言處理場(chǎng)景中的評(píng)估，上下文相關(guān)性、語義一致性、邏輯性的維度，幫助開發(fā)者理解模型在各種任務(wù)中的表現(xiàn)；

28、所述特定領(lǐng)域評(píng)估允許用戶定義領(lǐng)域特定的評(píng)估標(biāo)準(zhǔn)，確保模型在特定領(lǐng)域內(nèi)生成準(zhǔn)確的文本內(nèi)容；

29、所述裁判員機(jī)制通過引入人工裁判員或基于專家知識(shí)的系統(tǒng)進(jìn)行人工評(píng)估，捕捉模型在生成任務(wù)中的表現(xiàn)，判斷輸出的質(zhì)量和一致性；

30、所述自動(dòng)規(guī)則系統(tǒng)通過預(yù)定義的規(guī)則，實(shí)時(shí)監(jiān)控模型的輸出，在模型生成的過程中根據(jù)設(shè)定的標(biāo)準(zhǔn)自動(dòng)進(jìn)行干預(yù)，確保輸出符合預(yù)期的語法、邏輯和道德標(biāo)準(zhǔn)。

31、一種基于人工智能大模型的評(píng)估方法，包括以下子步驟：

32、s1：模型管理；

33、s11：模型精調(diào)后生成領(lǐng)域模型；

34、s12：上傳精調(diào)后的領(lǐng)域模型，選擇對(duì)應(yīng)的基礎(chǔ)模型；

35、s13：在線代碼開發(fā)后生成模型；

36、s2：模型評(píng)估；

37、s3：在線評(píng)估；

38、s31：人工評(píng)估模式，根據(jù)模型的回答在線對(duì)評(píng)估規(guī)則進(jìn)行打分；

39、s4：評(píng)估報(bào)表。

40、進(jìn)一步的，一種基于人工智能大模型的評(píng)估方法，所述s2包括以下子步驟：

41、s21：獲取數(shù)據(jù)集版本；

42、s22：獲取領(lǐng)域模型；

43、s23：選擇評(píng)估方式；

44、s24：設(shè)置評(píng)估參數(shù)、模型類型，評(píng)估方式；

45、s25：設(shè)置評(píng)估資源，對(duì)模型使用的存儲(chǔ)空間進(jìn)行設(shè)置；

46、s26：定義人工打分評(píng)估規(guī)則；

47、s27：記錄評(píng)估過程日志；

48、s28：生成評(píng)估數(shù)據(jù)存入共享文件系統(tǒng)中，在分布式系統(tǒng)中共享。

49、進(jìn)一步的，一種基于人工智能大模型的評(píng)估方法，所述s4包括以下子步驟：

50、s41：查看人工評(píng)估的真實(shí)度、滿意度、平均分?jǐn)?shù)、goodcase占比、主觀評(píng)價(jià)指標(biāo)；

51、s42：查看自動(dòng)規(guī)則評(píng)估的準(zhǔn)確度、f1分?jǐn)?shù)、unigram拆分后的召回率、bigram拆分后的召回率、衡量最長(zhǎng)公共子序列計(jì)算的召回率、值為unigram，bigram，trigram，4-games的加權(quán)平均，查看裁判員評(píng)估的裁判員打分、裁判員打分原因、打分標(biāo)準(zhǔn)差、打分平均值、打分中位數(shù)；

52、s43：導(dǎo)出評(píng)估結(jié)果。

53、本專利技術(shù)的有益效果：通過一種基于人工智能大模型的評(píng)估系統(tǒng)及方法，比靜態(tài)指標(biāo)更加靈活，覆蓋更多復(fù)雜場(chǎng)景針對(duì)專業(yè)領(lǐng)域的全方位評(píng)測(cè)，在安全性、功能性、精確性、困惑度方面全方位評(píng)測(cè)大模型；覆蓋更多邊緣場(chǎng)景，大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入，自動(dòng)規(guī)則能夠有效識(shí)別并進(jìn)行必要的干預(yù)，裁判員則能夠從更人性化的角度進(jìn)行評(píng)估，從而補(bǔ)足傳統(tǒng)評(píng)估的不足；能夠提高評(píng)估效率和擴(kuò)展性，自動(dòng)規(guī)則處理大規(guī)模評(píng)估任務(wù)，加快模型部署后的評(píng)估流程，能在海量數(shù)據(jù)中快速執(zhí)行并發(fā)現(xiàn)問題。

技術(shù)實(shí)現(xiàn)思路

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊；

2.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，所述數(shù)據(jù)類型包括Prompt+Response、Prompt+多Response、純文本、Promp集、Prompt-chosen-rejected。

3.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型評(píng)估報(bào)表模塊；

4.根據(jù)權(quán)利要求3所述的一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，所述評(píng)估方式模塊包括LlamaFactory模型；

5.一種基于人工智能大模型的評(píng)估方法，基于權(quán)利要求1~4任意一項(xiàng)所述的一種基于人工智能大模型的評(píng)估系統(tǒng)所實(shí)現(xiàn)，其特征在于，包括以下子步驟：

6.根據(jù)權(quán)利要求5所述的一種基于人工智能大模型的評(píng)估方法，其特征在于，所述S2包括以下子步驟：

7.根據(jù)權(quán)利要求5所述的一種基于人工智能大模型的評(píng)估方法

...

【技術(shù)特征摘要】

1.一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊；

2.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，所述數(shù)據(jù)類型包括prompt+response、prompt+多response、純文本、promp集、prompt-chosen-rejected。

3.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng)，其特征在于，所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：劉珍茹，單星航，裴一龍，朱碩，曲英哲，平祥凡，
申請(qǐng)(專利權(quán))人：啟明信息技術(shù)股份有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)