System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及大模型,尤其涉及一種基于人工智能大模型的評(píng)估系統(tǒng)及方法。
技術(shù)介紹
1、在機(jī)器學(xué)習(xí)和人工智能ai模型的發(fā)展中,模型評(píng)估是一個(gè)至關(guān)重要的環(huán)節(jié)。旨在驗(yàn)證模型在不同數(shù)據(jù)集、場(chǎng)景或任務(wù)中的性能表現(xiàn),并確保模型的輸出結(jié)果符合預(yù)期,隨著大模型如gpt、bert、llama等逐漸成為主流技術(shù),如何有效、準(zhǔn)確地評(píng)估這些模型的表現(xiàn)成為了一個(gè)關(guān)鍵挑戰(zhàn)。
2、傳統(tǒng)評(píng)估方法往往依賴于靜態(tài)指標(biāo),但這些指標(biāo)難以應(yīng)對(duì)大規(guī)模生成任務(wù)或復(fù)雜的自然語言處理場(chǎng)景,問題有:
3、1.復(fù)雜場(chǎng)景下的表現(xiàn)問題:傳統(tǒng)的靜態(tài)指標(biāo)如準(zhǔn)確率、f1分?jǐn)?shù)等往往難以應(yīng)對(duì)復(fù)雜場(chǎng)景下的表現(xiàn)評(píng)估;
4、2.邊緣場(chǎng)景問題:大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入。傳統(tǒng)方式很難對(duì)這些情況進(jìn)行識(shí)別和干預(yù);
5、3.評(píng)估效率和主觀偏差問題:人工評(píng)估難以確保評(píng)估的標(biāo)準(zhǔn)一致性,并且評(píng)估效率低下。
技術(shù)實(shí)現(xiàn)思路
6、本專利技術(shù)的目的在于,針對(duì)上述的技術(shù)問題,提出一種基于人工智能大模型的評(píng)估系統(tǒng)及方法,基于前沿深度學(xué)習(xí)方法,通過完善的評(píng)估數(shù)據(jù)集、評(píng)估指標(biāo)、評(píng)估任務(wù),評(píng)估定制大模型的能力,對(duì)繼續(xù)優(yōu)化、模型應(yīng)用提供依據(jù)。
7、一種基于人工智能大模型的評(píng)估系統(tǒng),包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊;
8、所述數(shù)據(jù)集管理模塊定義數(shù)據(jù)類型,對(duì)數(shù)據(jù)進(jìn)行版本化存儲(chǔ),增量導(dǎo)入數(shù)據(jù),導(dǎo)出數(shù)據(jù)、發(fā)布數(shù)據(jù)集;
9、所述我的模型模塊對(duì)精調(diào)生成的領(lǐng)域模型進(jìn)行管理;
10、所述模型評(píng)估模塊提供可視化模
11、進(jìn)一步的,一種基于人工智能大模型的評(píng)估系統(tǒng),所述數(shù)據(jù)類型包括prompt+response、prompt+多response、純文本、promp集、prompt-chosen-rejected。
12、進(jìn)一步的,一種基于人工智能大模型的評(píng)估系統(tǒng),所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型評(píng)估報(bào)表模塊;
13、所述數(shù)據(jù)集選擇模塊對(duì)數(shù)據(jù)集管理模塊定義的數(shù)據(jù)集進(jìn)行選擇;
14、所述基礎(chǔ)模型選擇模塊對(duì)我的模型模塊定義的領(lǐng)域模型進(jìn)行選擇;
15、所述參數(shù)設(shè)置模塊對(duì)模型的參數(shù)進(jìn)行調(diào)整,查看當(dāng)前gpu使用情況,以應(yīng)對(duì)多種不同評(píng)估;
16、所述資源設(shè)置模塊對(duì)模型使用的存儲(chǔ)空間進(jìn)行設(shè)置,保證資源可控;
17、所述存儲(chǔ)空間包括cpu、內(nèi)存、gpu個(gè)數(shù)、gpu內(nèi)存;
18、所述評(píng)估方式模塊提供人工和自動(dòng)兩種評(píng)估方式;
19、所述人工評(píng)估提供人工評(píng)估指標(biāo)設(shè)置、在線評(píng)估功能,綜合人類專家的主觀見解、經(jīng)驗(yàn)從不同評(píng)價(jià)維度對(duì)模型回復(fù)進(jìn)行打分,用于評(píng)估模型回復(fù)的效果;
20、所述自動(dòng)評(píng)估方式包括自動(dòng)規(guī)則,裁判員;
21、所述模型評(píng)估報(bào)表對(duì)評(píng)估結(jié)果進(jìn)行圖形化展示。
22、進(jìn)一步的,一種基于人工智能大模型的評(píng)估系統(tǒng),所述評(píng)估方式模塊包括llamafactory模型;
23、所述llamafactory模型為用于評(píng)估和微調(diào)大語言模型的框架或工具集,提供評(píng)估與調(diào)優(yōu)機(jī)制;
24、所述llamafactory模型包括多維度評(píng)估指標(biāo)、特定領(lǐng)域評(píng)估、裁判員機(jī)制、自動(dòng)規(guī)則系統(tǒng);
25、所述多維度評(píng)估指標(biāo)包括標(biāo)準(zhǔn)的靜態(tài)評(píng)估指標(biāo)和高維度的動(dòng)態(tài)評(píng)估指標(biāo);
26、所述靜態(tài)評(píng)估指標(biāo)包括準(zhǔn)確率、f1分?jǐn)?shù);
27、所述動(dòng)態(tài)評(píng)估指標(biāo)為在生成任務(wù)、復(fù)雜自然語言處理場(chǎng)景中的評(píng)估,上下文相關(guān)性、語義一致性、邏輯性的維度,幫助開發(fā)者理解模型在各種任務(wù)中的表現(xiàn);
28、所述特定領(lǐng)域評(píng)估允許用戶定義領(lǐng)域特定的評(píng)估標(biāo)準(zhǔn),確保模型在特定領(lǐng)域內(nèi)生成準(zhǔn)確的文本內(nèi)容;
29、所述裁判員機(jī)制通過引入人工裁判員或基于專家知識(shí)的系統(tǒng)進(jìn)行人工評(píng)估,捕捉模型在生成任務(wù)中的表現(xiàn),判斷輸出的質(zhì)量和一致性;
30、所述自動(dòng)規(guī)則系統(tǒng)通過預(yù)定義的規(guī)則,實(shí)時(shí)監(jiān)控模型的輸出,在模型生成的過程中根據(jù)設(shè)定的標(biāo)準(zhǔn)自動(dòng)進(jìn)行干預(yù),確保輸出符合預(yù)期的語法、邏輯和道德標(biāo)準(zhǔn)。
31、一種基于人工智能大模型的評(píng)估方法,包括以下子步驟:
32、s1:模型管理;
33、s11:模型精調(diào)后生成領(lǐng)域模型;
34、s12:上傳精調(diào)后的領(lǐng)域模型,選擇對(duì)應(yīng)的基礎(chǔ)模型;
35、s13:在線代碼開發(fā)后生成模型;
36、s2:模型評(píng)估;
37、s3:在線評(píng)估;
38、s31:人工評(píng)估模式,根據(jù)模型的回答在線對(duì)評(píng)估規(guī)則進(jìn)行打分;
39、s4:評(píng)估報(bào)表。
40、進(jìn)一步的,一種基于人工智能大模型的評(píng)估方法,所述s2包括以下子步驟:
41、s21:獲取數(shù)據(jù)集版本;
42、s22:獲取領(lǐng)域模型;
43、s23:選擇評(píng)估方式;
44、s24:設(shè)置評(píng)估參數(shù)、模型類型,評(píng)估方式;
45、s25:設(shè)置評(píng)估資源,對(duì)模型使用的存儲(chǔ)空間進(jìn)行設(shè)置;
46、s26:定義人工打分評(píng)估規(guī)則;
47、s27:記錄評(píng)估過程日志;
48、s28:生成評(píng)估數(shù)據(jù)存入共享文件系統(tǒng)中,在分布式系統(tǒng)中共享。
49、進(jìn)一步的,一種基于人工智能大模型的評(píng)估方法,所述s4包括以下子步驟:
50、s41:查看人工評(píng)估的真實(shí)度、滿意度、平均分?jǐn)?shù)、goodcase占比、主觀評(píng)價(jià)指標(biāo);
51、s42:查看自動(dòng)規(guī)則評(píng)估的準(zhǔn)確度、f1分?jǐn)?shù)、unigram拆分后的召回率、bigram拆分后的召回率、衡量最長(zhǎng)公共子序列計(jì)算的召回率、值為unigram,bigram,trigram,4-games的加權(quán)平均,查看裁判員評(píng)估的裁判員打分、裁判員打分原因、打分標(biāo)準(zhǔn)差、打分平均值、打分中位數(shù);
52、s43:導(dǎo)出評(píng)估結(jié)果。
53、本專利技術(shù)的有益效果:通過一種基于人工智能大模型的評(píng)估系統(tǒng)及方法,比靜態(tài)指標(biāo)更加靈活,覆蓋更多復(fù)雜場(chǎng)景針對(duì)專業(yè)領(lǐng)域的全方位評(píng)測(cè),在安全性、功能性、精確性、困惑度方面全方位評(píng)測(cè)大模型;覆蓋更多邊緣場(chǎng)景,大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入,自動(dòng)規(guī)則能夠有效識(shí)別并進(jìn)行必要的干預(yù),裁判員則能夠從更人性化的角度進(jìn)行評(píng)估,從而補(bǔ)足傳統(tǒng)評(píng)估的不足;能夠提高評(píng)估效率和擴(kuò)展性,自動(dòng)規(guī)則處理大規(guī)模評(píng)估任務(wù),加快模型部署后的評(píng)估流程,能在海量數(shù)據(jù)中快速執(zhí)行并發(fā)現(xiàn)問題。
技術(shù)實(shí)現(xiàn)思路
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊;
2.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述數(shù)據(jù)類型包括Prompt+Response、Prompt+多Response、純文本、Promp集、Prompt-chosen-rejected。
3.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型評(píng)估報(bào)表模塊;
4.根據(jù)權(quán)利要求3所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述評(píng)估方式模塊包括LlamaFactory模型;
5.一種基于人工智能大模型的評(píng)估方法,基于權(quán)利要求1~4任意一項(xiàng)所述的一種基于人工智能大模型的評(píng)估系統(tǒng)所實(shí)現(xiàn),其特征在于,包括以下子步驟:
6.根據(jù)權(quán)利要求5所述的一種基于人工智能大模型的評(píng)估方法,其特征在于,所述S2包括以下子步驟:
7.根據(jù)權(quán)利要求5所述的一種基于人工智能大模型的評(píng)估方法
...【技術(shù)特征摘要】
1.一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊;
2.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述數(shù)據(jù)類型包括prompt+response、prompt+多response、純文本、promp集、prompt-chosen-rejected。
3.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉珍茹,單星航,裴一龍,朱碩,曲英哲,平祥凡,
申請(qǐng)(專利權(quán))人:啟明信息技術(shù)股份有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。