System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产成人精品无码播放,狠狠躁天天躁无码中文字幕图 ,久久久国产精品无码免费专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于人工智能大模型的評(píng)估系統(tǒng)及方法技術(shù)方案

    技術(shù)編號(hào):44126160 閱讀:20 留言:0更新日期:2025-01-24 22:45
    本發(fā)明專利技術(shù)公開了一種基于人工智能大模型的評(píng)估系統(tǒng)及方法,系統(tǒng)包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊,方法步驟為S1:模型管理;S2:模型評(píng)估;S3:在線評(píng)估;S4:評(píng)估報(bào)表。本發(fā)明專利技術(shù)比靜態(tài)指標(biāo)更加靈活,覆蓋更多復(fù)雜場(chǎng)景針對(duì)專業(yè)領(lǐng)域的全方位評(píng)測(cè),在安全性、功能性、精確性、困惑度方面全方位評(píng)測(cè)大模型;覆蓋更多邊緣場(chǎng)景,大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入,自動(dòng)規(guī)則能夠有效識(shí)別并進(jìn)行必要的干預(yù),裁判員則能夠從更人性化的角度進(jìn)行評(píng)估,從而補(bǔ)足傳統(tǒng)評(píng)估的不足;能夠提高評(píng)估效率和擴(kuò)展性,自動(dòng)規(guī)則處理大規(guī)模評(píng)估任務(wù),加快模型部署后的評(píng)估流程,能在海量數(shù)據(jù)中快速執(zhí)行并發(fā)現(xiàn)問題。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及大模型,尤其涉及一種基于人工智能大模型的評(píng)估系統(tǒng)及方法


    技術(shù)介紹

    1、在機(jī)器學(xué)習(xí)和人工智能ai模型的發(fā)展中,模型評(píng)估是一個(gè)至關(guān)重要的環(huán)節(jié)。旨在驗(yàn)證模型在不同數(shù)據(jù)集、場(chǎng)景或任務(wù)中的性能表現(xiàn),并確保模型的輸出結(jié)果符合預(yù)期,隨著大模型如gpt、bert、llama等逐漸成為主流技術(shù),如何有效、準(zhǔn)確地評(píng)估這些模型的表現(xiàn)成為了一個(gè)關(guān)鍵挑戰(zhàn)。

    2、傳統(tǒng)評(píng)估方法往往依賴于靜態(tài)指標(biāo),但這些指標(biāo)難以應(yīng)對(duì)大規(guī)模生成任務(wù)或復(fù)雜的自然語言處理場(chǎng)景,問題有:

    3、1.復(fù)雜場(chǎng)景下的表現(xiàn)問題:傳統(tǒng)的靜態(tài)指標(biāo)如準(zhǔn)確率、f1分?jǐn)?shù)等往往難以應(yīng)對(duì)復(fù)雜場(chǎng)景下的表現(xiàn)評(píng)估;

    4、2.邊緣場(chǎng)景問題:大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入。傳統(tǒng)方式很難對(duì)這些情況進(jìn)行識(shí)別和干預(yù);

    5、3.評(píng)估效率和主觀偏差問題:人工評(píng)估難以確保評(píng)估的標(biāo)準(zhǔn)一致性,并且評(píng)估效率低下。
    技術(shù)實(shí)現(xiàn)思路

    6、本專利技術(shù)的目的在于,針對(duì)上述的技術(shù)問題,提出一種基于人工智能大模型的評(píng)估系統(tǒng)及方法,基于前沿深度學(xué)習(xí)方法,通過完善的評(píng)估數(shù)據(jù)集、評(píng)估指標(biāo)、評(píng)估任務(wù),評(píng)估定制大模型的能力,對(duì)繼續(xù)優(yōu)化、模型應(yīng)用提供依據(jù)。

    7、一種基于人工智能大模型的評(píng)估系統(tǒng),包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊;

    8、所述數(shù)據(jù)集管理模塊定義數(shù)據(jù)類型,對(duì)數(shù)據(jù)進(jìn)行版本化存儲(chǔ),增量導(dǎo)入數(shù)據(jù),導(dǎo)出數(shù)據(jù)、發(fā)布數(shù)據(jù)集;

    9、所述我的模型模塊對(duì)精調(diào)生成的領(lǐng)域模型進(jìn)行管理;

    10、所述模型評(píng)估模塊提供可視化模型評(píng)估和人工在線評(píng)估功能,根據(jù)需要對(duì)不同的領(lǐng)域模型進(jìn)行評(píng)估,選擇不同的數(shù)據(jù)集版本,設(shè)置評(píng)估的資源使用,生成評(píng)估報(bào)表。

    11、進(jìn)一步的,一種基于人工智能大模型的評(píng)估系統(tǒng),所述數(shù)據(jù)類型包括prompt+response、prompt+多response、純文本、promp集、prompt-chosen-rejected。

    12、進(jìn)一步的,一種基于人工智能大模型的評(píng)估系統(tǒng),所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型評(píng)估報(bào)表模塊;

    13、所述數(shù)據(jù)集選擇模塊對(duì)數(shù)據(jù)集管理模塊定義的數(shù)據(jù)集進(jìn)行選擇;

    14、所述基礎(chǔ)模型選擇模塊對(duì)我的模型模塊定義的領(lǐng)域模型進(jìn)行選擇;

    15、所述參數(shù)設(shè)置模塊對(duì)模型的參數(shù)進(jìn)行調(diào)整,查看當(dāng)前gpu使用情況,以應(yīng)對(duì)多種不同評(píng)估;

    16、所述資源設(shè)置模塊對(duì)模型使用的存儲(chǔ)空間進(jìn)行設(shè)置,保證資源可控;

    17、所述存儲(chǔ)空間包括cpu、內(nèi)存、gpu個(gè)數(shù)、gpu內(nèi)存;

    18、所述評(píng)估方式模塊提供人工和自動(dòng)兩種評(píng)估方式;

    19、所述人工評(píng)估提供人工評(píng)估指標(biāo)設(shè)置、在線評(píng)估功能,綜合人類專家的主觀見解、經(jīng)驗(yàn)從不同評(píng)價(jià)維度對(duì)模型回復(fù)進(jìn)行打分,用于評(píng)估模型回復(fù)的效果;

    20、所述自動(dòng)評(píng)估方式包括自動(dòng)規(guī)則,裁判員;

    21、所述模型評(píng)估報(bào)表對(duì)評(píng)估結(jié)果進(jìn)行圖形化展示。

    22、進(jìn)一步的,一種基于人工智能大模型的評(píng)估系統(tǒng),所述評(píng)估方式模塊包括llamafactory模型;

    23、所述llamafactory模型為用于評(píng)估和微調(diào)大語言模型的框架或工具集,提供評(píng)估與調(diào)優(yōu)機(jī)制;

    24、所述llamafactory模型包括多維度評(píng)估指標(biāo)、特定領(lǐng)域評(píng)估、裁判員機(jī)制、自動(dòng)規(guī)則系統(tǒng);

    25、所述多維度評(píng)估指標(biāo)包括標(biāo)準(zhǔn)的靜態(tài)評(píng)估指標(biāo)和高維度的動(dòng)態(tài)評(píng)估指標(biāo);

    26、所述靜態(tài)評(píng)估指標(biāo)包括準(zhǔn)確率、f1分?jǐn)?shù);

    27、所述動(dòng)態(tài)評(píng)估指標(biāo)為在生成任務(wù)、復(fù)雜自然語言處理場(chǎng)景中的評(píng)估,上下文相關(guān)性、語義一致性、邏輯性的維度,幫助開發(fā)者理解模型在各種任務(wù)中的表現(xiàn);

    28、所述特定領(lǐng)域評(píng)估允許用戶定義領(lǐng)域特定的評(píng)估標(biāo)準(zhǔn),確保模型在特定領(lǐng)域內(nèi)生成準(zhǔn)確的文本內(nèi)容;

    29、所述裁判員機(jī)制通過引入人工裁判員或基于專家知識(shí)的系統(tǒng)進(jìn)行人工評(píng)估,捕捉模型在生成任務(wù)中的表現(xiàn),判斷輸出的質(zhì)量和一致性;

    30、所述自動(dòng)規(guī)則系統(tǒng)通過預(yù)定義的規(guī)則,實(shí)時(shí)監(jiān)控模型的輸出,在模型生成的過程中根據(jù)設(shè)定的標(biāo)準(zhǔn)自動(dòng)進(jìn)行干預(yù),確保輸出符合預(yù)期的語法、邏輯和道德標(biāo)準(zhǔn)。

    31、一種基于人工智能大模型的評(píng)估方法,包括以下子步驟:

    32、s1:模型管理;

    33、s11:模型精調(diào)后生成領(lǐng)域模型;

    34、s12:上傳精調(diào)后的領(lǐng)域模型,選擇對(duì)應(yīng)的基礎(chǔ)模型;

    35、s13:在線代碼開發(fā)后生成模型;

    36、s2:模型評(píng)估;

    37、s3:在線評(píng)估;

    38、s31:人工評(píng)估模式,根據(jù)模型的回答在線對(duì)評(píng)估規(guī)則進(jìn)行打分;

    39、s4:評(píng)估報(bào)表。

    40、進(jìn)一步的,一種基于人工智能大模型的評(píng)估方法,所述s2包括以下子步驟:

    41、s21:獲取數(shù)據(jù)集版本;

    42、s22:獲取領(lǐng)域模型;

    43、s23:選擇評(píng)估方式;

    44、s24:設(shè)置評(píng)估參數(shù)、模型類型,評(píng)估方式;

    45、s25:設(shè)置評(píng)估資源,對(duì)模型使用的存儲(chǔ)空間進(jìn)行設(shè)置;

    46、s26:定義人工打分評(píng)估規(guī)則;

    47、s27:記錄評(píng)估過程日志;

    48、s28:生成評(píng)估數(shù)據(jù)存入共享文件系統(tǒng)中,在分布式系統(tǒng)中共享。

    49、進(jìn)一步的,一種基于人工智能大模型的評(píng)估方法,所述s4包括以下子步驟:

    50、s41:查看人工評(píng)估的真實(shí)度、滿意度、平均分?jǐn)?shù)、goodcase占比、主觀評(píng)價(jià)指標(biāo);

    51、s42:查看自動(dòng)規(guī)則評(píng)估的準(zhǔn)確度、f1分?jǐn)?shù)、unigram拆分后的召回率、bigram拆分后的召回率、衡量最長(zhǎng)公共子序列計(jì)算的召回率、值為unigram,bigram,trigram,4-games的加權(quán)平均,查看裁判員評(píng)估的裁判員打分、裁判員打分原因、打分標(biāo)準(zhǔn)差、打分平均值、打分中位數(shù);

    52、s43:導(dǎo)出評(píng)估結(jié)果。

    53、本專利技術(shù)的有益效果:通過一種基于人工智能大模型的評(píng)估系統(tǒng)及方法,比靜態(tài)指標(biāo)更加靈活,覆蓋更多復(fù)雜場(chǎng)景針對(duì)專業(yè)領(lǐng)域的全方位評(píng)測(cè),在安全性、功能性、精確性、困惑度方面全方位評(píng)測(cè)大模型;覆蓋更多邊緣場(chǎng)景,大模型在實(shí)際應(yīng)用中常會(huì)遇到各種極端或未見過的輸入,自動(dòng)規(guī)則能夠有效識(shí)別并進(jìn)行必要的干預(yù),裁判員則能夠從更人性化的角度進(jìn)行評(píng)估,從而補(bǔ)足傳統(tǒng)評(píng)估的不足;能夠提高評(píng)估效率和擴(kuò)展性,自動(dòng)規(guī)則處理大規(guī)模評(píng)估任務(wù),加快模型部署后的評(píng)估流程,能在海量數(shù)據(jù)中快速執(zhí)行并發(fā)現(xiàn)問題。


    技術(shù)實(shí)現(xiàn)思路

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊;

    2.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述數(shù)據(jù)類型包括Prompt+Response、Prompt+多Response、純文本、Promp集、Prompt-chosen-rejected。

    3.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型評(píng)估報(bào)表模塊;

    4.根據(jù)權(quán)利要求3所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述評(píng)估方式模塊包括LlamaFactory模型;

    5.一種基于人工智能大模型的評(píng)估方法,基于權(quán)利要求1~4任意一項(xiàng)所述的一種基于人工智能大模型的評(píng)估系統(tǒng)所實(shí)現(xiàn),其特征在于,包括以下子步驟:

    6.根據(jù)權(quán)利要求5所述的一種基于人工智能大模型的評(píng)估方法,其特征在于,所述S2包括以下子步驟:

    7.根據(jù)權(quán)利要求5所述的一種基于人工智能大模型的評(píng)估方法,其特征在于,所述S4包括以下子步驟:

    ...

    【技術(shù)特征摘要】

    1.一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,包括數(shù)據(jù)集管理模塊、我的模型模塊、模型評(píng)估模塊;

    2.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述數(shù)據(jù)類型包括prompt+response、prompt+多response、純文本、promp集、prompt-chosen-rejected。

    3.根據(jù)權(quán)利要求1所述的一種基于人工智能大模型的評(píng)估系統(tǒng),其特征在于,所述模型評(píng)估模塊包括數(shù)據(jù)集選擇模塊、基礎(chǔ)模型選擇模塊、參數(shù)設(shè)置模塊、資源設(shè)置模塊、評(píng)估方式模塊、模型...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:劉珍茹,單星航,裴一龍,朱碩曲英哲,平祥凡
    申請(qǐng)(專利權(quán))人:啟明信息技術(shù)股份有限公司,
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 精品亚洲A∨无码一区二区三区| 无码乱人伦一区二区亚洲| 在线观看无码不卡AV| 精品成在人线AV无码免费看| 无码国内精品久久人妻麻豆按摩| 亚洲va中文字幕无码久久不卡 | 亚洲成a∨人片在无码2023| 国模无码视频一区| 亚洲av无码久久忘忧草| 亚洲色偷拍区另类无码专区| 毛片无码免费无码播放| 潮喷无码正在播放| 亚洲av无码天堂一区二区三区 | 国产成人无码av在线播放不卡 | 亚洲精品无码精品mV在线观看 | 免费无码又爽又刺激网站直播 | 亚洲av无码专区在线播放| 亚洲 另类 无码 在线| 无码人妻一区二区三区免费| 久久久久亚洲AV无码永不| 亚洲AV永久无码精品成人| 中文字幕无码日韩专区| 亚洲一区无码精品色| 精品一区二区三区无码视频| 亚洲AV无码男人的天堂| 无码福利一区二区三区| 91久久九九无码成人网站| 人妻丰满熟妇无码区免费| 无码人妻少妇色欲AV一区二区| 免费无码又爽又刺激网站直播| 国产啪亚洲国产精品无码| 国产精品午夜福利在线无码| 国产精品无码久久av| 亚洲av无码不卡私人影院| 国产高清无码视频| 国产在线无码视频一区二区三区| 最新国产精品无码| 无码中文字幕日韩专区视频| 未满小14洗澡无码视频网站| 蜜桃臀AV高潮无码| 在线无码视频观看草草视频|