System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码国产午夜福利片在线观看,亚洲AV综合色区无码一区,国产在线无码视频一区二区三区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大語言模型的評估方法、系統、電子設備和存儲介質技術方案

    技術編號:43631629 閱讀:12 留言:0更新日期:2024-12-11 15:12
    本發明專利技術公開了一種大語言模型的評估方法、系統、電子設備和存儲介質,涉及模型評估技術領域,方法包括:生成預設問題的多個候選答案;利用待評估大語言模型生成預設問題的答案;利用每個預設相似度計算模型,計算生成的答案與每個候選答案之間的相似度均值;根據最大相似度均值,對待評估大語言模型進行評估,得到評估結果。本發明專利技術能夠避免主觀因素所帶來的干擾,且相比于關鍵詞比對的方式,本申請利用多個相似度計算模型,并以最大相似度均值對評估大語言模型進行評估,使評估結果更加準確和公正,可以準確評估大語言模型在特定領域如保險領域的適用性。

    【技術實現步驟摘要】

    所屬的技術人員知道,本專利技術可以實現為系統、方法或計算機程序產品,因此,本專利技術可以具體實現為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結合的形式,本文一般稱為“電路”、“模塊”或“系統”。此外,在一些實施例中,本專利技術還可以實現為在一個或多個計算機可讀介質中的計算機程序產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼。可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是一一但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram),只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本專利技術中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。盡管上面已經示出和描述了本專利技術的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本專利技術的限制,本領域的普通技術人員在本專利技術的范圍內可以對上述實施例進行變化、修改、替換和變型。


    技術介紹

    1、目前,針對大語言模型的評價方法主要可以分為兩類:一類是人工對大語言模型生成的主觀題的答案進行評估,另一類是采用關鍵詞比對(例如包括bleu、rouge和meteor分數等指標)對大語言模型進行自動評估,還有基于bert模型等進行大語言模型的自動化評估。這些方法各有優缺點,但都存在一定的局限性,具體地:

    2、對于評價主觀題的答案,傳統的人工評分易受個人偏好和判斷的影響,使得評分缺乏標準化和一致性。關鍵詞比對的方式雖然提供了一定程度的標準化,但在處理模型生成的多樣化、創造性答案時,會面臨評分的不準確或者不公正的問題。

    3、而且,現有的評估方法無法滿足大模型在特定行業(如保險行業)的應用需求,無法準確評估大語言模型在特定領域的能力和適應性。


    技術實現思路

    1、本專利技術所要解決的技術問題是針對現有技術的不足,具體提供了一種大語言模型的評估方法、系統、電子設備和存儲介質,具體如下:

    2、1)第一方面,本專利技術提供一種大語言模型的評估方法,具體技術方案如下:

    3、生成預設問題的多個候選答案;

    4、利用待評估大語言模型生成預設問題的答案;

    5、利用每個預設相似度計算模型,計算生成的答案與每個候選答案之間的相似度均值;

    6、根據最大相似度均值,對待評估大語言模型進行評估,得到評估結果。

    7、本專利技術提供的一種大語言模型的評估方法的有益效果如下:

    8、能夠避免主觀因素所帶來的干擾,且相比于關鍵詞比對的方式,本申請利用多個相似度計算模型,并以最大相似度均值對評估大語言模型進行評估,使評估結果更加準確和公正,可以準確評估大語言模型在特定領域如保險領域的適用性。

    9、在上述方案的基礎上,本專利技術的一種大語言模型的評估方法還可以做如下改進。

    10、進一步,根據最大相似度均值,對待評估大語言模型進行評估,得到評估結果,包括:

    11、提取生成的答案中的基礎信息和關鍵詞;

    12、對最大相似度均值、提取的基礎信息和關鍵詞分別進行權重賦值,根據總權重對待評估大語言模型進行評估,得到評估結果。

    13、采用上述進一步技術方案的有益效果是:結合取生成的答案中的基礎信息和關鍵詞,進一步提高評估結果的準確性。

    14、進一步,多個候選答案包括:人工標注的候選答案和通過預設大語言模型所生成的候選答案。

    15、進一步,還包括:當評估結果符合期望標準時,利用待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

    16、進一步,預設問題為關于保險的問題。

    17、2)第二方面,本專利技術還提供一種大語言模型的評估系統,具體技術方案如下:

    18、包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊;

    19、候選答案生成模塊用于:生成預設問題的多個候選答案;

    20、答案生成模塊用于:利用待評估大語言模型生成預設問題的答案;

    21、相似度計算模塊用于:利用每個預設相似度計算模型,計算生成的答案與每個候選答案之間的相似度均值;

    22、評估模塊用于:根據最大相似度均值,對待評估大語言模型進行評估,得到評估結果。

    23、在上述方案的基礎上,本專利技術的一種大語言模型的評估系統還可以做如下改進。

    24、進一步,評估模塊具體用于:

    25、提取生成的答案中的基礎信息和關鍵詞;

    26、對最大相似度均值、提取的基礎信息和關鍵詞分別進行權重賦值,根據總權重對待評估大語言模型進行評估,得到評估結果。

    27、進一步,多個候選答案包括:人工標注的候選答案和通過預設大語言模型所生成的候選答案。

    28、進一步,還包括交互模塊,交互模塊用于:當評估結果符合期望標準時,利用待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

    29、進一步,預設問題為關于保險的問題。

    30、3)第三方面,本專利技術還提供一種電子設備,電子設備包括處理器,處理器與存儲器耦合,存儲器中存儲有至少一條計算機程序,至少一條計算機程序由處理器加載并執行,以使電子設備實現上述任一項大語言模型的評估方法。

    31、4)第四方面,本專利技術還提供一種計算機可讀存儲介質,計算機可讀存儲介質中存儲有至少一條計算機程序,至少一條計算機程序由處理器加載并執行,以使計算機實現上述任一項大語言模型的評估方法。

    32、需要說明的是,本專利技術的第二方面至第四方面的技術方案及對應的可能的實現方式所取得的有益效果,可以參見上述對第一方面及其對應的可能的實現方式的技術效果,此處不再贅述。

    本文檔來自技高網...

    【技術保護點】

    1.一種大語言模型的評估方法,其特征在于,包括:

    2.根據權利要求1所述的一種大語言模型的評估方法,其特征在于,根據最大相似度均值,對所述待評估大語言模型進行評估,得到評估結果,包括:

    3.根據權利要求1所述的一種大語言模型的評估方法,其特征在于,多個候選答案包括:人工標注的候選答案和通過預設大語言模型所生成的候選答案。

    4.根據權利要求1至3任一項所述的一種大語言模型的評估方法,其特征在于,還包括:當所述評估結果符合期望標準時,利用所述待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

    5.根據權利要求1至3任一項所述的一種大語言模型的評估方法,其特征在于,所述預設問題為關于保險的問題。

    6.一種大語言模型的評估系統,其特征在于,包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊;

    7.根據權利要求6所述的一種大語言模型的評估系統,其特征在于,所述評估模塊具體用于:

    8.根據權利要求6所述的一種大語言模型的評估系統,其特征在于,多個候選答案包括:人工標注的候選答案和通過預設大語言模型所生成的候選答案。

    9.一種電子設備,其特征在于,所述電子設備包括處理器,所述處理器與存儲器耦合,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執行,以使所述電子設備實現如權利要求1至5任一項權利要求所述的一種大語言模型的評估方法。

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有至少一條計算機程序,所述至少一條計算機程序由處理器加載并執行,以使計算機實現如權利要求1至5任一項權利要求所述的一種大語言模型的評估方法。

    ...

    【技術特征摘要】

    1.一種大語言模型的評估方法,其特征在于,包括:

    2.根據權利要求1所述的一種大語言模型的評估方法,其特征在于,根據最大相似度均值,對所述待評估大語言模型進行評估,得到評估結果,包括:

    3.根據權利要求1所述的一種大語言模型的評估方法,其特征在于,多個候選答案包括:人工標注的候選答案和通過預設大語言模型所生成的候選答案。

    4.根據權利要求1至3任一項所述的一種大語言模型的評估方法,其特征在于,還包括:當所述評估結果符合期望標準時,利用所述待評估大語言模型生成用戶所提出的問題的答案,并提供給用戶。

    5.根據權利要求1至3任一項所述的一種大語言模型的評估方法,其特征在于,所述預設問題為關于保險的問題。

    6.一種大語言模型的評估系統,其特征在于,包括候選答案生成模塊、答案生成模塊、相似度...

    【專利技術屬性】
    技術研發人員:孫雅琳張晗
    申請(專利權)人:陽光數智科技有限責任公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久精品人妻无码专区不卡| 亚洲成a人在线看天堂无码 | 无码精品久久久久久人妻中字| 亚洲AV永久纯肉无码精品动漫| 99无码人妻一区二区三区免费| 免费人妻无码不卡中文字幕18禁| 亚洲AV无码1区2区久久| 亚洲色无码专区一区| 中文字幕av无码不卡免费| 无码人妻一区二区三区一| 东京热人妻无码一区二区av| 免费无码A片一区二三区| 日韩人妻无码精品久久免费一 | 色欲香天天综合网无码| 精品无码人妻夜人多侵犯18| 熟妇人妻系列av无码一区二区| 亚洲AV无码专区国产乱码不卡| 亚洲国产AV无码专区亚洲AV | 久久亚洲精品无码观看不卡| 亚洲欧洲国产综合AV无码久久| 亚洲一区爱区精品无码| 无码国产亚洲日韩国精品视频一区二区三区 | 无码A级毛片免费视频内谢| 精品亚洲成在人线AV无码| 亚洲熟妇无码AV在线播放| 亚洲?V无码乱码国产精品| 国产真人无码作爱视频免费| 中文无码AV一区二区三区 | 久久午夜夜伦鲁鲁片免费无码影视| 波多野结衣AV无码久久一区| 黄桃AV无码免费一区二区三区| 国产精品爽爽V在线观看无码 | 亚洲中文字幕无码久久| 久久ZYZ资源站无码中文动漫| 无码H肉动漫在线观看| 亚洲va成无码人在线观看| 亚洲日韩乱码中文无码蜜桃| 亚洲精品无码久久久久YW| 国产午夜av无码无片久久96| 成人毛片无码一区二区| 亚洲精品无码永久在线观看 |