一種大語言模型的評估方法、系統、電子設備和存儲介質技術方案

技術編號：43631629 閱讀：12 留言：0更新日期：2024-12-11 15:12

本發明專利技術公開了一種大語言模型的評估方法、系統、電子設備和存儲介質，涉及模型評估技術領域，方法包括：生成預設問題的多個候選答案；利用待評估大語言模型生成預設問題的答案；利用每個預設相似度計算模型，計算生成的答案與每個候選答案之間的相似度均值；根據最大相似度均值，對待評估大語言模型進行評估，得到評估結果。本發明專利技術能夠避免主觀因素所帶來的干擾，且相比于關鍵詞比對的方式，本申請利用多個相似度計算模型，并以最大相似度均值對評估大語言模型進行評估，使評估結果更加準確和公正，可以準確評估大語言模型在特定領域如保險領域的適用性。

全部詳細技術資料下載

【技術實現步驟摘要】

所屬的技術人員知道，本專利技術可以實現為系統、方法或計算機程序產品，因此，本專利技術可以具體實現為以下形式，即：可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等)，還可以是硬件和軟件結合的形式，本文一般稱為“電路”、“模塊”或“系統”。此外，在一些實施例中，本專利技術還可以實現為在一個或多個計算機可讀介質中的計算機程序產品的形式，該計算機可讀介質中包含計算機可讀的程序代碼。可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是一一但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件，或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括：具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)，只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本專利技術中，計算機可讀存儲介質可以是任何包含或存儲程序的有形介質，該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。盡管上面已經示出和描述了本專利技術的實施例，可以理解的是，上述實施例是示例性的，不能理解為對本專利技術的限制，本領域的普通技術人員在本專利技術的范圍內可以對上述實施例進行變化、修改、替換和變型。

技術介紹

1、目前，針對大語言模型的評價方法主要可以分為兩類：一類是人工對大語言模型生成的主觀題的答案進行評

2、對于評價主觀題的答案，傳統的人工評分易受個人偏好和判斷的影響，使得評分缺乏標準化和一致性。關鍵詞比對的方式雖然提供了一定程度的標準化，但在處理模型生成的多樣化、創造性答案時，會面臨評分的不準確或者不公正的問題。

3、而且，現有的評估方法無法滿足大模型在特定行業(如保險行業)的應用需求，無法準確評估大語言模型在特定領域的能力和適應性。

技術實現思路

1、本專利技術所要解決的技術問題是針對現有技術的不足，具體提供了一種大語言模型的評估方法、系統、電子設備和存儲介質，具體如下：

2、1)第一方面，本專利技術提供一種大語言模型的評估方法，具體技術方案如下：

3、生成預設問題的多個候選答案；

4、利用待評估大語言模型生成預設問題的答案；

5、利用每個預設相似度計算模型，計算生成的答案與每個候選答案之間的相似度均值；

6、根據最大相似度均值，對待評估大語言模型進行評估，得到評估結果。

7、本專利技術提供的一種大語言模型的評估方法的有益效果如下：

8、能夠避免主觀因素所帶來的干擾，且相比于關鍵詞比對的方式，本申請利用多個相似度計算模型，并以最大相似度均值對評估大語言模型進行評估，使評估結果更加準確和公正，可以準確評估大語言模型在特定領域如保險領域的適用性。

9、在上述方案的基礎上，本專利技術的一種大語言模型的評估方法還可以做如下改進。

10、進一步，根據最大相似度均值，對待評估大語言模型進行評估，得到評估結果，包括：

11、提取生成的答案中的基礎信息和關鍵詞；

12、對最大相似度均值、提取的基礎信息和關鍵詞分別進行權重賦值，根據總權重對待評估大語言模型進行評估，得到評估結果。

13、采用上述進一步技術方案的有益效果是：結合取生成的答案中的基礎信息和關鍵詞，進一步提高評估結果的準確性。

14、進一步，多個候選答案包括：人工標注的候選答案和通過預設大語言模型所生成的候選答案。

15、進一步，還包括：當評估結果符合期望標準時，利用待評估大語言模型生成用戶所提出的問題的答案，并提供給用戶。

16、進一步，預設問題為關于保險的問題。

17、2)第二方面，本專利技術還提供一種大語言模型的評估系統，具體技術方案如下：

18、包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊；

19、候選答案生成模塊用于：生成預設問題的多個候選答案；

20、答案生成模塊用于：利用待評估大語言模型生成預設問題的答案；

21、相似度計算模塊用于：利用每個預設相似度計算模型，計算生成的答案與每個候選答案之間的相似度均值；

22、評估模塊用于：根據最大相似度均值，對待評估大語言模型進行評估，得到評估結果。

23、在上述方案的基礎上，本專利技術的一種大語言模型的評估系統還可以做如下改進。

24、進一步，評估模塊具體用于：

25、提取生成的答案中的基礎信息和關鍵詞；

26、對最大相似度均值、提取的基礎信息和關鍵詞分別進行權重賦值，根據總權重對待評估大語言模型進行評估，得到評估結果。

27、進一步，多個候選答案包括：人工標注的候選答案和通過預設大語言模型所生成的候選答案。

28、進一步，還包括交互模塊，交互模塊用于：當評估結果符合期望標準時，利用待評估大語言模型生成用戶所提出的問題的答案，并提供給用戶。

29、進一步，預設問題為關于保險的問題。

30、3)第三方面，本專利技術還提供一種電子設備，電子設備包括處理器，處理器與存儲器耦合，存儲器中存儲有至少一條計算機程序，至少一條計算機程序由處理器加載并執行，以使電子設備實現上述任一項大語言模型的評估方法。

31、4)第四方面，本專利技術還提供一種計算機可讀存儲介質，計算機可讀存儲介質中存儲有至少一條計算機程序，至少一條計算機程序由處理器加載并執行，以使計算機實現上述任一項大語言模型的評估方法。

32、需要說明的是，本專利技術的第二方面至第四方面的技術方案及對應的可能的實現方式所取得的有益效果，可以參見上述對第一方面及其對應的可能的實現方式的技術效果，此處不再贅述。

本文檔來自技高網...

【技術保護點】

1.一種大語言模型的評估方法，其特征在于，包括：

2.根據權利要求1所述的一種大語言模型的評估方法，其特征在于，根據最大相似度均值，對所述待評估大語言模型進行評估，得到評估結果，包括：

3.根據權利要求1所述的一種大語言模型的評估方法，其特征在于，多個候選答案包括：人工標注的候選答案和通過預設大語言模型所生成的候選答案。

4.根據權利要求1至3任一項所述的一種大語言模型的評估方法，其特征在于，還包括：當所述評估結果符合期望標準時，利用所述待評估大語言模型生成用戶所提出的問題的答案，并提供給用戶。

5.根據權利要求1至3任一項所述的一種大語言模型的評估方法，其特征在于，所述預設問題為關于保險的問題。

6.一種大語言模型的評估系統，其特征在于，包括候選答案生成模塊、答案生成模塊、相似度計算模塊和評估模塊；

7.根據權利要求6所述的一種大語言模型的評估系統，其特征在于，所述評估模塊具體用于：

8.根據權利要求6所述的一種大語言模型的評估系統，其特征在于，多個候選答案包括：人工標注的候選答案和通過預設大語言模型所生成的候選答案。

9.一種電子設備，其特征在于，所述電子設備包括處理器，所述處理器與存儲器耦合，所述存儲器中存儲有至少一條計算機程序，所述至少一條計算機程序由所述處理器加載并執行，以使所述電子設備實現如權利要求1至5任一項權利要求所述的一種大語言模型的評估方法。

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質中存儲有至少一條計算機程序，所述至少一條計算機程序由處理器加載并執行，以使計算機實現如權利要求1至5任一項權利要求所述的一種大語言模型的評估方法。

...

【技術特征摘要】

1.一種大語言模型的評估方法，其特征在于，包括：

2.根據權利要求1所述的一種大語言模型的評估方法，其特征在于，根據最大相似度均值，對所述待評估大語言模型進行評估，得到評估結果，包括：

3.根據權利要求1所述的一種大語言模型的評估方法，其特征在于，多個候選答案包括：人工標注的候選答案和通過預設大語言模型所生成的候選答案。

5.根據權利要求1至3任一項所述的一種大語言模型的評估方法，其特征在于，所述預設問題為關于保險的問題。

6.一種大語言模型的評估系統，其特征在于，包括候選答案生成模塊、答案生成模塊、相似度...

【專利技術屬性】
技術研發人員：孫雅琳，張晗，
申請(專利權)人：陽光數智科技有限責任公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術