System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,具體而言,涉及一種大模型內容生成能力測評方法及裝置。
技術介紹
1、隨著人工智能的快速發展,ai大模型也隨之得到廣泛的運用,而各種各樣ai大模型的發展,就涉及到對大模型本身能力的測試,以比較不同大模型的能力。
2、目前,一般通過大模型測評工具對大模型進行測試,具體是大模型測評工具通過標準化的測試案例和數據集,利用清晰的性能指標來衡量模型的準確性、效率和泛化能力。
3、但是,當前大模型的技術更新迭代較快,現有的大模型測評方法難以第一時間兼容剛發布不久的大模型,且測試的數據集并非自主設計維護,難以針對待測的大模型的應用場景對問題集和測評流程進行靈活調整,此外,也少見大模型針對保險這一垂直領域的表現的測評。
技術實現思路
1、有鑒于此,本申請的目的在于提供一種大模型內容生成能力測評方法及裝置,通過體現保險領域數據的目標數據集對目標大模型的不同維度的推理能力進行測評,且調用目標大模型的接口進行測評,由于直接通過調用大模型服務接口測試大模型的能力,則無需關注大模型底層技術的迭代,避免了測評方案對最新大模型的不兼容,同時,由于通過自主搭建的目標數據集來測試大模型,可以針對大模型的目標數據集和測評流程進行靈活調整,此外,也可以針對保險這一垂直領域對大模型進行測評。
2、第一方面,本申請實施例提供了一種大模型內容生成能力測評方法,所述方法包括:
3、基于目標大模型的多維度的推理能力,獲取用于對所述目標大模型進行測評的目標數據集;其
4、基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分;
5、基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,并將所述加權平均分確定為所述目標大模型的多維度的推理能力的第一總分。
6、在一種可能的實施方式中,所述基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,包括:
7、針對所述目標大模型的一維度的推理能力,基于該維度的推理能力從所述目標數據集中選擇對應的評測問題,并基于所述評測問題獲取所述目標大模型的回答;
8、確定該維度的推理能力對應的評分體系,并基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分;其中,所述評分體系包括多個評分維度,每個評分維度對應一個權重。
9、在一種可能的實施方式中,所述基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分,包括:
10、針對所述評分體系的每個評分維度,設置每個評分維度對應的權重和等級標準;其中,所述等級標準包括多個等級,不同的等級對應不同的評分區間;評分維度包括多個一級維度;每個一級維度對應一個權重;每個一級維度下包括多個二級維度;
11、確定用于評分的裁判大模型,基于所述裁判大模型,并根據每個評分維度的權重和等級標準,得到每個維度的推理能力的得分。
12、在一種可能的實施方式中,所述基于每個評分維度的權重和等級標準,得到每個維度的推理能力的得分,包括:
13、基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數;
14、基于每個評分維度針對所述目標大模型的分數和每個評分維度的權重,得到每個維度的推理能力的得分。
15、在一種可能的實施方式中,所述基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數,包括:
16、基于每個評分維度的所述等級標準和每個評分維度下包括的每個二級維度對所述目標大模型的所述回答的內容質量進行評分,得到每個二級維度的二級評分;
17、基于所述二級維度的二級評分得到對應的一級維度的一級評分,并基于每個一級維度的一級評分和每個評分維度的權重,得到該評分維度針對所述目標大模型的回答的分數。
18、在一種可能的實施方式中,所述基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,包括:
19、基于目標大模型的使用場景為每個維度的推理能力的得分設置對應的權重;
20、基于每個維度的推理能力的得分和權重,得到所述目標大模型的加權平均分。
21、在一種可能的實施方式中,本申請的大模型內容生成能力測評方法還包括:
22、獲取目標用戶對所述目標大模型的多維度的推理能力進行測評得到的第二總分;其中,所述第二總分表征了人為對所述目標大模型的多維度的推理能力進行測評的總分數;
23、基于所述目標大模型的使用場景分別確定所述第二總分和所述第一總分的權重,并基于所述第二總分和所述第一總分的權重,以及第二總分和所述第一總分,得到所述目標大模型的每個維度的推理能力的第三總分。
24、第二方面,本申請實施例還提供了一種大模型內容生成能力測評裝置,所述裝置包括:
25、第一獲取模塊,用于基于目標大模型的多維度的推理能力,獲取用于對所述目標大模型進行測評的目標數據集;其中,所述目標數據集包括多個評測問題集;所述目標數據集體現了保險領域數據;
26、第二獲取模塊,用于基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分;
27、第三獲取模塊,用于基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,并將所述加權平均分確定為所述目標大模型的多維度的推理能力的第一總分。
28、在一種可能的實施方式中,所述第二獲取模塊,具體用于:
29、針對所述目標大模型的一維度的推理能力,基于該維度的推理能力從所述目標數據集中選擇對應的評測問題,并基于所述評測問題獲取所述目標大模型的回答;
30、確定該維度的推理能力對應的評分體系,并基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分;其中,所述評分體系包括多個評分維度,每個評分維度對應一個權重。
31、在一種可能的實施方式中,所述第二獲取模塊,具體用于:
32、針對所述評分體系的每個評分維度,設置每個評分維度對應的權重和等級標準;其中,所述等級標準包括多個等級,不同的等級對應不同的評分區間;評分維度包括多個一級維度;每個一級維度對應一個權重;每個一級維度下包括多個二級維度;
33、確定用于評分的裁判大模型,基于所述裁判大模型,并根據每個評分維度的權重和等級標準,得到每個維度的推理能力的得分。
34、在一種可能的實施方式中,所述第二獲取模塊,具體用于:
35、基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數;
36、基于每個評分維度針本文檔來自技高網...
【技術保護點】
1.一種大模型內容生成能力測評方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分,包括:
4.根據權利要求3所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,得到每個維度的推理能力的得分,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數,包括:
6.根據權利要求3所述的方法,其特征在于,所述基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,包括:
7.根據權利要求2所述的方法,其特征在于,所述方法還包括:
8.一種大模型內容生成能力測評裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:處
10.一種計算機可讀存儲介質,其特征在于,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行如權利要求1至7任意一項所述的大模型內容生成能力測評方法的步驟。
...【技術特征摘要】
1.一種大模型內容生成能力測評方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分,包括:
4.根據權利要求3所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,得到每個維度的推理能力的得分,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數,包括:
6.根據權利要求3所述的方法,其特征在于,所述基于所述目標...
【專利技術屬性】
技術研發人員:黃賢金,李尉誠,蔡文頌,王卓鑫,侯紹林,
申請(專利權)人:中國人壽保險股份有限公司上海數據中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。