System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码一区二区三区爆白浆,亚洲 无码 在线 专区,无码人妻精品一二三区免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大模型內容生成能力測評方法及裝置制造方法及圖紙

    技術編號:44236574 閱讀:9 留言:0更新日期:2025-02-11 13:37
    本申請提供了一種大模型內容生成能力測評方法及裝置,該方法包括:基于目標大模型的多維度的推理能力,獲取用于對目標大模型進行測評的目標數據集,基于目標數據集對目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,基于目標大模型的每個維度的推理能力的得分和目標大模型的使用場景,得到對應的加權平均分,并將加權平均分確定為目標大模型的多維度的推理能力的第一總分。

    【技術實現步驟摘要】

    本申請涉及人工智能,具體而言,涉及一種大模型內容生成能力測評方法及裝置


    技術介紹

    1、隨著人工智能的快速發展,ai大模型也隨之得到廣泛的運用,而各種各樣ai大模型的發展,就涉及到對大模型本身能力的測試,以比較不同大模型的能力。

    2、目前,一般通過大模型測評工具對大模型進行測試,具體是大模型測評工具通過標準化的測試案例和數據集,利用清晰的性能指標來衡量模型的準確性、效率和泛化能力。

    3、但是,當前大模型的技術更新迭代較快,現有的大模型測評方法難以第一時間兼容剛發布不久的大模型,且測試的數據集并非自主設計維護,難以針對待測的大模型的應用場景對問題集和測評流程進行靈活調整,此外,也少見大模型針對保險這一垂直領域的表現的測評。


    技術實現思路

    1、有鑒于此,本申請的目的在于提供一種大模型內容生成能力測評方法及裝置,通過體現保險領域數據的目標數據集對目標大模型的不同維度的推理能力進行測評,且調用目標大模型的接口進行測評,由于直接通過調用大模型服務接口測試大模型的能力,則無需關注大模型底層技術的迭代,避免了測評方案對最新大模型的不兼容,同時,由于通過自主搭建的目標數據集來測試大模型,可以針對大模型的目標數據集和測評流程進行靈活調整,此外,也可以針對保險這一垂直領域對大模型進行測評。

    2、第一方面,本申請實施例提供了一種大模型內容生成能力測評方法,所述方法包括:

    3、基于目標大模型的多維度的推理能力,獲取用于對所述目標大模型進行測評的目標數據集;其中,所述目標數據集包括多個評測問題集;所述目標數據集體現了保險領域數據;

    4、基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分;

    5、基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,并將所述加權平均分確定為所述目標大模型的多維度的推理能力的第一總分。

    6、在一種可能的實施方式中,所述基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,包括:

    7、針對所述目標大模型的一維度的推理能力,基于該維度的推理能力從所述目標數據集中選擇對應的評測問題,并基于所述評測問題獲取所述目標大模型的回答;

    8、確定該維度的推理能力對應的評分體系,并基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分;其中,所述評分體系包括多個評分維度,每個評分維度對應一個權重。

    9、在一種可能的實施方式中,所述基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分,包括:

    10、針對所述評分體系的每個評分維度,設置每個評分維度對應的權重和等級標準;其中,所述等級標準包括多個等級,不同的等級對應不同的評分區間;評分維度包括多個一級維度;每個一級維度對應一個權重;每個一級維度下包括多個二級維度;

    11、確定用于評分的裁判大模型,基于所述裁判大模型,并根據每個評分維度的權重和等級標準,得到每個維度的推理能力的得分。

    12、在一種可能的實施方式中,所述基于每個評分維度的權重和等級標準,得到每個維度的推理能力的得分,包括:

    13、基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數;

    14、基于每個評分維度針對所述目標大模型的分數和每個評分維度的權重,得到每個維度的推理能力的得分。

    15、在一種可能的實施方式中,所述基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數,包括:

    16、基于每個評分維度的所述等級標準和每個評分維度下包括的每個二級維度對所述目標大模型的所述回答的內容質量進行評分,得到每個二級維度的二級評分;

    17、基于所述二級維度的二級評分得到對應的一級維度的一級評分,并基于每個一級維度的一級評分和每個評分維度的權重,得到該評分維度針對所述目標大模型的回答的分數。

    18、在一種可能的實施方式中,所述基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,包括:

    19、基于目標大模型的使用場景為每個維度的推理能力的得分設置對應的權重;

    20、基于每個維度的推理能力的得分和權重,得到所述目標大模型的加權平均分。

    21、在一種可能的實施方式中,本申請的大模型內容生成能力測評方法還包括:

    22、獲取目標用戶對所述目標大模型的多維度的推理能力進行測評得到的第二總分;其中,所述第二總分表征了人為對所述目標大模型的多維度的推理能力進行測評的總分數;

    23、基于所述目標大模型的使用場景分別確定所述第二總分和所述第一總分的權重,并基于所述第二總分和所述第一總分的權重,以及第二總分和所述第一總分,得到所述目標大模型的每個維度的推理能力的第三總分。

    24、第二方面,本申請實施例還提供了一種大模型內容生成能力測評裝置,所述裝置包括:

    25、第一獲取模塊,用于基于目標大模型的多維度的推理能力,獲取用于對所述目標大模型進行測評的目標數據集;其中,所述目標數據集包括多個評測問題集;所述目標數據集體現了保險領域數據;

    26、第二獲取模塊,用于基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分;

    27、第三獲取模塊,用于基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,并將所述加權平均分確定為所述目標大模型的多維度的推理能力的第一總分。

    28、在一種可能的實施方式中,所述第二獲取模塊,具體用于:

    29、針對所述目標大模型的一維度的推理能力,基于該維度的推理能力從所述目標數據集中選擇對應的評測問題,并基于所述評測問題獲取所述目標大模型的回答;

    30、確定該維度的推理能力對應的評分體系,并基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分;其中,所述評分體系包括多個評分維度,每個評分維度對應一個權重。

    31、在一種可能的實施方式中,所述第二獲取模塊,具體用于:

    32、針對所述評分體系的每個評分維度,設置每個評分維度對應的權重和等級標準;其中,所述等級標準包括多個等級,不同的等級對應不同的評分區間;評分維度包括多個一級維度;每個一級維度對應一個權重;每個一級維度下包括多個二級維度;

    33、確定用于評分的裁判大模型,基于所述裁判大模型,并根據每個評分維度的權重和等級標準,得到每個維度的推理能力的得分。

    34、在一種可能的實施方式中,所述第二獲取模塊,具體用于:

    35、基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數;

    36、基于每個評分維度針本文檔來自技高網...

    【技術保護點】

    1.一種大模型內容生成能力測評方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,包括:

    3.根據權利要求2所述的方法,其特征在于,所述基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分,包括:

    4.根據權利要求3所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,得到每個維度的推理能力的得分,包括:

    5.根據權利要求4所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數,包括:

    6.根據權利要求3所述的方法,其特征在于,所述基于所述目標大模型的每個維度的推理能力的得分和所述目標大模型的使用場景,得到對應的加權平均分,包括:

    7.根據權利要求2所述的方法,其特征在于,所述方法還包括:

    8.一種大模型內容生成能力測評裝置,其特征在于,所述裝置包括:

    9.一種電子設備,其特征在于,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執行的機器可讀指令,當電子設備運行時,所述處理器與所述存儲器之間通過總線通信,所述機器可讀指令被所述處理器執行時執行如權利要求1至7任意一項所述的大模型內容生成能力測評方法的步驟。

    10.一種計算機可讀存儲介質,其特征在于,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行如權利要求1至7任意一項所述的大模型內容生成能力測評方法的步驟。

    ...

    【技術特征摘要】

    1.一種大模型內容生成能力測評方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述目標數據集對所述目標大模型的不同維度的推理能力進行測評,得到每個維度的推理能力的得分,包括:

    3.根據權利要求2所述的方法,其特征在于,所述基于所述評分體系對所述回答進行評分,得到每個維度的推理能力的得分,包括:

    4.根據權利要求3所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,得到每個維度的推理能力的得分,包括:

    5.根據權利要求4所述的方法,其特征在于,所述基于每個評分維度的權重和等級標準,確定該評分維度針對所述目標大模型的所述回答的分數,包括:

    6.根據權利要求3所述的方法,其特征在于,所述基于所述目標...

    【專利技術屬性】
    技術研發人員:黃賢金李尉誠蔡文頌王卓鑫侯紹林
    申請(專利權)人:中國人壽保險股份有限公司上海數據中心
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码专区6080yy国产电影| 无码av大香线蕉伊人久久| 久久久久亚洲精品无码网址| 无码视频在线播放一二三区| 久久久久亚洲av无码专区喷水| 西西大胆无码视频免费| 国产午夜无码精品免费看| 日韩av片无码一区二区不卡电影| 成人午夜亚洲精品无码网站| 亚洲爆乳大丰满无码专区| 高清无码视频直接看| 亚洲区日韩区无码区| 亚洲另类无码一区二区三区| 超清无码熟妇人妻AV在线电影| 成人免费a级毛片无码网站入口| 国产精品亚洲а∨无码播放 | 成人h动漫精品一区二区无码| 无码国产精品一区二区免费模式| aⅴ一区二区三区无卡无码| 亚洲AV日韩AV永久无码色欲| 精品无码一区在线观看| 亚洲av无码一区二区乱子伦as| 无码 免费 国产在线观看91| 性色av无码免费一区二区三区| 亚洲中文无码永久免| 亚洲AV无码成人专区| 无码不卡av东京热毛片| 无码一区二区三区免费| 亚洲国产精品无码久久久秋霞2| 中文字幕久无码免费久久| 久久亚洲av无码精品浪潮| 亚洲人成无码网站久久99热国产| 日韩人妻无码免费视频一区二区三区| 影音先锋中文无码一区| 无码福利写真片视频在线播放| 无码毛片AAA在线| 无码少妇丰满熟妇一区二区| 日韩精品人妻系列无码av东京 | 亚洲人av高清无码| 中文无码精品A∨在线观看不卡| 精品人妻系列无码天堂|