System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能,尤其涉及一種模型推理方法、裝置、電子設備、存儲介質和程序產品。
技術介紹
1、大模型推理通常指的是使用大規模的神經網絡模型來進行數據分析和決策的過程。在深度學習領域,大模型通常指的是那些具有數百萬甚至數十億參數的模型,例如混合專家結構(mixture?of?experts,moe)是一種特殊的大模型架構,它旨在通過將大型模型分解為多個較小的子模型(即“專家”)來提高效率和靈活性,每個專家都專注于處理特定類型的輸入或任務。
2、moe中所有專家對應的芯片架構類型相同,也就是所有專家均采用相同類型的芯片架構進行計算,然而量化后不同專家中權重數據的規模和計算量不同,采用相同類型的芯片架構進行計算會造成硬件資源的浪費。
技術實現思路
1、本專利技術提供一種模型推理方法、裝置、電子設備、存儲介質和程序產品,用以解決現有技術中存在的缺陷。
2、本專利技術提供一種模型推理方法,包括:
3、基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度;
4、基于各權重數據的所述量化精度,確定各專家模塊對應的芯片架構類型;
5、基于各專家模塊對應的所述芯片架構類型,確定各專家模塊對應的芯片架構,以在各專家模塊對應的所述芯片架構上進行模型推理。
6、根據本專利技術提供的一種模型推理方法,各專家模塊的權重數據分布是基于各專家模塊的所述權重數據中最大元素值和最小元素值之間的變化范圍,以及各專家模塊的權
7、根據本專利技術提供的一種模型推理方法,所述基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,包括:
8、在任一專家模塊的所述權重數據中最大元素值和最小元素值之間的所述變化范圍超出預設范圍,且所述任一專家模塊的權重數據中各元素值之間的所述差異大于預設值的情況下,將第一量化精度作為所述任一專家模塊的所述權重數據的量化精度;
9、在所述任一專家模塊的所述權重數據中最大元素值和最小元素值之間的所述變化范圍在所述預設范圍內,且所述任一專家模塊的所述權重數據中各元素值之間的所述差異小于等于所述預設值的情況下,將第二量化精度作為所述任一專家模塊的所述權重數據的量化精度;
10、所述第一量化精度高于所述第二量化精度。
11、根據本專利技術提供的一種模型推理方法,所述基于各專家模塊對應的芯片架構類型,確定各專家模塊對應的芯片架構,之后還包括:
12、將各權重數據分配至對應專家模塊的所述芯片架構,以在對應所述芯片架構上進行模型推理計算。
13、根據本專利技術提供的一種模型推理方法,所述基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,之后還包括:
14、基于各權重數據的所述量化精度,對各權重數據進行量化。
15、根據本專利技術提供的一種模型推理方法,所述模型為文本生成模型。
16、本專利技術還提供一種模型推理裝置,包括:
17、精度確定單元,用于基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度;
18、架構確定單元,用于基于各權重數據的所述量化精度,確定各專家模塊對應的芯片架構類型;
19、模型推理單元,用于基于各專家模塊對應的所述芯片架構類型,確定各專家模塊對應的芯片架構,以在各專家模塊對應的所述芯片架構上進行模型推理。
20、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述模型推理方法。
21、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述模型推理方法。
22、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述模型推理方法。
23、本專利技術提供的模型推理方法、裝置、電子設備、存儲介質和程序產品,基于各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,從而可以基于各權重數據的量化精度,為各專家模塊匹配不同的芯片架構類型,并根據芯片架構類型確定各專家模塊對應的芯片架構,實現將不同專家模塊的權重數據分配至不同芯片架構上進行模型推理,也就是說,本專利技術能夠根據任務需求及復雜度為不同專家模塊適配合適的芯片架構,減少硬件資源的浪費,降低成本。
本文檔來自技高網...【技術保護點】
1.一種模型推理方法,其特征在于,包括:
2.根據權利要求1所述的模型推理方法,其特征在于,各專家模塊的所述權重數據分布是基于各專家模塊的權重數據中最大元素值和最小元素值之間的變化范圍,以及各專家模塊的權重數據中各元素值之間的差異確定的。
3.根據權利要求2所述的模型推理方法,其特征在于,所述基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,包括:
4.根據權利要求1至3任一項所述的模型推理方法,其特征在于,所述基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,之后還包括:
5.根據權利要求1至3任一項所述的模型推理方法,其特征在于,所述基于各專家模塊對應的所述芯片架構類型,確定各專家模塊對應的芯片架構,之后還包括:
6.根據權利要求1至3任一項所述的模型推理方法,其特征在于,所述模型為文本生成模型。
7.一種模型推理裝置,其特征在于,包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述模型推理方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述模型推理方法。
...【技術特征摘要】
1.一種模型推理方法,其特征在于,包括:
2.根據權利要求1所述的模型推理方法,其特征在于,各專家模塊的所述權重數據分布是基于各專家模塊的權重數據中最大元素值和最小元素值之間的變化范圍,以及各專家模塊的權重數據中各元素值之間的差異確定的。
3.根據權利要求2所述的模型推理方法,其特征在于,所述基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,包括:
4.根據權利要求1至3任一項所述的模型推理方法,其特征在于,所述基于模型中各專家模塊的權重數據分布,確定各專家模塊的權重數據的量化精度,之后還包括:
5.根據權利要求1至3任一項所述的模型推理方法,其特征在于,所述基于各專家模塊對應的所述芯片架構類型,確定...
【專利技術屬性】
技術研發人員:請求不公布姓名,請求不公布姓名,請求不公布姓名,
申請(專利權)人:上海壁仞科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。