System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲一区二区三区AV无码,mm1313亚洲精品无码又大又粗,国产无码网页在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>復旦大學專利>正文

    面向大語言模型的多芯粒存算一體計算裝置制造方法及圖紙

    技術編號:44501981 閱讀:6 留言:0更新日期:2025-03-07 13:01
    本發明專利技術提供了一種面向大語言模型的多芯粒存算一體計算裝置,具有這樣的特征,包括一個IO芯粒和多個PIM芯粒,其中,IO芯粒包括:嵌入模塊用于生成嵌入向量并添加位置編碼;IO側數據通信模塊對待計算向量進行裁切并分配至各個PIM芯粒,并接收各個PIM芯粒發送的局部計算反饋向量;同步模塊,用于將各個局部計算反饋向量進行同步以及執行殘差相加和層歸一化計算;token存儲器,PIM芯粒包括:PIM側數據通信模塊;全局存儲器;多個PIM?bank模塊存儲有大語言模型的網絡權重,用于根據局部計算向量執行向量?矩陣乘法生成對應的局部計算反饋向量;softmax模塊。總之,本方法能夠提高大語言模型的推理速度。

    【技術實現步驟摘要】

    本專利技術屬于大語言模型推理以及存內處理集成芯片領域,具體涉及一種面向大語言模型的多芯粒存算一體計算裝置


    技術介紹

    1、由于集成芯片的靈活性和可擴展性,多種基于集成芯片的技術已經被提出用于高性能計算,包括不同的硬件架構方案與工作負載劃分方案。

    2、transpim實現了一種基于高帶寬存儲器即hbm的pim架構,每個hbm堆棧具有3d堆疊的多個動態隨機存儲器即dram芯粒,位于計算芯粒的頂部,通過硅通孔tsv連接以提供更高的帶寬和更低的訪問延遲;transpim采用基于令牌即token的分片bank方式,將靜態線性層內不同token的計算劃分到不同的bank上以避免層內數據移動,并且設計token在bank間的數據流減少了自注意力期間的數據移動。然而,為了在大語言模型即llm預填充期間實現并行計算,它在多個hbm-bank中復制了相同的權重矩陣,難以容納較大的模型。

    3、comb-mcm實現了支持非結構化自適應功耗調節的無損數字pim電路,采用可擴展的集成芯片架構,在65nm下實現2.5d扇出封裝,每個芯粒具有單位存儲與計算資源,通過配置芯粒數量完成存儲與計算容量的按比例增長。comb-mcm采用的集成芯片架構為單一封裝內的異質異構集成提供了新的設計思路,但缺乏針對llm全流程的特定優化,需要額外的硬件支持llm的非線性算子、支持數據同步。

    4、simba對細粒度集成芯片進行dnn推理的成本和收益進行建模,可簡單地進行任意數量芯粒的擴展,支持dnn層到分布式計算和存儲單元的靈活映射并引入平鋪優化。gemini實現了dnn多核加速器集成芯片的“層-管道”lp映射方案,考慮推理性能、能耗、單芯粒與裸片間通信即d2d的制造成本,準確定義lp的優化空間并采用模擬退火sa引擎進行探索。

    5、上述現有的集成芯片上的工作負載劃分方案主要面向傳統的dnn網絡,缺乏對llm特殊模型架構的支持、對預填充和解碼不同過程的支持,工作負載劃分仍然具有很大的優化潛力。


    技術實現思路

    1、本專利技術是為了解決上述問題而進行的,目的在于提供一種面向大語言模型的多芯粒存算一體計算裝置。

    2、本專利技術提供了一種面向大語言模型的多芯粒存算一體計算裝置,具有這樣的特征,包括:一個io芯粒和多個pim芯粒,其中,io芯粒包括:嵌入模塊,用于對輸入大語言模型的token生成嵌入向量并添加位置編碼;io側數據通信模塊,對待計算向量進行裁切并分配至各個pim芯粒,并接收各個pim芯粒發送的局部計算反饋向量;同步模塊,用于將各個局部計算反饋向量進行同步,以及執行殘差相加和層歸一化計算;token存儲器,用于存儲大語言模型推理過程中生成的中間計算結果,pim芯粒包括:pim側數據通信模塊,用于與io芯粒進行數據通信;全局存儲器,存儲裁切的待計算向量作為局部計算向量;多個pim-bank模塊,存儲有大語言模型的網絡權重,用于根據局部計算向量執行向量-矩陣乘法,生成對應的局部計算反饋向量;softmax模塊,用于進行softmax計算。

    3、在本專利技術提供的面向大語言模型的多芯粒存算一體計算裝置中,還可以具有這樣的特征:其中,pim-bank模塊包括:子存儲器,存儲有部分網絡權重;io單元,與全局存儲器、softmax模塊和pim側數據通信模塊進行數據通信;計算單元,用于執行向量-矩陣乘法。

    4、在本專利技術提供的面向大語言模型的多芯粒存算一體計算裝置中,還可以具有這樣的特征:其中,在大語言模型的一個transformer層中,對待計算向量進行自注意力計算得到結果的過程,包括以下步驟:步驟s1,io側數據通信模塊對待計算向量進行裁切并分配至各個pim芯粒;步驟s2,在各個pim芯粒中,pim側數據通信模塊接收裁切的待計算向量作為局部計算向量,并將該局部計算向量存儲至全局存儲器;步驟s3,在各個pim芯粒中,計算單元根據局部計算向量和網絡權重進行向量-矩陣乘法得到對應的q向量、k向量和v向量,并將q向量存儲至全局存儲器,將k向量和v向量存儲至子存儲器;步驟s4,在各個pim芯粒中,計算單元對k向量和q向量進行向量-矩陣乘法得到對應的s向量,并通過io單元傳輸至softmax模塊;步驟s5,在各個pim芯粒中,softmax模塊對s向量進行softmax計算得到對應的p向量,并將p向量存儲至全局存儲器;步驟s6,在各個pim芯粒中,計算單元對p向量和v向量進行向量-矩陣乘法得到對應的局部a向量,并通過pim側數據通信模塊發送至io芯粒;步驟s7,同步模塊對所有局部a向量進行同步生成a向量;步驟s8,io側數據通信模塊將a向量進行裁切并分配至各個pim芯粒;步驟s9,在各個pim芯粒中,計算單元對部分a向量和網絡權重進行向量-矩陣乘法得到局部自注意力后投影輸出向量,并通過pim側數據通信模塊發送至io芯粒;步驟s10,同步模塊對所有局部自注意力后投影輸出向量進行同步生成自注意力后投影輸出向量;步驟s11,同步模塊根據待計算向量和自注意力后投影輸出向量依次進行殘差相加計算和層歸一化計算,得到結果。

    5、在本專利技術提供的面向大語言模型的多芯粒存算一體計算裝置中,還可以具有這樣的特征:其中,在大語言模型的一個transformer層中,對待計算向量進行前饋計算得到結果的過程,包括以下步驟:步驟t1,io側數據通信模塊對待計算向量進行裁切并分配至各個pim芯粒;步驟t2,在各個pim芯粒中,計算單元根據接收的待計算向量和網絡權重進行向量-矩陣乘法得到局部升維投影輸出向量,并通過pim側數據通信模塊發送至io芯粒;步驟t3,同步模塊對所有局部升維投影輸出向量進行同步生成升維投影輸出向量;步驟t4,io側數據通信模塊對升維投影輸出向量進行裁切并分配至各個pim芯粒;步驟t5,在各個pim芯粒中,計算單元根據接收的升維投影輸出向量和網絡權重進行向量-矩陣乘法得到局部降維投影輸出向量,并通過pim側數據通信模塊發送至io芯粒;步驟t6,同步模塊對所有局部降維投影輸出向量進行同步生成降維投影輸出向量;步驟t7,同步模塊根據待計算向量和降維投影輸出向量依次進行殘差相加計算和層歸一化計算,得到結果。

    6、在本專利技術提供的面向大語言模型的多芯粒存算一體計算裝置中,還可以具有這樣的特征:其中,在多頭注意力計算中,io側數據通信模塊將待計算向量按照注意力頭進行裁切并分配至各個pim芯粒,各個pim芯粒進行對應的注意力頭的計算。

    7、在本專利技術提供的面向大語言模型的多芯粒存算一體計算裝置中,還可以具有這樣的特征:其中,對任意一個pim芯粒,io側數據通信模塊將該pim芯粒待處理的局部計算向量裁切為多個局部計算子向量,并依次發送至該pim芯粒,該pim芯粒對每個時間步接收到的局部計算子向量,結合全局存儲器中存儲的對應的網絡權重進行計算,并將當前時間步的計算結果與之前時間步的計算結果匯總并存儲至全局存儲器,直至接收到所有局部計算子向量。

    8、在本專利技術提供的面向大語言模型的多芯粒存算一體計算裝置中本文檔來自技高網...

    【技術保護點】

    1.一種面向大語言模型的多芯粒存算一體計算裝置,用于加載大語言模型并進行推理,其特征在于,包括:

    2.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    3.根據權利要求2所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    4.根據權利要求2所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    5.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    6.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    7.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    8.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    9.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    10.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    【技術特征摘要】

    1.一種面向大語言模型的多芯粒存算一體計算裝置,用于加載大語言模型并進行推理,其特征在于,包括:

    2.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    3.根據權利要求2所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    4.根據權利要求2所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于:

    5.根據權利要求1所述的面向大語言模型的多芯粒存算一體計算裝置,其特征在于...

    【專利技術屬性】
    技術研發人員:陳遲曉劉詩瑋馬宇杰黃至銳林鋒
    申請(專利權)人:復旦大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产精品成人精品无码区在线| 亚洲成?v人片天堂网无码| 东京热人妻无码一区二区av| 中文字幕精品无码一区二区| 无码免费一区二区三区免费播放| 天堂Av无码Av一区二区三区| 中文精品无码中文字幕无码专区 | 国产精品xxxx国产喷水亚洲国产精品无码久久一区| 免费无码又爽又刺激高潮的视频| 中文字幕精品无码亚洲字| 99精品一区二区三区无码吞精| 国产啪亚洲国产精品无码| 亚洲av永久无码一区二区三区| 国产精品无码日韩欧| 好了av第四综合无码久久| 精品无码国产一区二区三区AV | mm1313亚洲精品无码又大又粗| 亚洲av永久无码精品三区在线4 | yy111111少妇影院里无码| 精品无码久久久久国产动漫3d| 一本一道av中文字幕无码| 五月天无码在线观看| 色欲aⅴ亚洲情无码AV| 亚洲国产精品无码久久九九大片| 亚洲 另类 无码 在线| 中文字幕AV无码一区二区三区| 亚洲日韩精品一区二区三区无码| 久久国产精品无码网站| 国产精品无码亚洲一区二区三区 | 激情无码人妻又粗又大| 日韩av片无码一区二区不卡电影| 毛片免费全部播放无码| 毛片无码免费无码播放| 老司机亚洲精品影院无码| 无码国产精品一区二区免费3p| 亚洲AV区无码字幕中文色| 无码人妻一区二区三区免费n鬼沢| 亚洲国产精品成人精品无码区| 无码成A毛片免费| 无码人妻精品一区二区三区久久 | 永久免费无码日韩视频|