System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文字幕久久精品无码APP,国产精品三级在线观看无码,久久久久亚洲AV无码专区首
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于算法與硬件協同的神經網絡加速方法、裝置及加速器制造方法及圖紙

    技術編號:44262784 閱讀:6 留言:0更新日期:2025-02-14 22:07
    本發明專利技術涉及一種基于算法與硬件協同的神經網絡加速方法、裝置及加速器,該方法包括:基于稀疏性閾值,處理量化張量的值級索引,以生成層元數據,并動態調整稀疏性模式;根據符號轉換和位查找表識別非零比特的位置和數量,并將處理后的數據放入位分組中,以消除無貢獻位;處理位分組,并將從層元數據中提取的自適應索引機制的相關輸入和張量分配到位彈性計算單元,且根據非零比特位數執行移位加法計算;基于列式計算陣列,指令所有陣列在預設周期內完成乘法運算,并存儲部分積以及對應于各自位寬的數據流。該發明專利技術能夠使加速器控制器在計算過程中高效跳過這些零位,同時,提升了位級加速器的性能和適用性。

    【技術實現步驟摘要】

    本專利技術涉及神經網絡領域,特別是涉及一種基于算法與硬件協同的神經網絡加速方法、裝置及加速器


    技術介紹

    1、傳統的位級加速器可分為位交叉、位并行和位串行三類,大多數關注值內的位級稀疏性,部分位級加速器提出部分采用的硬件高效近似策略,這種策略會導致推理精度的相應下降。為了平衡張量精度與模型準確性,越來越多的加速器探索并應用位級稀疏性,以實現顯著的能效提升。盡管利用位稀疏性進行加速,但零位的隨機分布使得加速器控制器在計算過程中無法高效跳過這些零位,從而影響了硬件的高效利用。這一挑戰在細粒度并行任務中尤為顯著,其中這種不平衡可能限制了位級加速器的性能和更廣泛的適用性,因此,需要對其進行改進。


    技術實現思路

    1、基于此,有必要針對傳統的位級加速器盡管利用位稀疏性進行加速,但零位的隨機分布使得加速器控制器在計算過程中無法高效跳過這些零位,從而影響了硬件的高效利用,這種不平衡可能限制了位級加速器的性能和更廣泛的適用性的問題,提供一種基于算法與硬件協同的神經網絡加速方法、裝置及加速器。

    2、本專利技術提供的一種基于算法與硬件協同的神經網絡加速方法,所述方法包括:

    3、基于稀疏性閾值,處理量化張量的值級索引,以生成層元數據,并動態調整稀疏性模式,所述層元數據包括起始地址、結束地址、索引地址以及稠密性或稀疏性標志;

    4、根據符號轉換和位查找表識別非零比特的位置和數量,并將處理后的數據放入位分組中,以消除無貢獻位;

    5、處理位分組,并將從層元數據中提取的自適應索引機制的相關輸入和張量分配到位彈性計算單元,且根據非零比特位數執行移位加法計算;

    6、基于列式計算陣列,指令所有陣列在預設周期內完成乘法運算,并存儲部分積以及對應于各自位寬的數據流。

    7、在其中一個實施例中,所述基于稀疏性閾值分別處理量化張量的值級索引,以生成層元數據,并動態調整稀疏性模式,包括:

    8、獲取每層神經網絡的起始地址、結束地址、索引地址以及稠密性或稀疏性標志,并識別每層神經網絡的稀疏比例;

    9、響應于當層神經網絡稀疏性小于稀疏閾值,存儲張量值以稠密格式表示,以生成連續的索引范圍;

    10、響應于當層神經網絡稀疏性超過稀疏閾值,存儲非零元素的值及其索引位置。

    11、在其中一個實施例中,所述識別每層神經網絡的稀疏比例,包括:

    12、獲取每層神經網絡中的非零元素數量;

    13、將所述非零元素數量輸入神經網絡模型,輸出稀疏比例結果,所述神經網絡模型是以每層神經網絡中的非零元素數量樣本與稀疏比例樣本為訓練數據訓練得到的。

    14、在其中一個實施例中,所述根據符號轉換和位查找表識別非零比特位的位置和數量,并將處理后的數據放入位分組中,以消除無貢獻位,包括:

    15、從值級張量中提取符號標志,并將當前張量的有符號值轉換為無符號整數;

    16、基于高位查找表和低位查找表,確定非零比特數量及其位置,以生成位分組結構;

    17、在生成位分組過程中,剔除所有零比特位置,并將生成的位分組數據存儲于預緩存區。

    18、在其中一個實施例中,所述處理位分組,并將從層元數據中提取的自適應索引機制的相關輸入和張量分配到位彈性計算單元,且根據非零比特位數執行移位加法計算,包括:

    19、基于層元數據中提取的稀疏性閾值和列式計算陣列的計算能力,動態調整位分組的大小;

    20、基于自適應索引機制,從層元數據中提取索引信息,并將索引信息預存到位彈性處理單元的專用緩沖區;

    21、從預緩存區中提取位分組信息及對應的輸入和權重張量,并將其加載到位彈性處理單元的專用緩沖區;

    22、解析位分組中非零比特位置,并定位每個位在計算中的具體位置;

    23、基于符號標志對中間結果進行符號加法;

    24、執行分組內非零比特位的累加操作,以生成部分積結果。

    25、在其中一個實施例中,所述基于符號標志對中間結果進行符號加法,包括:

    26、響應于中間結果的兩個輸入數值的符號相同,計算兩者的總和;

    27、響應于中間結果的兩個輸入數值的符號相異,計算兩者的差值,并根據較大的絕對值確定結果的符號。

    28、本專利技術還提供了一種基于算法與硬件協同的神經網絡加速裝置,包括:

    29、調整模塊,用于基于稀疏性閾值,處理量化張量的值級索引,以生成層元數據,并動態調整稀疏性模式,所述層元數據包括起始地址、結束地址、索引地址以及稠密性或稀疏性標志;

    30、識別模塊,用于根據符號轉換和位查找表識別非零比特的位置和數量,并將處理后的數據放入位分組中,以消除無貢獻位;

    31、分配模塊,用于處理位分組,并將從層元數據中提取的自適應索引機制的相關輸入和張量分配到位彈性計算單元,且根據非零比特位數執行移位加法計算;

    32、存儲模塊,用于基于列式計算陣列,指令所有陣列在預設周期內完成乘法運算,并存儲部分積以及對應于各自位寬的數據流。

    33、本專利技術還提供了一種基于算法與硬件協同的神經網絡加速器,包括頂層控制器、預緩存調度管理器、存儲器、位彈性處理單元和列式處理陣列,所述頂層控制器處理指令,并將相應的控制信號分發到預緩存調度管理器、存儲器和位彈性處理單元,所述預緩存調度管理器用于將輸入和張量分配到位彈性處理單元,并在預緩存模塊和調度器模塊中保留層元數據和位分組,直到處理陣列完全配置,所述預緩存調度管理器中的輸入緩沖區和張量緩沖區按列方式傳輸元素,并執行模型層級的迭代,所述列式處理陣列利用位彈性處理單元進行乘法運算,并采用基于帶符號加法器處理中間結果,所述存儲器用于基于列式計算陣列,指令所有陣列在預設周期內完成乘法運算,并存儲部分積以及對應于各自位寬的數據流。

    34、在其中一個實施例中,所述位彈性處理單元包括移位單元、累加單元、多路復用器和帶符號加法器,所述移位單元用于提取非零比特位配置,所述累加單元用于聚合位置信息,所述多路復用器用于根據控制信號動態選擇輸入路徑,所述帶符號加法器用于執行最終的累加操作。

    35、本專利技術還提供了一種計算機可讀存儲介質,存儲有計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述的基于算法與硬件協同的神經網絡加速方法。

    36、上述基于算法與硬件協同的神經網絡加速方法、裝置及加速器,一方面,通過采用靜態稀疏、密集存儲格式,并結合動態位稀疏性利用方案,旨在最小化無貢獻位,方便加速器控制器在計算過程中高效跳過這些零位,同時,保留了非零位的隨機分布,以保持張量精度,為解決計算依賴性和低硬件利用率問題提供基礎,提升了位級加速器的性能和適用性,另一方面,通過具有位分組的位彈性計算單元,以實現跨不同位寬的平衡工作負載分配,列式計算陣列進一步將稀疏或密集工作負載路由到位彈性計算單元,實現可擴展的預緩存調度管理,以應對隨機非零位操作和輸入,從而提升計算效率。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于算法與硬件協同的神經網絡加速方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述基于稀疏性閾值分別處理量化張量的值級索引,以生成層元數據,并動態調整稀疏性模式,包括:

    3.根據權利要求2所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述識別每層神經網絡的稀疏比例,包括:

    4.根據權利要求3所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述根據符號轉換和位查找表識別非零比特位的位置和數量,并將處理后的數據放入位分組中,以消除無貢獻位,包括:

    5.根據權利要求4所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述處理位分組,并將從層元數據中提取的自適應索引機制的相關輸入和張量分配到位彈性計算單元,且根據非零比特位數執行移位加法計算,包括:

    6.根據權利要求4所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述基于符號標志對中間結果進行符號加法,包括:

    7.一種基于算法與硬件協同的神經網絡加速裝置,其特征在于,包括:

    8.一種基于算法與硬件協同的神經網絡加速器,其特征在于,包括頂層控制器、預緩存調度管理器、存儲器、位彈性處理單元和列式處理陣列,所述頂層控制器處理指令,并將相應的控制信號分發到預緩存調度管理器、存儲器和位彈性處理單元,所述預緩存調度管理器用于將輸入和張量分配到位彈性處理單元,并在預緩存模塊和調度器模塊中保留層元數據和位分組,直到處理陣列完全配置,所述預緩存調度管理器中的輸入緩沖區和張量緩沖區按列方式傳輸元素,并執行模型層級的迭代,所述列式處理陣列利用位彈性處理單元進行乘法運算,并采用基于帶符號加法器處理中間結果,所述存儲器用于基于列式計算陣列,指令所有陣列在預設周期內完成乘法運算,并存儲部分積以及對應于各自位寬的數據流。

    9.根據權利要求8所述的基于算法與硬件協同的神經網絡加速器,其特征在于,所述位彈性處理單元包括移位單元、累加單元、多路復用器和帶符號加法器,所述移位單元用于提取非零比特位配置,所述累加單元用于聚合位置信息,所述多路復用器用于根據控制信號動態選擇輸入路徑,所述帶符號加法器用于執行最終的累加操作。

    10.一種計算機可讀存儲介質,存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的基于算法與硬件協同的神經網絡加速方法的步驟。

    ...

    【技術特征摘要】

    1.一種基于算法與硬件協同的神經網絡加速方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述基于稀疏性閾值分別處理量化張量的值級索引,以生成層元數據,并動態調整稀疏性模式,包括:

    3.根據權利要求2所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述識別每層神經網絡的稀疏比例,包括:

    4.根據權利要求3所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述根據符號轉換和位查找表識別非零比特位的位置和數量,并將處理后的數據放入位分組中,以消除無貢獻位,包括:

    5.根據權利要求4所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述處理位分組,并將從層元數據中提取的自適應索引機制的相關輸入和張量分配到位彈性計算單元,且根據非零比特位數執行移位加法計算,包括:

    6.根據權利要求4所述的基于算法與硬件協同的神經網絡加速方法,其特征在于,所述基于符號標志對中間結果進行符號加法,包括:

    7.一種基于算法與硬件協同的神經網絡加速裝置,其特征在于,包括:

    8.一種基于算法與硬件協同的神經網絡加速器,其特征...

    【專利技術屬性】
    技術研發人員:李月婷
    申請(專利權)人:杭州市北京航空航天大學國際創新研究院北京航空航天大學國際創新學院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码久久久久久| 惠民福利中文字幕人妻无码乱精品 | 2019亚洲午夜无码天堂| 国产在线拍揄自揄拍无码| 人妻丰满熟妞av无码区| 久久中文字幕无码一区二区| 无码任你躁久久久久久久| 东京无码熟妇人妻AV在线网址| 亚洲综合无码一区二区| 亚洲av纯肉无码精品动漫| 日韩精品无码人妻免费视频| 精品无人区无码乱码毛片国产| 久久精品无码精品免费专区| 无码AV波多野结衣久久| 亚洲久热无码av中文字幕| 无码人妻精品一区二区三区不卡| 狠狠噜天天噜日日噜无码| 无码国产精品一区二区免费16| 久久无码国产专区精品| mm1313亚洲精品无码又大又粗| 久久老子午夜精品无码怎么打| 亚洲国产精品无码久久九九大片 | 无码精品国产一区二区三区免费| 亚洲色无码国产精品网站可下载| 亚洲?v无码国产在丝袜线观看 | 性无码免费一区二区三区在线| 亚洲熟妇无码av另类vr影视| 狠狠躁夜夜躁无码中文字幕| 无码精品人妻一区二区三区免费看| 亚洲精品GV天堂无码男同| 成人A片产无码免费视频在线观看| 无码人妻精品一区二区三区久久久 | 中文字幕乱偷无码AV先锋| 国产成人无码AV在线播放无广告 | 亚洲AV无码成H人在线观看| 亚欧无码精品无码有性视频| 精品久久久久久无码人妻蜜桃| 国精品无码一区二区三区在线蜜臀| yy111111少妇无码影院| 亚洲中文字幕无码中文字在线| 国内精品无码一区二区三区|