System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩夜夜高潮夜夜爽无码,国产精品一级毛片无码视频,日韩av片无码一区二区不卡电影
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>北京郵電大學(xué)專利>正文

    多層卷積算子融合優(yōu)化方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品制造方法及圖紙

    技術(shù)編號:44516330 閱讀:2 留言:0更新日期:2025-03-07 13:11
    本申請公開了一種多層卷積算子融合優(yōu)化方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,涉及編譯優(yōu)化技術(shù)領(lǐng)域,該方法包括:確定待部署模型的原始計算圖,基于硬件性能模型,確定原始計算圖中的多個可融合算子子圖;基于可融合算子子圖優(yōu)化原始計算圖,得到優(yōu)化計算圖;基于優(yōu)化計算圖和分片尺寸,得到待部署模型的并行優(yōu)化代碼;目標(biāo)機器運行并行優(yōu)化代碼,得到待部署模型的優(yōu)化性能;本申請通過基于可融合算子子圖優(yōu)化原始計算圖,能夠提高目標(biāo)機器執(zhí)行神經(jīng)網(wǎng)絡(luò)模型時的性能。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請涉及編譯優(yōu)化,特別是涉及一種多層卷積算子融合優(yōu)化方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品


    技術(shù)介紹

    1、卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,cnns)作為深度學(xué)習(xí)領(lǐng)域的重要分支,已經(jīng)在圖像識別、目標(biāo)檢測、語音識別等多個領(lǐng)域取得了顯著成果。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層(convolutional?layer)和池化層(pooling?layer)是構(gòu)成網(wǎng)絡(luò)的基本單元,它們通過卷積和池化操作提取圖像中的特征。然而,隨著網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化,計算量和內(nèi)存消耗顯著增加,成為制約cnn性能提升的關(guān)鍵因素之一。在深度卷積神經(jīng)網(wǎng)絡(luò)(dcnn)框架中,計算圖是一種非常重要的概念,它以圖形化的方式表示了神經(jīng)網(wǎng)絡(luò)的層結(jié)構(gòu)、數(shù)據(jù)流以及操作之間的依賴關(guān)系。計算圖使得框架能夠優(yōu)化執(zhí)行過程,包括但不限于內(nèi)存使用、計算效率等。在推理階段,算子融合(operatorfusion)是一種常見的優(yōu)化技術(shù),它將多個操作合并為一個單一的操作,從而減少內(nèi)存訪問次數(shù)、減少數(shù)據(jù)復(fù)制和緩存失效,提高計算效率。例如,如果一個神經(jīng)網(wǎng)絡(luò)層的輸出直接作為下一個層的輸入,那么在推理時可以合并這兩個層的前向傳播操作,避免不必要的中間數(shù)據(jù)存儲。不同的深度學(xué)習(xí)框架,如tensorflow、pytorch、mxnet等,都有自己實現(xiàn)算子融合的機制和策略。這些框架通常會提供一系列的工具和應(yīng)用程序接口,允許開發(fā)者手動優(yōu)化計算圖,或者自動應(yīng)用優(yōu)化策略。算子融合的關(guān)鍵技術(shù)包括:圖優(yōu)化、并行執(zhí)行優(yōu)化。圖優(yōu)化指的是在執(zhí)行之前,對計算圖進(jìn)行分析和轉(zhuǎn)換,以識別可以融合的算子,通過重用中間數(shù)據(jù)的內(nèi)存,減少內(nèi)存分配和釋放的開銷,提高深度學(xué)習(xí)模型的執(zhí)行效率。現(xiàn)有的tensorflow、張量代數(shù)超級優(yōu)化器(tensoralgebrasuperoptimizer,taso)等框架技術(shù),提供高級的編程接口,通過自動分析和轉(zhuǎn)換計算圖來實現(xiàn)算子融合和其他優(yōu)化。xla(加速線性代數(shù),accelerated?linearalgebra)通過將整個計算圖轉(zhuǎn)換為一個單一的、高度優(yōu)化的機器代碼,來實現(xiàn)算子融合和內(nèi)存優(yōu)化。通過重用中間數(shù)據(jù)的內(nèi)存,減少內(nèi)存分配和釋放的開銷。taso特別關(guān)注于橫向算子融合,提高程序并行度,從而提高模型的運行速度。并行執(zhí)行自動優(yōu)化,指的是編譯器通過代碼生成識別并行執(zhí)行的機會,將可以并行處理的算子分配到多個處理單元上,現(xiàn)有工作主要包括halide和張量虛擬機(tensorvirtual?machine,tvm)。halide通過分析算法的依賴關(guān)系和數(shù)據(jù)訪問模式,自動進(jìn)行算子融合和并行化,從而優(yōu)化執(zhí)行效率。tvm的自動調(diào)優(yōu)器(autotuner)可以搜索最優(yōu)的并行執(zhí)行策略,包括線程數(shù)量、塊大小等參數(shù),以適應(yīng)不同的硬件和模型。針對特定硬件(如gpu、tpu)優(yōu)化算子的實現(xiàn),以利用硬件的并行處理能力。

    2、基于傳統(tǒng)的計算圖執(zhí)行可能存在硬件效率不高的問題,尤其是在數(shù)據(jù)訪存方面開銷較大。
    技術(shù)介紹
    可能包括現(xiàn)有的神經(jīng)網(wǎng)絡(luò)計算圖構(gòu)建和執(zhí)行方法,以及深度學(xué)習(xí)編譯器中的算子融合技術(shù)。公開號為cn110321999a,名為神經(jīng)網(wǎng)絡(luò)計算圖優(yōu)化方法的專利技術(shù)專利(簡稱專利技術(shù)[1])通過減少計算平臺與外部存儲器之間的數(shù)據(jù)交互次數(shù)來提升效率。具體方法是基于優(yōu)化規(guī)則選擇具有相同特征圖輸入的橫向相鄰層,或者是前一層特征圖計算結(jié)果是后一層輸入的豎向相鄰層,并根據(jù)這些層對象融合至少兩個相鄰層看。公開號為cn112711422b,名為一種用于異構(gòu)計算的融合算子設(shè)計方法和異構(gòu)計算系統(tǒng)的專利技術(shù)專利(簡稱專利技術(shù)[2])提供了一種優(yōu)化編譯方法,通過融合神經(jīng)網(wǎng)絡(luò)中的預(yù)處理層,減少中間結(jié)果的存儲和訪問需求,確定融合層中算子的計算順序,獲取算子的輸入輸出調(diào)用次數(shù)和拆分策略,從而提高執(zhí)行效率,實現(xiàn)自動化的編譯優(yōu)化過程。公開號為cn115374912a,名為一種用于異構(gòu)計算的融合算子設(shè)計方法和異構(gòu)計算系統(tǒng)的專利技術(shù)專利(簡稱專利技術(shù)[3])通過特定的步驟對歸一化算子進(jìn)行重新設(shè)計和拆分,以優(yōu)化數(shù)據(jù)在異構(gòu)計算系統(tǒng)中的交互。公開號為cn115659281a,名為一種自適應(yīng)加速算子融合的方法及裝置的專利技術(shù)專利(簡稱專利技術(shù)[4])為神經(jīng)網(wǎng)絡(luò)計算圖節(jié)點添加關(guān)鍵屬性,并進(jìn)行圖賦權(quán),利用深度強化學(xué)習(xí)技術(shù)來自適應(yīng)地確定算子的最優(yōu)融合方案。公開號為cn110490309a,名為一種用于神經(jīng)網(wǎng)絡(luò)的算子融合方法及其相關(guān)產(chǎn)品的專利技術(shù)專利(簡稱專利技術(shù)[5])通過算子的輸出數(shù)據(jù)拆分和映射,以及基于這些數(shù)據(jù)塊尺寸的融合判斷,實現(xiàn)算子的高效融合。盡管上述優(yōu)化方法在一定程度上緩解了cnn的計算和內(nèi)存壓力,但仍然存在以下問題:1、計算圖優(yōu)化不充分:現(xiàn)有優(yōu)化方法大多針對單個算子或局部計算圖進(jìn)行優(yōu)化,缺乏對整體計算圖的全局優(yōu)化策略。這導(dǎo)致在計算圖編譯過程中,仍然存在大量的冗余計算和內(nèi)存訪問。現(xiàn)有融合方法往往針對特定算子,且缺乏針對卷積融合計算圖的泛化優(yōu)化的能力。它們在算子融合等方面存在的局限性:專利技術(shù)[1]只能有限地選擇橫向或者縱向的融合層對象,無法融合多個層,且無法結(jié)合硬件性能模型進(jìn)行針對性的性能優(yōu)化。專利技術(shù)[2]的融合能力受限,局限于對預(yù)處理層的優(yōu)化。2、靈活性差:不同的cnn模型具有不同的結(jié)構(gòu)和計算需求,而現(xiàn)有優(yōu)化方法往往缺乏足夠的靈活性,難以適應(yīng)各種復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和硬件結(jié)構(gòu)。專利技術(shù)[3]提出的融合方法,關(guān)注卷積、歸一化和激活層的融合,缺少對多個通用算子融合方案的考慮。專利技術(shù)[4]和專利技術(shù)[5]關(guān)注了計算圖本身的優(yōu)化,但是沒有結(jié)合硬件的特性進(jìn)行針對性優(yōu)化。


    技術(shù)實現(xiàn)思路

    1、本申請的目的是提供一種多層卷積算子融合優(yōu)化方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,可對部署于目標(biāo)機器的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,提高目標(biāo)機器執(zhí)行神經(jīng)網(wǎng)絡(luò)模型時的性能。

    2、為實現(xiàn)上述目的,本申請?zhí)峁┝巳缦路桨福?/p>

    3、第一方面,本申請?zhí)峁┝艘环N多層卷積算子融合優(yōu)化方法,包括:

    4、利用上位機對待部署模型進(jìn)行計算圖分析,確定原始計算圖;所述待部署模型為卷積神經(jīng)網(wǎng)絡(luò)模型;所述原始計算圖包括多個節(jié)點和多條邊;一條所述邊用于連接兩個節(jié)點;所述節(jié)點用于描述待部署模型中的操作或數(shù)據(jù);所述邊用于描述節(jié)點間的數(shù)據(jù)流動和依賴關(guān)系;所述依賴關(guān)系為第一依賴關(guān)系{1×1}或第二依賴關(guān)系{α×α},α為卷積濾波器的尺寸;

    5、構(gòu)建目標(biāo)機器的硬件性能模型;

    6、基于所述硬件性能模型,確定原始計算圖中的多個可融合算子子圖;

    7、基于所述可融合算子子圖優(yōu)化所述原始計算圖,得到優(yōu)化計算圖;

    8、基于優(yōu)化計算圖和分片尺寸,得到待部署模型的并行優(yōu)化代碼;

    9、目標(biāo)機器運行所述并行優(yōu)化代碼,得到待部署模型的優(yōu)化性能;描述所述優(yōu)化性能的性能指標(biāo)包括執(zhí)行時間和資源消耗。

    10、可選地,在利用上位機對待部署模型進(jìn)行計算圖分析,確定原始計算圖之前,還包括:

    11、將待部署模型部署到目標(biāo)機器上并運行,獲取待部署模型的原始計算結(jié)果和原始性能;描述所述原始性能的性能指標(biāo)包括執(zhí)行時間和資源消耗。

    12、可選地,在目標(biāo)機器運行優(yōu)化代碼,得到待部署模型的優(yōu)化性本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種多層卷積算子融合優(yōu)化方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,在利用上位機對待部署模型進(jìn)行計算圖分析,確定原始計算圖之前,還包括:

    3.根據(jù)權(quán)利要求2所述的多層卷積算子融合優(yōu)化方法,其特征在于,在目標(biāo)機器運行優(yōu)化代碼,得到待部署模型的優(yōu)化性能之后,還包括:

    4.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,所述可融合算子子圖的融合類別為垂直融合、水平-垂直融合或垂直-水平融合;

    5.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,基于所述可融合算子子圖優(yōu)化所述原始計算圖,得到優(yōu)化計算圖,包括:

    6.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,在基于所述可融合算子子圖優(yōu)化所述原始計算圖,得到優(yōu)化計算圖之前,還包括:

    7.一種多層卷積算子融合優(yōu)化裝置,其特征在于,所述多層卷積算子融合優(yōu)化裝置應(yīng)用如權(quán)利要求1-6任一項所述的多層卷積算子融合優(yōu)化方法,所述多層卷積算子融合優(yōu)化裝置,包括:

    8.一種計算機設(shè)備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序以實現(xiàn)權(quán)利要求1-6中任一項所述的多層卷積算子融合優(yōu)化方法。

    9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-6中任一項所述的多層卷積算子融合優(yōu)化方法。

    10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-6中任一項所述的多層卷積算子融合優(yōu)化方法。

    ...

    【技術(shù)特征摘要】

    1.一種多層卷積算子融合優(yōu)化方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,在利用上位機對待部署模型進(jìn)行計算圖分析,確定原始計算圖之前,還包括:

    3.根據(jù)權(quán)利要求2所述的多層卷積算子融合優(yōu)化方法,其特征在于,在目標(biāo)機器運行優(yōu)化代碼,得到待部署模型的優(yōu)化性能之后,還包括:

    4.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,所述可融合算子子圖的融合類別為垂直融合、水平-垂直融合或垂直-水平融合;

    5.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,基于所述可融合算子子圖優(yōu)化所述原始計算圖,得到優(yōu)化計算圖,包括:

    6.根據(jù)權(quán)利要求1所述的多層卷積算子融合優(yōu)化方法,其特征在于,在基于所述可融合算子子圖優(yōu)化所述原始...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王雪瑩李士剛付容天王菁精姚文斌馬志
    申請(專利權(quán))人:北京郵電大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码乱人伦一区二区亚洲| 中文无码成人免费视频在线观看| 国产a级理论片无码老男人| 中文字幕无码久久人妻| 日木av无码专区亚洲av毛片| 国产精品亚洲专区无码WEB| 一本一道av中文字幕无码| 亚洲熟妇无码AV不卡在线播放| 日韩综合无码一区二区| 精品人妻中文无码AV在线| AV大片在线无码永久免费| 国产成人精品无码片区在线观看| 色欲aⅴ亚洲情无码AV| 亚洲综合无码一区二区三区| 国产又爽又黄无码无遮挡在线观看 | 久久国产精品无码一区二区三区| 色综合久久久无码中文字幕波多| 久久精品无码精品免费专区| 特级无码a级毛片特黄| 国产成人无码AV片在线观看| 久久亚洲日韩看片无码| 国产在线拍偷自揄拍无码| 亚洲人成无码www久久久| 久久国产精品成人无码网站| 在线观看亚洲AV每日更新无码| 无码人妻少妇色欲AV一区二区| 成人无码AV一区二区| 狠狠躁狠狠爱免费视频无码| 亚洲成a人无码av波多野按摩| 国产成人无码区免费A∨视频网站| 色欲aⅴ亚洲情无码AV蜜桃| 69堂人成无码免费视频果冻传媒| 人妻无码第一区二区三区| 无码精品A∨在线观看| 无码专区AAAAAA免费视频| 久久精品无码专区免费青青| 精品久久久无码21p发布| 在线观看成人无码中文av天堂| 亚洲中文字幕无码中文| 精品无码久久久久久久久| 小泽玛丽无码视频一区|