System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于移動(dòng)計(jì)算和深度學(xué)習(xí),具體涉及一種面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法。
技術(shù)介紹
1、近年來,深度學(xué)習(xí)技術(shù)取得了顯著進(jìn)展,特別是在移動(dòng)設(shè)備上的應(yīng)用得到了廣泛關(guān)注和研究。隨著深度神經(jīng)網(wǎng)絡(luò)(dnn)在各個(gè)領(lǐng)域中的廣泛部署,越來越多的應(yīng)用選擇在移動(dòng)設(shè)備上進(jìn)行推理,以滿足隱私保護(hù)、交互延遲和降低服務(wù)器端計(jì)算成本的需求。當(dāng)前,學(xué)術(shù)界和工業(yè)界已經(jīng)開發(fā)了多種支持移動(dòng)平臺(tái)的深度學(xué)習(xí)推理框架和庫,例如google的tensorflow?lite、facebook的pytorch?mobile和apple的core?ml。這些框架提供了兼容移動(dòng)設(shè)備的操作,以支持和加速dnn推理。然而,盡管移動(dòng)設(shè)備通常配備了異構(gòu)硬件(如cpu、gpu、dsp)和各種ai加速器(如tpu、npu、vpu),現(xiàn)有的深度學(xué)習(xí)推理框架在充分利用這些硬件能力方面仍然存在較大提升空間。
2、在多處理器環(huán)境下進(jìn)行深度學(xué)習(xí)模型的協(xié)同推理時(shí),遇到了多個(gè)具體的問題和挑戰(zhàn)。首先,處理器資源利用不足。雖然移動(dòng)設(shè)備通常配備了異構(gòu)硬件(例如cpu、gpu、dsp和npu),但現(xiàn)有的深度學(xué)習(xí)推理框架通常無法充分利用這些硬件的并行計(jì)算能力。研究表明,大多數(shù)深度學(xué)習(xí)推理任務(wù)仍主要在cpu上執(zhí)行,盡管移動(dòng)設(shè)備中的ai加速器(如gpu、dsp和npu)展示了出色的計(jì)算性能,但由于對(duì)深度學(xué)習(xí)模型操作(ops)的有限支持,導(dǎo)致這些加速器的潛力未能充分發(fā)揮。其次,多模型并發(fā)執(zhí)行效率低。在實(shí)際應(yīng)用中,多個(gè)獨(dú)立或相關(guān)的dnn模型可能會(huì)同時(shí)運(yùn)行在移動(dòng)設(shè)備上,例如在智能農(nóng)業(yè)中需要同時(shí)進(jìn)
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的在于克服傳統(tǒng)技術(shù)中存在的上述問題,本專利技術(shù)的目的在于解決多處理器環(huán)境下深度學(xué)習(xí)模型推理所面臨的關(guān)鍵技術(shù)問題,包括處理器資源利用不足、多模型并發(fā)執(zhí)行效率低、回退操作導(dǎo)致的性能問題以及缺乏實(shí)時(shí)監(jiān)控機(jī)制,提供一種面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,能夠動(dòng)態(tài)優(yōu)化任務(wù)執(zhí)行策略,有效協(xié)調(diào)多個(gè)處理器的工作,從而提升深度學(xué)習(xí)模型推理的效率、吞吐量和能效。
2、為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本專利技術(shù)是通過以下技術(shù)方案實(shí)現(xiàn):
3、本專利技術(shù)提供一種面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,包括如下步驟:
4、s1、硬件監(jiān)控器實(shí)時(shí)跟蹤處理器的狀態(tài)信息,并將這些信息傳遞給模型分析器和中央調(diào)度器;
5、s2、模型加載器接收深度學(xué)習(xí)模型,并將其加載到系統(tǒng)中進(jìn)行進(jìn)一步處理;
6、s3、模型分析器解析深度學(xué)習(xí)模型的結(jié)構(gòu)信息,包括層次、操作類型、張量大小和操作的硬件兼容性;
7、s4、模型分析器將模型劃分為多個(gè)子圖,每個(gè)子圖包含一組相鄰的操作,確保子圖在特定處理器上高效運(yùn)行;
8、s5、中央調(diào)度器基于硬件監(jiān)控器提供的實(shí)時(shí)數(shù)據(jù),動(dòng)態(tài)決定子圖的執(zhí)行順序和資源分配;各處理器根據(jù)中央調(diào)度器分配的任務(wù),執(zhí)行相應(yīng)的子圖計(jì)算任務(wù),并實(shí)時(shí)報(bào)告任務(wù)的進(jìn)展和狀態(tài);
9、s6、硬件監(jiān)控器持續(xù)跟蹤處理器的狀態(tài),實(shí)時(shí)調(diào)整任務(wù)執(zhí)行順序,優(yōu)化系統(tǒng)性能。
10、進(jìn)一步地,步驟s1中,所述硬件監(jiān)控器通過調(diào)用android系統(tǒng)api實(shí)時(shí)收集處理器的狀態(tài)信息,包括負(fù)載、溫度和運(yùn)行狀態(tài)。硬件監(jiān)控器利用多線程和緩存機(jī)制,減少文件讀取頻率,確保數(shù)據(jù)收集過程高效可靠。收集到的數(shù)據(jù)將被傳遞給模型分析器和調(diào)度器,用以支持其決策過程。這樣做的目的是確保系統(tǒng)能夠在實(shí)際運(yùn)行中有效監(jiān)控和管理各個(gè)處理器的工作狀態(tài),以優(yōu)化資源利用和性能。
11、進(jìn)一步地,步驟s2中,所述模型加載器接收深度學(xué)習(xí)模型并將其加載到系統(tǒng)內(nèi)存中,所述模型加載器負(fù)責(zé)解析模型的基本結(jié)構(gòu)和詳細(xì)結(jié)構(gòu)信息,包括層次、操作類型、張量大小、操作的硬件兼容性和依賴關(guān)系;所述模型加載器還會(huì)檢查模型的完整性和兼容性,確保其能夠在系統(tǒng)中正確運(yùn)行,這一過程為后續(xù)的模型分析和優(yōu)化奠定了基礎(chǔ)。
12、進(jìn)一步地,步驟s3中,模型分析器解析深度學(xué)習(xí)模型的詳細(xì)結(jié)構(gòu)信息,包括層次結(jié)構(gòu)、操作類型、張量大小以及操作的硬件兼容性。模型分析器通過解析模型的dag(有向無環(huán)圖)結(jié)構(gòu),確定各操作之間的依賴關(guān)系,并針對(duì)無法直接在指定處理器上執(zhí)行的操作,通過構(gòu)建子圖來優(yōu)化這些操作的執(zhí)行路徑。特別是對(duì)于涉及回退操作的部分,模型分析器通過細(xì)粒度的子圖劃分,盡量減少回退操作對(duì)性能的影響,從而提高計(jì)算效率和資源利用率。
13、進(jìn)一步地,步驟s4包括如下分步驟:
14、1)模型解析器解析深度學(xué)習(xí)模型的層次結(jié)構(gòu)和操作類型,識(shí)別出模型中每一層的具體操作(如卷積、全連接、激活、池化等)及其依賴關(guān)系;同時(shí),評(píng)估每個(gè)操作在不同處理器(如cpu、gpu、dsp、npu)上的執(zhí)行效率和兼容性,確定每個(gè)處理器對(duì)特定操作的支持情況;
15、2)根據(jù)操作的硬件支持情況,將模型劃分為多個(gè)單位子圖;每個(gè)單位子圖包含一組相鄰的操作,這些操作在特定處理器上能夠高效運(yùn)行;單位子圖的劃分需考慮操作的相互依賴關(guān)系,以確保單位子圖內(nèi)部操作的執(zhí)行順序正確;
16、3)采用窗口大小參數(shù)(window_size)控制子圖的最小操作數(shù)量;窗口大小參數(shù)是根據(jù)處理器資源的利用率和調(diào)度復(fù)雜度平衡得出的,確保每個(gè)子圖能夠在指定處理器上高效執(zhí)行,同時(shí)最大限度地減少調(diào)度復(fù)雜度;
17、4)根據(jù)窗口大小參數(shù),將初始單位子圖合并為最終子圖;模型解析器對(duì)初始單位子圖進(jìn)行優(yōu)化處理,進(jìn)一步合并相鄰的單位子圖,以減少子圖數(shù)量,優(yōu)化調(diào)度效率;確保每個(gè)子圖內(nèi)部操作的執(zhí)行順序明確,能夠在指定處理器上高效執(zhí)行,并最大限度地利用硬件資源。
18、進(jìn)一步地,步驟s5中,所述中央調(diào)度器利用從硬件監(jiān)控器獲取的實(shí)時(shí)數(shù)據(jù),動(dòng)態(tài)決定各個(gè)子圖的執(zhí)行順序和資源分配,優(yōu)先選擇延遲最小且未完成的子圖任務(wù),以避免頻繁的子圖切換,并通過自適應(yīng)調(diào)度公式平衡任務(wù)緊迫性、進(jìn)度和等待時(shí)間。各處理器根據(jù)中央調(diào)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟S1中,所述硬件監(jiān)控器通過調(diào)用Android系統(tǒng)API實(shí)時(shí)收集處理器的狀態(tài)信息,包括負(fù)載、溫度和運(yùn)行狀態(tài)。
3.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟S2中,所述模型加載器接收深度學(xué)習(xí)模型并將其加載到系統(tǒng)內(nèi)存中,所述模型加載器負(fù)責(zé)解析模型的基本結(jié)構(gòu)和詳細(xì)結(jié)構(gòu)信息,包括層次、操作類型、張量大小、操作的硬件兼容性和依賴關(guān)系;所述模型加載器還會(huì)檢查模型的完整性和兼容性,確保其能夠在系統(tǒng)中正確運(yùn)行。
4.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟S3中,模型分析器解析深度學(xué)習(xí)模型的詳細(xì)結(jié)構(gòu)信息,包括層次結(jié)構(gòu)、操作類型、張量大小以及操作的硬件兼容性;模型分析器通過解析模型的DAG結(jié)構(gòu),確定各操作之間的依賴關(guān)系,并針對(duì)無法直接在指定處理器上執(zhí)行的操作,通過構(gòu)建子圖來優(yōu)化這些操作的執(zhí)行路徑;對(duì)于涉及回退操作的部分,模型
5.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟S4包括如下分步驟:
6.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟S4中,所述中央調(diào)度器利用從硬件監(jiān)控器獲取的實(shí)時(shí)數(shù)據(jù),動(dòng)態(tài)決定各個(gè)子圖的執(zhí)行順序和資源分配,優(yōu)先選擇延遲最小且未完成的子圖任務(wù),各處理器根據(jù)中央調(diào)度器分配的任務(wù),執(zhí)行相應(yīng)的子圖計(jì)算任務(wù),并實(shí)時(shí)報(bào)告任務(wù)的進(jìn)展和狀態(tài)。
7.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟S5包括如下分步驟:
8.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,所述硬件監(jiān)控器通過定期采樣和分析處理器的狀態(tài)數(shù)據(jù),識(shí)別潛在的過載和過熱問題,實(shí)時(shí)調(diào)整任務(wù)執(zhí)行順序。
...【技術(shù)特征摘要】
1.一種面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟s1中,所述硬件監(jiān)控器通過調(diào)用android系統(tǒng)api實(shí)時(shí)收集處理器的狀態(tài)信息,包括負(fù)載、溫度和運(yùn)行狀態(tài)。
3.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟s2中,所述模型加載器接收深度學(xué)習(xí)模型并將其加載到系統(tǒng)內(nèi)存中,所述模型加載器負(fù)責(zé)解析模型的基本結(jié)構(gòu)和詳細(xì)結(jié)構(gòu)信息,包括層次、操作類型、張量大小、操作的硬件兼容性和依賴關(guān)系;所述模型加載器還會(huì)檢查模型的完整性和兼容性,確保其能夠在系統(tǒng)中正確運(yùn)行。
4.根據(jù)權(quán)利要求1所述的面向移動(dòng)多處理器的深度學(xué)習(xí)模型協(xié)同推理方法,其特征在于,步驟s3中,模型分析器解析深度學(xué)習(xí)模型的詳細(xì)結(jié)構(gòu)信息,包括層次結(jié)構(gòu)、操作類型、張量大小以及操作的硬件兼容性;模型分析器通過解析模型的dag結(jié)構(gòu),確定各操作之間的依賴關(guān)系,并針對(duì)無法直接在指定...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張志國,高云全,
申請(qǐng)(專利權(quán))人:安徽工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。