GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法技術

技術編號：44506777 閱讀：3 留言：0更新日期：2025-03-07 13:04

本發明專利技術公開了一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法，包括：Pseudo?Cache的高速緩存行保存最近訪問該高速緩存行的SM索引，從L1cache發生讀取缺失的訪存請求通過NoC被發送到目標DRAM通道側的Pseudo?Cache，如果發生命中，則從命中的高速緩存行中獲取最近訪問該高速緩存行的SM索引；訪存請求根據SM索引通過NoC被轉發到該SM，如果訪存請求能從該SM的L1cache中獲取數據，則將該訪存請求通過NoC返回到Pseudo?Cache；再通過NoC發送到該訪存請求的源SM，將Pseudo?Cache中該高速緩存行的SM索引更新為源SM的索引。如果訪存請求未能從該SM的L1cache中獲取數據，則將該訪存請求通過NoC返回到Pseudo?Cache，再將訪存請求發送到L2cache。當訪存請求從L2cache返回時，將該訪存請求的標簽和源SM索引根據替換策略保存到Pseudo?Cache中。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及gpu(圖形處理器)中的cache(高速緩沖存儲器)體系結構領域，尤其涉及一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法。

技術介紹

1、gpu作為一種高性能計算平臺已被廣泛應用于深度學習、圖形分析、數據分析、計算機輔助設計等領域[1]。gpu的硬件和軟件架構非常適合并行計算。首先，從硬件的角度來看，gpu由數十個獨立的sm(流處理器)組成，每個sm內部又有數十個用于并行計算的核心。這些sm通過noc(片上互連網絡)與dram(動態隨機存儲器)進行數據交互。其次，從軟件的角度來看，在gpu上執行的應用程序被細分為若干個線程，線程進一步被組織成若干個線程塊，應用程序以線程塊為單位將線程分配到各個sm上面，每個sm能夠同時處理數千個線程。最后，將硬件與軟件相結合，sm將線程組織為warp(線程束)，其中warp內的線程在sm上并行執行相同的指令，但允許有多樣分支。這種執行模式被稱為單指令多線程(simt)[2]，使gpu編程更加友好。

2、此外，為了更快速地為gpu的計算提供數據獲取服務，gpu采用了高帶寬的l1cache(一級高速緩沖存儲器)和l2?cache(二級高速緩沖存儲器)[3][4]。具體來說，每個l1cache是其所在的sm私有的，其涵蓋的地址空間為全部地址空間，意味著所有的l1?cache都是相互獨立的。l2?cache位于noc和dram之間，被所有sm共享，每個l2?cache的地址空間與和其相連的dram通道的地址空間一致，即所有的l2?cache共同映射到全部地址空間。在l1

3、參考文獻

4、[1]s.shin,m.lebeane,y.solihin,and?a.basu,“neighborhood-aware?addresstranslation?for?irregular?gpu?applications,”in?2018?51st?annual?ieee/acminternational?symposium?on?microarchitecture(micro).ieee,2018,pp.352-363

5、[2]nvidia?cuda?c++programming?guide,nvidia?corporation,2024

6、[3]j.tan,k.yan,s.l.song,and?x.fu,“loscache:leveraging?localitysimilarity?to?build?energy-efficient?gpu?l2?cache,”in?2019design,automation&test?in?europe?conference&exhibition(date).ieee,2019,pp.1190-1195.

7、[4]h.dai,c.li,z.lin,and?h.zhou,“the?demand?for?a?sound?baseline?ingpu?memory?architecture?research,”in?proceedings?of?the?workshop?onduplicating,deconstructing?and?debunking(wddd),2017.

8、[5]m.awatramani,x.zhu,j.zambreno,and?d.rover,“phase?aware?warpscheduling:mitigating?effects?of?phase?behavior?in?gpgpu?applications,”in2015international?conference?on?parallel?architecture?and?compilation(pact).ieee,2015,pp.1-12.

9、[6]m.lee,s.song,j.moon,j.kim,w.seo,y.cho,and?s.ryu,“improving?gpgpuresource?utilization?through?alternative?thread?block?scheduling,”in?2014ieee20th?international?symposium?on?high?performance?computer?architecture(hpca).ieee,2014,pp.260-271.

技術實現思路

1、本專利技術提供了一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法，本專利技術能夠減少訪存請求的平均延遲，提高gpu的性能，利用數據在l1?cache之間的重復存儲特征，擴展l1?cache的可訪問范圍，詳見下文描述：

2、一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法，所述方法包括：

3、pseudo-cache位于noc和l2?cache之間，pseudo-cache的高速緩存行保存從dram側最近訪問某一高速緩存行的sm索引信息，當l1?cache發生讀取缺失時，訪存請求通過noc被發送到目標dram通道；

4、當訪存請求到達目標dram通道中的pseudo-cache時，如果發生標簽命中，則從命中的高速緩存行中獲取最近訪問該高速緩存行的sm索引；

5、該訪存請求被標記為遠程訪存請求，根據sm索引信息通過noc被轉發到該sm，如果訪存請求能從該sm的l1?cache中獲取數據，則將該訪存請求通過noc返回到pseudo-cache；

6、再通過noc發送到該訪存請求的源sm，將pseudo-cache中該高速緩存行的sm索引更新為源sm的索引，用于表示最近訪問該數據的sm。

7、其中，所述方法還包括：若訪存請求在遠程sm中發生了缺失，將訪存請求返回到pseudo-cache并且發送到l2?cache。

8、其中，所述方法在l1?cache和pseudo-cache之間的每個訪存請求隊列中均配備了專用的緩沖區用于存儲遠程訪存請求。

9、其中，所述方法還包括：同一隊列中的遠程緩沖區和常規緩沖區的訪存請求共享相同本文檔來自技高網...

【技術保護點】

1.一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法包括：

2.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法還包括：若訪存請求在遠程SM中發生了缺失，將訪存請求返回到Pseudo-Cache，然后將訪存請求發送到L2?cache。

3.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法在L1?cache和Pseudo-Cache之間的每個訪存請求隊列中均配備了專用的緩沖區用于存儲遠程訪存請求。

4.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法還包括：同一隊列中的遠程緩沖區和常規緩沖區的訪存請求共享相同的數據路徑，兩個緩沖區中的訪存請求通過輪詢的順序使用該數據通路。

5.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法還包括：維護Pseudo-Cache緩存行的SM索引字段，

【技術特征摘要】

1.一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法包括：

2.根據權利要求1所述的一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法還包括：若訪存請求在遠程sm中發生了缺失，將訪存請求返回到pseudo-cache，然后將訪存請求發送到l2?cache。

3.根據權利要求1所述的一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法，其特征在于，所述方法在l1?cache和pseudo-cach...

【專利技術屬性】
技術研發人員：李炳超，朱宇辰，李曉輝，
申請(專利權)人：中國民航大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術