System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 67194成是人免费无码,无码人妻少妇伦在线电影,永久免费无码网站在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法技術

    技術編號:44506777 閱讀:3 留言:0更新日期:2025-03-07 13:04
    本發明專利技術公開了一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法,包括:Pseudo?Cache的高速緩存行保存最近訪問該高速緩存行的SM索引,從L1cache發生讀取缺失的訪存請求通過NoC被發送到目標DRAM通道側的Pseudo?Cache,如果發生命中,則從命中的高速緩存行中獲取最近訪問該高速緩存行的SM索引;訪存請求根據SM索引通過NoC被轉發到該SM,如果訪存請求能從該SM的L1cache中獲取數據,則將該訪存請求通過NoC返回到Pseudo?Cache;再通過NoC發送到該訪存請求的源SM,將Pseudo?Cache中該高速緩存行的SM索引更新為源SM的索引。如果訪存請求未能從該SM的L1cache中獲取數據,則將該訪存請求通過NoC返回到Pseudo?Cache,再將訪存請求發送到L2cache。當訪存請求從L2cache返回時,將該訪存請求的標簽和源SM索引根據替換策略保存到Pseudo?Cache中。

    【技術實現步驟摘要】

    本專利技術涉及gpu(圖形處理器)中的cache(高速緩沖存儲器)體系結構領域,尤其涉及一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法。


    技術介紹

    1、gpu作為一種高性能計算平臺已被廣泛應用于深度學習、圖形分析、數據分析、計算機輔助設計等領域[1]。gpu的硬件和軟件架構非常適合并行計算。首先,從硬件的角度來看,gpu由數十個獨立的sm(流處理器)組成,每個sm內部又有數十個用于并行計算的核心。這些sm通過noc(片上互連網絡)與dram(動態隨機存儲器)進行數據交互。其次,從軟件的角度來看,在gpu上執行的應用程序被細分為若干個線程,線程進一步被組織成若干個線程塊,應用程序以線程塊為單位將線程分配到各個sm上面,每個sm能夠同時處理數千個線程。最后,將硬件與軟件相結合,sm將線程組織為warp(線程束),其中warp內的線程在sm上并行執行相同的指令,但允許有多樣分支。這種執行模式被稱為單指令多線程(simt)[2],使gpu編程更加友好。

    2、此外,為了更快速地為gpu的計算提供數據獲取服務,gpu采用了高帶寬的l1cache(一級高速緩沖存儲器)和l2?cache(二級高速緩沖存儲器)[3][4]。具體來說,每個l1cache是其所在的sm私有的,其涵蓋的地址空間為全部地址空間,意味著所有的l1?cache都是相互獨立的。l2?cache位于noc和dram之間,被所有sm共享,每個l2?cache的地址空間與和其相連的dram通道的地址空間一致,即所有的l2?cache共同映射到全部地址空間。在l1cache中發生缺失的訪存請求根據其地址被發送到對應目標dram通道側的l2?cache上來獲取數據。在gpu進行任務分配時,由于具有局部性的連續線程塊可能被發射到不同的sm上[5][6],因此來自不同sm的訪存請求可能訪問l2?cache中的同一數據塊(或高速緩存行)。最終,導致相同的數據塊在多個l1?cache中被重復存儲。另外,從l1cache發生缺失的訪存請求訪問l2?cache的延遲比訪問l1?cache的延遲要長得多。其原因在于,首先,在訪問l2cache之前,訪存請求需要經過更多的組件才能到達l2?cache,例如:noc和光柵化操作流水線,這需要消耗數百個周期。其次,當沒有資源可用于處理l2?cache中的訪存請求時,訪存請求會發生停頓,直接影響了從l2?cache中獲取數據的延遲。

    3、參考文獻

    4、[1]s.shin,m.lebeane,y.solihin,and?a.basu,“neighborhood-aware?addresstranslation?for?irregular?gpu?applications,”in?2018?51st?annual?ieee/acminternational?symposium?on?microarchitecture(micro).ieee,2018,pp.352-363

    5、[2]nvidia?cuda?c++programming?guide,nvidia?corporation,2024

    6、[3]j.tan,k.yan,s.l.song,and?x.fu,“loscache:leveraging?localitysimilarity?to?build?energy-efficient?gpu?l2?cache,”in?2019design,automation&test?in?europe?conference&exhibition(date).ieee,2019,pp.1190-1195.

    7、[4]h.dai,c.li,z.lin,and?h.zhou,“the?demand?for?a?sound?baseline?ingpu?memory?architecture?research,”in?proceedings?of?the?workshop?onduplicating,deconstructing?and?debunking(wddd),2017.

    8、[5]m.awatramani,x.zhu,j.zambreno,and?d.rover,“phase?aware?warpscheduling:mitigating?effects?of?phase?behavior?in?gpgpu?applications,”in2015international?conference?on?parallel?architecture?and?compilation(pact).ieee,2015,pp.1-12.

    9、[6]m.lee,s.song,j.moon,j.kim,w.seo,y.cho,and?s.ryu,“improving?gpgpuresource?utilization?through?alternative?thread?block?scheduling,”in?2014ieee20th?international?symposium?on?high?performance?computer?architecture(hpca).ieee,2014,pp.260-271.


    技術實現思路

    1、本專利技術提供了一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法,本專利技術能夠減少訪存請求的平均延遲,提高gpu的性能,利用數據在l1?cache之間的重復存儲特征,擴展l1?cache的可訪問范圍,詳見下文描述:

    2、一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法,所述方法包括:

    3、pseudo-cache位于noc和l2?cache之間,pseudo-cache的高速緩存行保存從dram側最近訪問某一高速緩存行的sm索引信息,當l1?cache發生讀取缺失時,訪存請求通過noc被發送到目標dram通道;

    4、當訪存請求到達目標dram通道中的pseudo-cache時,如果發生標簽命中,則從命中的高速緩存行中獲取最近訪問該高速緩存行的sm索引;

    5、該訪存請求被標記為遠程訪存請求,根據sm索引信息通過noc被轉發到該sm,如果訪存請求能從該sm的l1?cache中獲取數據,則將該訪存請求通過noc返回到pseudo-cache;

    6、再通過noc發送到該訪存請求的源sm,將pseudo-cache中該高速緩存行的sm索引更新為源sm的索引,用于表示最近訪問該數據的sm。

    7、其中,所述方法還包括:若訪存請求在遠程sm中發生了缺失,將訪存請求返回到pseudo-cache并且發送到l2?cache。

    8、其中,所述方法在l1?cache和pseudo-cache之間的每個訪存請求隊列中均配備了專用的緩沖區用于存儲遠程訪存請求。

    9、其中,所述方法還包括:同一隊列中的遠程緩沖區和常規緩沖區的訪存請求共享相同本文檔來自技高網...

    【技術保護點】

    1.一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法還包括:若訪存請求在遠程SM中發生了缺失,將訪存請求返回到Pseudo-Cache,然后將訪存請求發送到L2?cache。

    3.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法在L1?cache和Pseudo-Cache之間的每個訪存請求隊列中均配備了專用的緩沖區用于存儲遠程訪存請求。

    4.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法還包括:同一隊列中的遠程緩沖區和常規緩沖區的訪存請求共享相同的數據路徑,兩個緩沖區中的訪存請求通過輪詢的順序使用該數據通路。

    5.根據權利要求1所述的一種GPU通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法還包括:維護Pseudo-Cache緩存行的SM索引字段,

    【技術特征摘要】

    1.一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法還包括:若訪存請求在遠程sm中發生了缺失,將訪存請求返回到pseudo-cache,然后將訪存請求發送到l2?cache。

    3.根據權利要求1所述的一種gpu通過片上互聯網絡共享一級高速緩沖存儲器的方法,其特征在于,所述方法在l1?cache和pseudo-cach...

    【專利技術屬性】
    技術研發人員:李炳超朱宇辰李曉輝
    申請(專利權)人:中國民航大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码午夜福利中文字幕 | 永久免费无码网站在线观看个| 亚欧免费无码aⅴ在线观看| 亚洲av无码无在线观看红杏| 亚洲AV无码一区二区乱子仑| 国产无遮挡无码视频免费软件| 中文字幕无码精品亚洲资源网久久 | 亚洲熟妇无码AV在线播放| 免费A级毛片无码无遮挡内射 | 中文字幕无码亚洲欧洲日韩| 亚洲精品无码99在线观看| 一本久道综合在线无码人妻| 国产成A人亚洲精V品无码| 无码AⅤ精品一区二区三区| 久久精品无码一区二区WWW| 成人无码精品1区2区3区免费看| 男人av无码天堂| 亚洲av无码专区青青草原| 亚洲国产日产无码精品| 日韩亚洲AV无码一区二区不卡| 无码人妻少妇久久中文字幕| 精品国产性色无码AV网站| 亚洲精品无码国产片| 久久久久亚洲av无码专区喷水 | 东京热无码av一区二区| 亚洲av无码专区在线观看素人| 亚洲av中文无码字幕色不卡| 亚洲综合无码无在线观看| 亚洲精品无码久久久久A片苍井空 亚洲精品无码久久久久YW | 亚洲AV无码专区日韩| 一本大道无码日韩精品影视_| 免费A级毛片无码免费视| 国产在线拍揄自揄拍无码视频 | 国产嫖妓一区二区三区无码| 午夜麻豆国产精品无码| 亚洲精品无码少妇30P| 免费A级毛片无码免费视| 日韩精品中文字幕无码专区| 国产成人无码a区在线视频| 久久影院午夜理论片无码| 亚洲爆乳无码专区|