System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码av免费网站,亚洲AV无码资源在线观看,韩国精品一区二区三区无码视频
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于多智能體強化學習下的ISP調參方法和設備技術

    技術編號:44527293 閱讀:0 留言:0更新日期:2025-03-07 13:17
    本發明專利技術的實施例提供了基于多智能體強化學習下的ISP調參方法和設備。所述方法包括獲取不同強化學習環境的原始圖像,將原始圖像中的RGB圖像轉換成RAW圖像,得到RAW?RGB數據集;構建多智能體強化學習模型,通過訓練集對所述多智能體強化學習模型進行訓練,得到訓練好的多智能體強化學習模型;根據訓練好的多智能體強化學習模型對輸入的RAW圖像進行參數預測,得到ISP參數。以此方式,可以通過多智能體結構考慮了同一模塊中參數的內在關聯以及不同模塊間參數的耦合關系,進行有效率地反饋與決策,縮短搜索最優參數的時間,得到更加精準的ISP參數。

    【技術實現步驟摘要】

    本專利技術一般涉及計算機視覺、人工智能與深度學習、以及信號處理領域,并且更具體地,涉及基于多智能體強化學習下的isp調參方法、裝置和設備。


    技術介紹

    1、圖像信號處理器(image?signal?processor,isp),是將圖像從raw格式轉換成供人類所能看到的rgb格式的圖像信號處理管道。硬件圖像信號處理器往往比軟件生成的圖像質量更佳,用時更短。圖像信號處理器被的應用領域十分的額廣泛,例如,手機,相機,自動駕駛等。此外,圖像信號處理器也是圖像傳感器和下游任務應用之間的重要橋梁。它是由一系列負責不同圖像處理任務的模塊構成,例如去噪模塊,白平衡模塊,銳化模塊等。每個模塊中都包含了一組可調的超參數,而所有模塊中的超參數與最后圖像質量的好壞息息相關。目前工業界大都依賴成像專家針對整個圖像信號處理器中各個模塊的參數進行人工調優,來使其適應不同場景。通常,專家基于主觀感受來評定圖像信號處理器生成的圖像質量,并根據結構相似性或峰值信噪比等客觀指標,綜合評價一組參數的效果好壞,并在大量圖像信號處理參數組合中找到相對最優的一組參數。但是由于專家每次只能根據一張場景圖有限地調整部分參數,導致整個過程耗時耗力,且不可避免地引入人類的主觀誤差。

    2、近年來,隨著學術界和工業界對圖像信號處理器調參問題的深入研究。出現了很多關于圖像信號處理代理或圖像信號處理參數預測的方法。有些基于進化策略的方法通過最大化參數適配度在參數空間進行不斷地搜索迭代,最后在不斷生成的參數組合中找到一組在當前圖像上適配度最高的參數當做最優參數組合。有些基于卷積神經網絡的方法直接學習一個預測參數的模型來對不同的圖像生成一組圖像信號處理參數。然而基于進化策略的方法往往只能根據新的圖像沒有針對性的預測能力,只能通過重新搜索來找到相應參數?;诰矸e神經網絡的方法需要大規模的raw-rgb數據來進行模型的訓練,而目前業界缺少相關的大規模數據集。

    3、目前圖像信號處理器的調參存在預測參數規模龐大,調優效果不好,模塊內外參數的關聯性與可解釋性差等諸多問題。


    技術實現思路

    1、根據本專利技術的實施例,提供了一種基于多智能體強化學習下的isp調參方案。本方案通過多智能體結構考慮了同一模塊中參數的內在關聯以及不同模塊間參數的耦合關系,進行有效率地反饋與決策,縮短搜索最優參數的時間,得到更加精確的參數值。

    2、在本專利技術的第一方面,提供了一種基于多智能體強化學習下的isp調參方法。該方法包括:

    3、獲取不同強化學習環境的原始圖像,將原始圖像中的rgb圖像轉換成raw圖像,得到raw-rgb數據集;所述raw-rgb數據集包括訓練集和測試集;

    4、構建多智能體強化學習模型,通過訓練集對所述多智能體強化學習模型進行訓練,得到訓練好的多智能體強化學習模型;所述多智能體強化學習模型包括多個單智能體,每個單智能體由actor網絡模型和critic網絡模型組成;

    5、根據訓練好的多智能體強化學習模型對輸入的raw圖像進行參數預測,得到isp參數。

    6、進一步地,所述通過訓練集對所述多智能體強化學習模型進行訓練,得到訓練好的多智能體強化學習模型,包括:

    7、s201、將訓練集中的raw圖像與isp中每個模塊對應的參數輸入給isp,得到rgb圖像;

    8、s202、將所述rgb圖像進行下游任務處理,得到強化學習環境對當前圖像的評分和獎勵值;

    9、s203、將所述rgb圖像輸入每個單智能體,輸出相應的動作,所有單智能體輸出的動作拼接得到總的動作;

    10、s204、將總的動作加入預設噪音后與當前isp中每個模塊對應的參數進行融合,得到下一輪isp中每個模塊對應的參數;

    11、s205、在actor網絡模型的損失函數和critic網絡模型的損失函數的約束下迭代s201~s204,得到訓練好的多智能體強化學習模型。

    12、進一步地,每一輪迭代過程產生一個元組,所述元組包括當前環境的局部觀測值、當前環境的狀態、總的動作、當前圖像的評分和獎勵值;

    13、在每一輪迭代過程中,將所述元組送入actor網絡模型,計算累計折扣回報和actor網絡模型的損失函數,更新actor網絡模型的權重參數;

    14、在每一輪迭代過程中,將所述元組送入critic網絡模型,計算critic網絡模型的損失函數,更新critic網絡模型的權重參數。

    15、進一步地,所述actor網絡模型,包括:

    16、第一resnet50特征提取網絡,用于以rgb圖像作為輸入,輸出第一中間特征;所述第一中間特征和單個isp中的模塊對應的參數作為當前環境的局部觀測值;

    17、第一多層感知器,所述第一多層感知器包括若干全連接層,用于以當前環境的局部觀測值為輸入,輸出局部觀測值的單一結果;

    18、第一自適應平均池化層,用于以局部觀測值的單一結果為輸入,輸出單智能體的動作。

    19、進一步地,所述critic網絡模型,包括:

    20、第二resnet50特征提取網絡,用于以rgb圖像作為輸入,輸出第二中間特征;所述第二中間特征和isp中所有模塊對應的參數作為當前環境的狀態;

    21、第二多層感知器,所述第二多層感知器包括若干全連接層,用于以當前環境的狀態為輸入,輸出狀態的單一結果;且所述第二多層感知器與所述第一多層感知器的輸出維度不同;

    22、第二自適應平均池化層,用于以狀態的單一結果為輸入,輸出單智能體的狀態價值。

    23、進一步地,actor網絡模型的損失函數為:

    24、?;

    25、其中,為actor網絡模型的損失函數;為actor網絡模型中的網絡參數;i表示第i個單智能體;b為batchsize的大小,n為單智能體的數量;是當前單智能體的優勢函數值,s表示策略的熵;是控制熵系數的超參數,是當前策略與前一輪策略的重要性采樣比率;表示第i個單智能體輸出的動作;表示第i個單智能體的觀測值;為求和變量;為clip函數中控制邊界的超參數,取值為(0,1);表示當前策略概率;表示前一輪的策略概率。

    26、進一步地,critic網絡模型的損失函數為:

    27、?;

    28、其中,為actor網絡模型的損失函數;是critic網絡模型中的網絡參數;i表示第i個單智能體;t為時間步;為累計折扣回報;b為batchsize的大??;n為單智能體的數量;表示狀態下的價值;為第i個單智能體對應的狀態;為clip函數中控制邊界的超參數,取值為(0,1);表示上一輪的狀態價值;為求和變量。

    29、進一步地,所述計算累計折扣回報,包括:

    30、;

    31、其中,t為期望步長;為衰減因子,取值范圍是(0,1];t為時間步,r為元組中的獎勵值;為累計折扣回報;i表示第i個單智能體;j表示一個時間步的索引。

    32、在本專利技術本文檔來自技高網...

    【技術保護點】

    1.一種基于多智能體強化學習下的ISP調參方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述通過訓練集對所述多智能體強化學習模型進行訓練,得到訓練好的多智能體強化學習模型,包括:

    3.根據權利要求2所述的方法,其特征在于,每一輪迭代過程產生一個元組,所述元組包括當前環境的局部觀測值、當前環境的狀態、總的動作、當前圖像的評分和獎勵值;

    4.根據權利要求2所述的方法,其特征在于,所述Actor網絡模型,包括:

    5.根據權利要求4所述的方法,其特征在于,所述Critic網絡模型,包括:

    6.根據權利要求3所述的方法,其特征在于,Actor網絡模型的損失函數為:

    7.根據權利要求3所述的方法,其特征在于,Critic網絡模型的損失函數為:

    8.根據權利要求3所述的方法,其特征在于,所述計算累計折扣回報,包括:

    9.一種基于多智能體強化學習下的圖像評估方法,其特征在于,包括:

    10.一種電子設備,包括至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其特征在于,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求1~8中任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種基于多智能體強化學習下的isp調參方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述通過訓練集對所述多智能體強化學習模型進行訓練,得到訓練好的多智能體強化學習模型,包括:

    3.根據權利要求2所述的方法,其特征在于,每一輪迭代過程產生一個元組,所述元組包括當前環境的局部觀測值、當前環境的狀態、總的動作、當前圖像的評分和獎勵值;

    4.根據權利要求2所述的方法,其特征在于,所述actor網絡模型,包括:

    5.根據權利要求4所述的方法,其特征在于,所述critic網絡模型,包括:

    6.根據...

    【專利技術屬性】
    技術研發人員:李兵,張朝王帥,
    申請(專利權)人:人民中科北京智能技術有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码久久2017| 亚洲av永久无码精品天堂久久| 国产精品无码一区二区在线观一| 东京无码熟妇人妻AV在线网址| 日韩精品专区AV无码| 特级毛片内射www无码| 久久久久无码国产精品一区| 人妻少妇乱子伦无码专区| 中文无码一区二区不卡αv| 久久精品亚洲中文字幕无码网站| mm1313亚洲国产精品无码试看| 少妇精品无码一区二区三区| 久久久久成人精品无码| 国产精品无码一区二区三区免费 | 青青草无码免费一二三区| 国产在线精品无码二区二区| 亚洲av无码无线在线观看| 色情无码WWW视频无码区小黄鸭| 久久久久亚洲?V成人无码| 色欲香天天综合网无码| 日韩免费a级毛片无码a∨| 亚洲国产成人精品无码区二本| 久久久无码精品亚洲日韩京东传媒 | 日韩精品无码一区二区三区免费 | 国产精品无码一区二区在线观| 久久久无码精品亚洲日韩京东传媒| 国产精品99精品无码视亚| 久久精品?ⅴ无码中文字幕| 无码人妻久久一区二区三区蜜桃 | 蜜臀亚洲AV无码精品国产午夜. | 中文字幕精品无码一区二区| 无码国产亚洲日韩国精品视频一区二区三区 | 无码夫の前で人妻を侵犯| av无码国产在线看免费网站| 精品无码人妻一区二区三区| 91无码人妻精品一区二区三区L| 人妻丰满熟妇无码区免费| 高清无码v视频日本www| 无码一区二区三区在线| 成人无码一区二区三区| 亚洲AV无码欧洲AV无码网站|