基于多智能體強化學習下的ISP調參方法和設備技術

技術編號：44527293 閱讀：0 留言：0更新日期：2025-03-07 13:17

本發明專利技術的實施例提供了基于多智能體強化學習下的ISP調參方法和設備。所述方法包括獲取不同強化學習環境的原始圖像，將原始圖像中的RGB圖像轉換成RAW圖像，得到RAW?RGB數據集；構建多智能體強化學習模型，通過訓練集對所述多智能體強化學習模型進行訓練，得到訓練好的多智能體強化學習模型；根據訓練好的多智能體強化學習模型對輸入的RAW圖像進行參數預測，得到ISP參數。以此方式，可以通過多智能體結構考慮了同一模塊中參數的內在關聯以及不同模塊間參數的耦合關系，進行有效率地反饋與決策，縮短搜索最優參數的時間，得到更加精準的ISP參數。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術一般涉及計算機視覺、人工智能與深度學習、以及信號處理領域，并且更具體地，涉及基于多智能體強化學習下的isp調參方法、裝置和設備。

技術介紹

1、圖像信號處理器（image?signal?processor，isp），是將圖像從raw格式轉換成供人類所能看到的rgb格式的圖像信號處理管道。硬件圖像信號處理器往往比軟件生成的圖像質量更佳，用時更短。圖像信號處理器被的應用領域十分的額廣泛，例如，手機，相機，自動駕駛等。此外，圖像信號處理器也是圖像傳感器和下游任務應用之間的重要橋梁。它是由一系列負責不同圖像處理任務的模塊構成，例如去噪模塊，白平衡模塊，銳化模塊等。每個模塊中都包含了一組可調的超參數，而所有模塊中的超參數與最后圖像質量的好壞息息相關。目前工業界大都依賴成像專家針對整個圖像信號處理器中各個模塊的參數進行人工調優，來使其適應不同場景。通常，專家基于主觀感受來評定圖像信號處理器生成的圖像質量，并根據結構相似性或峰值信噪比等客觀指標，綜合評價一組參數的效果好壞，并在大量圖像信號處理參數組合中找到相對最優的一組參數。但是由于專家每次只能根據一張場景圖有限地調整部分參數，導致整個過程耗時耗力，且不可避免地引入人類的主觀誤差。

2、近年來，隨著學術界和工業界對圖像信號處理器調參問題的深入研究。出現了很多關于圖像信號處理代理或圖像信號處理參數預測的方法。有些基于進化策略的方法通過最大化參數適配度在參數空間進行不斷地搜索迭代，最后在不斷生成的參數組合中找到一組在當前圖像上適配度最高的參數當做最優參數組合。有些基于卷積神

3、目前圖像信號處理器的調參存在預測參數規模龐大，調優效果不好，模塊內外參數的關聯性與可解釋性差等諸多問題。

技術實現思路

1、根據本專利技術的實施例，提供了一種基于多智能體強化學習下的isp調參方案。本方案通過多智能體結構考慮了同一模塊中參數的內在關聯以及不同模塊間參數的耦合關系，進行有效率地反饋與決策，縮短搜索最優參數的時間，得到更加精確的參數值。

2、在本專利技術的第一方面，提供了一種基于多智能體強化學習下的isp調參方法。該方法包括：

3、獲取不同強化學習環境的原始圖像，將原始圖像中的rgb圖像轉換成raw圖像，得到raw-rgb數據集；所述raw-rgb數據集包括訓練集和測試集；

4、構建多智能體強化學習模型，通過訓練集對所述多智能體強化學習模型進行訓練，得到訓練好的多智能體強化學習模型；所述多智能體強化學習模型包括多個單智能體，每個單智能體由actor網絡模型和critic網絡模型組成；

5、根據訓練好的多智能體強化學習模型對輸入的raw圖像進行參數預測，得到isp參數。

6、進一步地，所述通過訓練集對所述多智能體強化學習模型進行訓練，得到訓練好的多智能體強化學習模型，包括：

7、s201、將訓練集中的raw圖像與isp中每個模塊對應的參數輸入給isp，得到rgb圖像；

8、s202、將所述rgb圖像進行下游任務處理，得到強化學習環境對當前圖像的評分和獎勵值；

9、s203、將所述rgb圖像輸入每個單智能體，輸出相應的動作，所有單智能體輸出的動作拼接得到總的動作；

10、s204、將總的動作加入預設噪音后與當前isp中每個模塊對應的參數進行融合，得到下一輪isp中每個模塊對應的參數；

11、s205、在actor網絡模型的損失函數和critic網絡模型的損失函數的約束下迭代s201~s204，得到訓練好的多智能體強化學習模型。

12、進一步地，每一輪迭代過程產生一個元組，所述元組包括當前環境的局部觀測值、當前環境的狀態、總的動作、當前圖像的評分和獎勵值；

13、在每一輪迭代過程中，將所述元組送入actor網絡模型，計算累計折扣回報和actor網絡模型的損失函數，更新actor網絡模型的權重參數；

14、在每一輪迭代過程中，將所述元組送入critic網絡模型，計算critic網絡模型的損失函數，更新critic網絡模型的權重參數。

15、進一步地，所述actor網絡模型，包括：

16、第一resnet50特征提取網絡，用于以rgb圖像作為輸入，輸出第一中間特征；所述第一中間特征和單個isp中的模塊對應的參數作為當前環境的局部觀測值；

17、第一多層感知器，所述第一多層感知器包括若干全連接層，用于以當前環境的局部觀測值為輸入，輸出局部觀測值的單一結果；

18、第一自適應平均池化層，用于以局部觀測值的單一結果為輸入，輸出單智能體的動作。

19、進一步地，所述critic網絡模型，包括：

20、第二resnet50特征提取網絡，用于以rgb圖像作為輸入，輸出第二中間特征；所述第二中間特征和isp中所有模塊對應的參數作為當前環境的狀態；

21、第二多層感知器，所述第二多層感知器包括若干全連接層，用于以當前環境的狀態為輸入，輸出狀態的單一結果；且所述第二多層感知器與所述第一多層感知器的輸出維度不同；

22、第二自適應平均池化層，用于以狀態的單一結果為輸入，輸出單智能體的狀態價值。

23、進一步地，actor網絡模型的損失函數為：

24、?；

25、其中，為actor網絡模型的損失函數；為actor網絡模型中的網絡參數；i表示第i個單智能體；b為batchsize的大小，n為單智能體的數量；是當前單智能體的優勢函數值，s表示策略的熵；是控制熵系數的超參數，是當前策略與前一輪策略的重要性采樣比率；表示第i個單智能體輸出的動作；表示第i個單智能體的觀測值；為求和變量；為clip函數中控制邊界的超參數，取值為(0,1)；表示當前策略概率；表示前一輪的策略概率。

26、進一步地，critic網絡模型的損失函數為：

27、?；

28、其中，為actor網絡模型的損失函數；是critic網絡模型中的網絡參數；i表示第i個單智能體；t為時間步；為累計折扣回報；b為batchsize的大??；n為單智能體的數量；表示狀態下的價值；為第i個單智能體對應的狀態；為clip函數中控制邊界的超參數，取值為(0,1)；表示上一輪的狀態價值；為求和變量。

29、進一步地，所述計算累計折扣回報，包括：

30、；

31、其中，t為期望步長；為衰減因子，取值范圍是(0,1]；t為時間步，r為元組中的獎勵值；為累計折扣回報；i表示第i個單智能體；j表示一個時間步的索引。

32、在本專利技術本文檔來自技高網...

【技術保護點】

1.一種基于多智能體強化學習下的ISP調參方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述通過訓練集對所述多智能體強化學習模型進行訓練，得到訓練好的多智能體強化學習模型，包括：

3.根據權利要求2所述的方法，其特征在于，每一輪迭代過程產生一個元組，所述元組包括當前環境的局部觀測值、當前環境的狀態、總的動作、當前圖像的評分和獎勵值；

4.根據權利要求2所述的方法，其特征在于，所述Actor網絡模型，包括：

5.根據權利要求4所述的方法，其特征在于，所述Critic網絡模型，包括：

6.根據權利要求3所述的方法，其特征在于，Actor網絡模型的損失函數為：

7.根據權利要求3所述的方法，其特征在于，Critic網絡模型的損失函數為：

8.根據權利要求3所述的方法，其特征在于，所述計算累計折扣回報，包括：

9.一種基于多智能體強化學習下的圖像評估方法，其特征在于，包括：

10.一種電子設備，包括至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其特

...

【技術特征摘要】

1.一種基于多智能體強化學習下的isp調參方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述通過訓練集對所述多智能體強化學習模型進行訓練，得到訓練好的多智能體強化學習模型，包括：

4.根據權利要求2所述的方法，其特征在于，所述actor網絡模型，包括：

5.根據權利要求4所述的方法，其特征在于，所述critic網絡模型，包括：

6.根據...

【專利技術屬性】
技術研發人員：李兵，張朝，王帥，
申請(專利權)人：人民中科北京智能技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術