基于深度強化學習的芯片生產物流優化排程方法及系統技術方案

技術編號：44193610 閱讀：11 留言：0更新日期：2025-02-06 18:32

本發明專利技術提供一種基于深度強化學習的芯片生產物流優化排程方法及系統，涉及深度強化學習技術領域，包括：采集芯片生產線實時數據，利用改進的雙向長短時記憶網絡和圖神經網絡提取物料流動時序規律、設備運行周期特征和物流網絡拓撲特征，通過對比學習網絡生成融合狀態表示，構建分層協同的深度強化學習架構，利用改進的編碼器?解碼器結構生成策略向量，并通過多智能體執行網絡進行分層式聯合訓練，將實時狀態和策略向量輸入訓練完成的深度強化學習架構，生成調度指令，并結合貝葉斯神經網絡系綜模型和循環神經網絡預測模型進行分層模型預測控制，實現芯片生產物流的優化排程。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及深度強化學習，尤其涉及一種基于深度強化學習的芯片生產物流優化排程方法及系統。

技術介紹

1、芯片制造是一個極其復雜的過程，涉及數百個生產步驟和大量的物料、設備以及人員的協調，高效的生產物流對確保芯片按時交付、降低生產成本和提高產品質量至關重要，傳統的芯片生產物流調度方法往往難以應對生產環境的動態變化和復雜約束；

2、隨著芯片制造工藝的不斷進步和生產規模的擴大，對更加智能和自適應的物流調度方法的需求日益增長，現有的芯片生產物流優化排程方法主要存在難以有效處理芯片生產環境的動態性和不確定性、缺乏對復雜物料流動規律和設備運行周期特征的深入挖掘以及難以實現多目標協同優化的問題；

3、因此，亟需一種方案解決現有技術中存在的問題。

技術實現思路

1、本專利技術實施例提供一種基于深度強化學習的芯片生產物流優化排程方法及系統，至少能解決現有技術中存在的部分問題。

2、本專利技術實施例的第一方面，提供一種基于深度強化學習的芯片生產物流優化排程方法，包括：

3、采集芯片生產線實時數據并輸入混合特征提取模型，利用改進雙向長短時記憶網絡模塊提取物料流動時序規律和設備運行周期特征，在模塊中設置殘差連接和多頭自注意力層，對注意力分數稀疏化處理并生成離散注意力權重，與時序特征加權組合生成時序表示向量，利用圖神經網絡模塊提取物流網絡拓撲特征，將動態鄰接矩陣與邊權重和節點屬性信息結合構建圖卷積算子，引入跳躍連接和門控機制調節特征傳遞強度，生成空間表示向量

4、構建分層協同的深度強化學習架構，在策略生成網絡中構建改進的編碼器-解碼器結構，植入因果卷積模塊和多尺度特征金字塔，將多尺度特征與融合狀態表示組合輸入解碼器，嵌入自適應采樣層和策略頭，結合時序規律和設備特征生成策略向量，在預先設置的多智能體執行網絡中植入信任區域約束模塊，構建分層操作空間和雙重估值網絡，執行分層式聯合訓練，結合在線蒸餾機制傳遞策略知識，將經驗樣本存入分層經驗池，訓練循環神經網絡預測模型并動態調整探索策略，確定實時狀態；

5、將所述實時狀態和所述策略向量輸入訓練完成的深度強化學習架構，生成調度指令，構建貝葉斯神經網絡系綜模型對物流狀態進行建模，結合蒙特卡洛隨機采樣確定物流狀態不確定性，結合所述循環神經網絡預測模型的輸出進行分層模型預測控制，根據物料流動規律和設備周期特征調整步長和約束邊界，求解優化問題并輸出調度指令，構建遞歸貝葉斯估計器計算所述調度指令的置信度，若所述置信度低于預先設置的置信閾值，則啟動重優化，將新樣本存入分層經驗池并動態調整采樣概率，持續優化網絡參數，得到優化排程方案。

6、在一種可選的實施方式中，

7、采集芯片生產線實時數據并輸入混合特征提取模型，利用改進雙向長短時記憶網絡模塊提取物料流動時序規律和設備運行周期特征，在模塊中設置殘差連接和多頭自注意力層，對注意力分數稀疏化處理并生成離散注意力權重，與時序特征加權組合生成時序表示向量，利用圖神經網絡模塊提取物流網絡拓撲特征，將動態鄰接矩陣與邊權重和節點屬性信息結合構建圖卷積算子，引入跳躍連接和門控機制調節特征傳遞強度，生成空間表示向量，將時序和空間表示向量輸入對比學習網絡，構建多視角對比損失函數，利用動量編碼器更新負樣本隊列，輸出融合狀態表示包括：

8、采集芯片生產線的實時數據，所述實時數據包括設備工藝參數、物料屬性、工單信息和物流傳感器數據，其中所述設備工藝參數包括溫度、壓力、功率、轉速和設備開關狀態、運行模式，所述物料屬性包括尺寸規格、材質類型、加工工序，所述工單信息包括批次號、計劃產量、交付時間，所述物流傳感器數據包括物料位置、傳輸速度、積壓狀態；

9、對所述實時數據進行預處理，通過移動平均法填補缺失值并采用箱線圖方法剔除異常值，采用最大最小值歸一化方法將連續型特征映射到零到一區間內，采用獨熱編碼方法將離散型特征轉換為二進制向量表示，生成混合特征矩陣；

10、將所述混合特征矩陣輸入改進的雙向長短時記憶網絡模塊，所述改進的雙向長短時記憶網絡模塊通過前向和后向兩個方向提取時序特征，并在所述改進的雙向長短時記憶網絡模塊中設置殘差連接，將輸入特征通過旁路傳遞到輸出端與前向和后向隱藏狀態進行元素級相加；

11、在所述改進的雙向長短時記憶網絡模塊的隱藏層之上堆疊多頭自注意力層，每個注意力頭將隱藏狀態投影到查詢、鍵、值三個特征空間，通過計算查詢向量與鍵向量的點積得到注意力分數矩陣，對所述注意力分數矩陣設置自適應閾值進行稀疏化處理，采用重參數化技術對稀疏化后的注意力分數進行離散化采樣生成離散注意力權重，將所述離散注意力權重與值向量進行加權求和得到注意力頭輸出特征，將多個注意力頭的輸出特征拼接并線性變換后與原始隱藏狀態進行殘差連接得到時序表示向量；

12、將芯片生產線構建為無向圖模型，生產設備作為圖的節點，物料流動路徑作為圖的邊，基于實時監測數據更新每個節點對應的鄰接矩陣，生成動態鄰接矩陣，為每個設備節點構建包含工藝參數、運行狀態、設備類型的屬性特征向量，為每條流動路徑構建包含傳輸時間、物料數量、隊列長度的邊特征向量；

13、將所述動態鄰接矩陣、每個節點的屬性特征向量和邊特征輸入改進的圖卷積算子，通過消息傳遞機制學習物流網絡的空間依賴關系，在圖卷積過程中引入跳躍連接將上一層每個節點的屬性特征向量傳遞到當前層與卷積結果相加，在圖卷積層后引入門控機制，通過計算特征相似度生成遺忘門控和更新門控，將門控調節后的特征傳遞結果與節點初始特征拼接得到空間表示向量；

14、將所述時序表示向量和所述空間表示向量輸入對比學習網絡，通過數據增強方法生成正樣本對，利用動量編碼器維護負樣本隊列，基于互信息最大化構建多視角對比損失函數，將對比學習得到的特征表示與原始時序表示向量和空間表示向量拼接得到融合狀態表示向量。

15、在一種可選的實施方式中，

16、基于互信息最大化構建多視角對比損失函數如下公式所示：

17、；

18、其中，ld表示對比學習的損失值，hi表示樣本i的表示向量，表示樣本i的正樣本表示，τ表示溫度超參數，sim(hi，)表示樣本i和樣本j之間的相似度，exp表示指數函數，k表示負樣本的總數量，表示樣本i的第k個負樣本表示。

19、在一種可選的實施方式中，

20、構建分層協同的深度強化學習架構，在策略生成網絡中構建改進的編碼器-解碼器結構，植入因果卷積模塊和多尺度特征金字塔，將多尺度特征與融合狀態表示組合輸入解碼器，嵌入自適應采樣層和策略頭，結合時序規律和設備特征生成策略向量包括：

21、構建分層協同深度強化學習架構，所述分層協同深度強化學習架構包括上層策略生成網絡和下層多智能體執行網絡，所述上層策略生成網絡和所述下層多智能體執行網絡通過策略傳遞機制和反饋機制進本文檔來自技高網...

【技術保護點】

1.基于深度強化學習的芯片生產物流優化排程方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，采集芯片生產線實時數據并輸入混合特征提取模型，利用改進雙向長短時記憶網絡模塊提取物料流動時序規律和設備運行周期特征，在模塊中設置殘差連接和多頭自注意力層，對注意力分數稀疏化處理并生成離散注意力權重，與時序特征加權組合生成時序表示向量，利用圖神經網絡模塊提取物流網絡拓撲特征，將動態鄰接矩陣與邊權重和節點屬性信息結合構建圖卷積算子，引入跳躍連接和門控機制調節特征傳遞強度，生成空間表示向量，將時序和空間表示向量輸入對比學習網絡，構建多視角對比損失函數，利用動量編碼器更新負樣本隊列，輸出融合狀態表示包括：

3.根據權利要求2所述的方法，其特征在于，基于互信息最大化構建多視角對比損失函數如下公式所示：

4.根據權利要求1所述的方法，其特征在于，構建分層協同的深度強化學習架構，在策略生成網絡中構建改進的編碼器-解碼器結構，植入因果卷積模塊和多尺度特征金字塔，將多尺度特征與融合狀態表示組合輸入解碼器，嵌入自適應采樣層和策略頭，結合時序規律和設備特征生成策略向量包括：

5.根據權利要求1所述的方法，其特征在于，在預先設置的多智能體執行網絡中植入信任區域約束模塊，構建分層操作空間和雙重估值網絡，執行分層式聯合訓練，結合在線蒸餾機制傳遞策略知識，將經驗樣本存入分層經驗池，訓練循環神經網絡預測模型并動態調整探索策略，確定實時狀態包括：

6.根據權利要求1所述的方法，其特征在于，將所述實時狀態和所述策略向量輸入訓練完成的深度強化學習架構，生成調度指令，構建貝葉斯神經網絡系綜模型對物流狀態進行建模，結合蒙特卡洛隨機采樣確定物流狀態不確定性，結合所述循環神經網絡預測模型的輸出進行分層模型預測控制，根據物料流動規律和設備周期特征調整步長和約束邊界，求解優化問題并輸出調度指令，構建遞歸貝葉斯估計器計算所述調度指令的置信度，若所述置信度低于預先設置的置信閾值，則啟動重優化，將新樣本存入分層經驗池并動態調整采樣概率，持續優化網絡參數，得到優化排程方案包括：

7.根據權利要求6所述的方法，其特征在于，所述控制生成子問題采用投影梯度法并引入動量項加速收斂如下公式所示：

8.基于深度強化學習的芯片生產物流優化排程系統，用于實現前述權利要求1-7中任一項所述的方法，其特征在于，包括：

9.一種電子設備，其特征在于，包括：

10.一種計算機可讀存儲介質，其上存儲有計算機程序指令，其特征在于，所述計算機程序指令被處理器執行時實現權利要求1至7中任意一項所述的方法。

...

【技術特征摘要】

1.基于深度強化學習的芯片生產物流優化排程方法，其特征在于，包括：

3.根據權利要求2所述的方法，其特征在于，基于互信息最大化構建多視角對比損失函數如下公式所示：

5.根據權利要求1所述的方法，其特征在于，在預先設置的多智能體執行網絡中植入信任區域約束模塊，構建分層操作空間和...

【專利技術屬性】
技術研發人員：吳釗，馮白羽，楊金杰，
申請(專利權)人：北京珂陽科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術