System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及半導(dǎo)體技術(shù),尤其涉及基于深度強(qiáng)化學(xué)習(xí)的半導(dǎo)體制造中晶圓廠級(jí)實(shí)時(shí)調(diào)度方法。
技術(shù)介紹
1、晶圓制造過程高度復(fù)雜,涉及數(shù)百道工序和大量的精密設(shè)備,如何高效地調(diào)度這些資源以最大化產(chǎn)能、最小化生產(chǎn)周期和成本,一直是業(yè)界的研究熱點(diǎn)。傳統(tǒng)的晶圓廠調(diào)度方法主要依賴于規(guī)則制定和經(jīng)驗(yàn)判斷,例如先到先服務(wù)、最短加工時(shí)間等規(guī)則。此外,一些高級(jí)調(diào)度方法,例如數(shù)學(xué)規(guī)劃和啟發(fā)式算法,也被應(yīng)用于晶圓廠調(diào)度問題。
2、然而,傳統(tǒng)的晶圓廠調(diào)度方法存在一些局限性。首先,基于規(guī)則的調(diào)度方法難以適應(yīng)復(fù)雜的生產(chǎn)環(huán)境,當(dāng)生產(chǎn)條件發(fā)生變化時(shí),例如設(shè)備故障、緊急訂單插入等,這些規(guī)則往往無法做出最優(yōu)的調(diào)度決策。其次,數(shù)學(xué)規(guī)劃方法雖然能夠在理論上找到最優(yōu)解,但其計(jì)算復(fù)雜度較高,難以應(yīng)用于實(shí)時(shí)調(diào)度場(chǎng)景,尤其是在大規(guī)模晶圓廠中。最后,傳統(tǒng)的調(diào)度方法通常缺乏對(duì)未來生產(chǎn)狀態(tài)的預(yù)測(cè)能力,無法有效地應(yīng)對(duì)生產(chǎn)過程中的不確定性。
3、這些缺陷導(dǎo)致了晶圓廠資源利用率不高、生產(chǎn)周期長(zhǎng)、生產(chǎn)成本高等問題,限制了半導(dǎo)體制造業(yè)的進(jìn)一步發(fā)展。因此,開發(fā)一種能夠適應(yīng)復(fù)雜生產(chǎn)環(huán)境、實(shí)時(shí)響應(yīng)生產(chǎn)變化、并具有預(yù)測(cè)能力的晶圓廠調(diào)度方法至關(guān)重要。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)實(shí)施例提供基于深度強(qiáng)化學(xué)習(xí)的半導(dǎo)體制造中晶圓廠級(jí)實(shí)時(shí)調(diào)度方法,能夠解決現(xiàn)有技術(shù)中的問題。
2、本專利技術(shù)實(shí)施例的第一方面,
3、提供基于深度強(qiáng)化學(xué)習(xí)的半導(dǎo)體制造中晶圓廠級(jí)實(shí)時(shí)調(diào)度方法,包括:
4、通過生產(chǎn)管理系統(tǒng)采集晶圓廠設(shè)備狀
5、將所述狀態(tài)空間向量輸入預(yù)先訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型包括價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò),其中價(jià)值評(píng)估網(wǎng)絡(luò)用于評(píng)估當(dāng)前設(shè)備和批次組合的價(jià)值分?jǐn)?shù),策略網(wǎng)絡(luò)用于根據(jù)價(jià)值分?jǐn)?shù)生成批次與設(shè)備的匹配概率分布;基于所述匹配概率分布,采用分層強(qiáng)化學(xué)習(xí)方法將批次與設(shè)備的匹配過程分解為批次選擇和設(shè)備分配兩個(gè)子任務(wù),通過批次選擇子任務(wù)確定待加工批次的優(yōu)先序列,再由設(shè)備分配子任務(wù)為每個(gè)待加工批次匹配合適的設(shè)備,生成多個(gè)候選的匹配方案;對(duì)每個(gè)候選的匹配方案應(yīng)用預(yù)設(shè)的多目標(biāo)獎(jiǎng)懲函數(shù)進(jìn)行評(píng)估,將多目標(biāo)獎(jiǎng)懲函數(shù)的評(píng)估結(jié)果作為蒙特卡洛樹搜索算法的選擇權(quán)重,通過多輪搜索迭代選出批次與設(shè)備的最優(yōu)調(diào)度方案;
6、根據(jù)所述最優(yōu)調(diào)度方案通過設(shè)備控制系統(tǒng)向?qū)?yīng)設(shè)備下發(fā)加工指令,工序加工過程中采集實(shí)時(shí)加工數(shù)據(jù),基于實(shí)時(shí)加工數(shù)據(jù)更新狀態(tài)空間向量,并將更新后的狀態(tài)空間向量重新輸入所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,用于實(shí)時(shí)生成調(diào)度方案。
7、在一種可選的實(shí)施方式中,
8、將所述狀態(tài)空間向量輸入預(yù)先訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型包括價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò),其中價(jià)值評(píng)估網(wǎng)絡(luò)用于評(píng)估當(dāng)前設(shè)備和批次組合的價(jià)值分?jǐn)?shù),策略網(wǎng)絡(luò)用于根據(jù)價(jià)值分?jǐn)?shù)生成批次與設(shè)備的匹配概率分布的步驟包括:
9、將包含設(shè)備狀態(tài)信息、晶圓的批次信息以及加工工藝流程信息的狀態(tài)空間向量輸入深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,其中所述設(shè)備狀態(tài)信息采用實(shí)值編碼,所述晶圓的批次信息采用獨(dú)熱編碼,所述加工工藝流程信息采用位置編碼,通過歸一化層對(duì)不同特征進(jìn)行標(biāo)準(zhǔn)化處理,并經(jīng)全連接層映射至統(tǒng)一維度的嵌入空間生成狀態(tài)表征向量;
10、將所述狀態(tài)表征向量輸入價(jià)值評(píng)估網(wǎng)絡(luò),所述價(jià)值評(píng)估網(wǎng)絡(luò)采用多頭自注意力機(jī)制,將狀態(tài)表征向量分別映射為查詢矩陣、鍵矩陣和值矩陣,根據(jù)查詢矩陣與鍵矩陣的點(diǎn)積運(yùn)算生成注意力權(quán)重矩陣,將所述注意力權(quán)重矩陣與對(duì)應(yīng)子空間的值矩陣相乘得到子空間注意力表示,將所有子空間的注意力表示進(jìn)行特征拼接融合,將融合后的特征輸入包含殘差連接的前饋神經(jīng)網(wǎng)絡(luò),經(jīng)歸一化處理后映射為價(jià)值分?jǐn)?shù);
11、將所述價(jià)值分?jǐn)?shù)與狀態(tài)表征向量拼接后輸入策略網(wǎng)絡(luò),所述策略網(wǎng)絡(luò)包括雙層門控循環(huán)單元網(wǎng)絡(luò),所述雙層門控循環(huán)單元網(wǎng)絡(luò)的更新門根據(jù)歷史隱狀態(tài)和當(dāng)前輸入的相關(guān)程度確定歷史信息的保留比例,重置門根據(jù)當(dāng)前時(shí)刻的價(jià)值分?jǐn)?shù)和狀態(tài)表征向量計(jì)算歷史信息的遺忘比例,所述雙層門控循環(huán)單元網(wǎng)絡(luò)的隱狀態(tài)經(jīng)過帶有跳躍連接的全連接層映射生成批次與設(shè)備的匹配向量,并通過歸一化函數(shù)將所述匹配向量轉(zhuǎn)換為匹配概率分布;
12、得到匹配概率分布后,采用均方誤差和策略梯度方法對(duì)所述價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行協(xié)同訓(xùn)練。
13、在一種可選的實(shí)施方式中,
14、采用均方誤差和策略梯度方法對(duì)所述價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行協(xié)同訓(xùn)練的步驟包括:
15、將價(jià)值評(píng)估網(wǎng)絡(luò)的價(jià)值分?jǐn)?shù)作為基準(zhǔn)函數(shù),采用時(shí)序差分學(xué)習(xí)計(jì)算目標(biāo)價(jià)值,所述目標(biāo)價(jià)值由即時(shí)獎(jiǎng)勵(lì)、未來多步獎(jiǎng)勵(lì)及預(yù)測(cè)狀態(tài)價(jià)值組成,基于所述目標(biāo)價(jià)值與價(jià)值評(píng)估網(wǎng)絡(luò)的價(jià)值分?jǐn)?shù)的均方誤差構(gòu)建價(jià)值網(wǎng)絡(luò)損失函數(shù);
16、基于策略網(wǎng)絡(luò)輸出的批次與設(shè)備的匹配概率分布計(jì)算策略梯度,所述策略梯度的計(jì)算采用價(jià)值評(píng)估網(wǎng)絡(luò)輸出的狀態(tài)價(jià)值估計(jì)作為基準(zhǔn),將實(shí)際累積獎(jiǎng)勵(lì)與狀態(tài)價(jià)值估計(jì)的差值作為優(yōu)勢(shì)函數(shù),結(jié)合策略網(wǎng)絡(luò)輸出概率的對(duì)數(shù)似然計(jì)算策略梯度;
17、采用交替訓(xùn)練方式更新價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的參數(shù),其中固定策略網(wǎng)絡(luò)參數(shù)期間,基于當(dāng)前策略采樣生成多條狀態(tài)轉(zhuǎn)移軌跡,收集包含狀態(tài)轉(zhuǎn)移、動(dòng)作選擇、即時(shí)獎(jiǎng)勵(lì)及下一狀態(tài)的序列樣本,將所述序列樣本輸入價(jià)值評(píng)估網(wǎng)絡(luò)計(jì)算狀態(tài)價(jià)值估計(jì),基于所述價(jià)值網(wǎng)絡(luò)損失函數(shù)通過反向傳播優(yōu)化價(jià)值評(píng)估網(wǎng)絡(luò)參數(shù);隨后固定價(jià)值評(píng)估網(wǎng)絡(luò)參數(shù),將優(yōu)化后的價(jià)值評(píng)估網(wǎng)絡(luò)輸出的狀態(tài)價(jià)值估計(jì)作為策略網(wǎng)絡(luò)的訓(xùn)練基準(zhǔn),基于策略梯度方法對(duì)策略網(wǎng)絡(luò)進(jìn)行參數(shù)優(yōu)化,根據(jù)優(yōu)化后的策略網(wǎng)絡(luò)重新采樣并迭代優(yōu)化;
18、構(gòu)建固定容量的經(jīng)驗(yàn)回放緩沖區(qū),將每輪采樣得到的狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)序列以先進(jìn)先出方式存入緩沖區(qū),基于緩沖區(qū)中的歷史樣本構(gòu)建訓(xùn)練批次,對(duì)價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò)分別設(shè)置不同的學(xué)習(xí)率進(jìn)行參數(shù)更新,在策略網(wǎng)絡(luò)的損失函數(shù)中引入基于策略分布熵的正則項(xiàng),通過調(diào)節(jié)熵權(quán)重系數(shù)平衡探索與利用;
19、在訓(xùn)練過程中監(jiān)控狀態(tài)價(jià)值估計(jì)的平均誤差和策略網(wǎng)絡(luò)的平均回報(bào),當(dāng)所述平均誤差和平均回報(bào)的變化率均小于預(yù)設(shè)閾值時(shí)停止訓(xùn)練。
20、在一種可選的實(shí)施方式中,
21、基于所述匹配概率分布,采用分層強(qiáng)化學(xué)習(xí)方法將批次與設(shè)備的匹配過程分解為批次選擇和設(shè)備分配兩個(gè)子任務(wù),通過批次選擇子任務(wù)確定待加工批次的優(yōu)先序列,再由設(shè)備分配子任務(wù)為每個(gè)待加工批次匹配合適的設(shè)備,生成多個(gè)候選的匹配方案的步驟的包括:
22、構(gòu)建批次-設(shè)備的環(huán)境狀態(tài)空間,所述環(huán)境狀態(tài)空間包括待加工批次集合的加工狀態(tài)、設(shè)備可用狀態(tài)以及批次與設(shè)備的匹配概率分布;
23、將批次與設(shè)備的匹配問題分解為批次選擇策略和設(shè)備分配策略,構(gòu)建批次選擇策略網(wǎng)絡(luò)和設(shè)備分配策略網(wǎng)絡(luò),所述本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.基于深度強(qiáng)化學(xué)習(xí)的半導(dǎo)體制造中晶圓廠級(jí)實(shí)時(shí)調(diào)度方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述狀態(tài)空間向量輸入預(yù)先訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型包括價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò),其中價(jià)值評(píng)估網(wǎng)絡(luò)用于評(píng)估當(dāng)前設(shè)備和批次組合的價(jià)值分?jǐn)?shù),策略網(wǎng)絡(luò)用于根據(jù)價(jià)值分?jǐn)?shù)生成批次與設(shè)備的匹配概率分布的步驟包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用均方誤差和策略梯度方法對(duì)所述價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行協(xié)同訓(xùn)練的步驟包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述匹配概率分布,采用分層強(qiáng)化學(xué)習(xí)方法將批次與設(shè)備的匹配過程分解為批次選擇和設(shè)備分配兩個(gè)子任務(wù),通過批次選擇子任務(wù)確定待加工批次的優(yōu)先序列,再由設(shè)備分配子任務(wù)為每個(gè)待加工批次匹配合適的設(shè)備,生成多個(gè)候選的匹配方案的步驟的包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)每個(gè)候選的匹配方案應(yīng)用預(yù)設(shè)的多目標(biāo)獎(jiǎng)懲函數(shù)進(jìn)行評(píng)估,將多目標(biāo)獎(jiǎng)懲函數(shù)的評(píng)估結(jié)果作為蒙特卡洛樹搜索算法的選擇權(quán)重,通過多輪搜索迭代選出批次與設(shè)備的最優(yōu)調(diào)度方案的步驟
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,針對(duì)每個(gè)候選的匹配方案計(jì)算所述綜合獎(jiǎng)懲函數(shù)的即時(shí)評(píng)估值,基于所述即時(shí)評(píng)估值和溫度參數(shù)計(jì)算選擇權(quán)重,所述溫度參數(shù)隨著搜索迭代輪次進(jìn)行動(dòng)態(tài)調(diào)整;基于所述選擇權(quán)重構(gòu)建蒙特卡洛搜索樹,將每個(gè)候選的匹配方案作為搜索樹節(jié)點(diǎn),在每個(gè)節(jié)點(diǎn)記錄所述綜合獎(jiǎng)懲函數(shù)的累積評(píng)估值、節(jié)點(diǎn)訪問次數(shù)和對(duì)應(yīng)的選擇權(quán)重,采用上置信界準(zhǔn)則進(jìn)行節(jié)點(diǎn)選擇和擴(kuò)展的步驟包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述最優(yōu)調(diào)度方案通過設(shè)備控制系統(tǒng)向?qū)?yīng)設(shè)備下發(fā)加工指令,工序加工過程中采集實(shí)時(shí)加工數(shù)據(jù),基于實(shí)時(shí)加工數(shù)據(jù)更新狀態(tài)空間向量,并將更新后的狀態(tài)空間向量重新輸入所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,用于實(shí)時(shí)生成調(diào)度方案的步驟包括:
8.基于深度強(qiáng)化學(xué)習(xí)的半導(dǎo)體制造中晶圓廠級(jí)實(shí)時(shí)調(diào)度系統(tǒng),用于實(shí)現(xiàn)前述權(quán)利要求1-7中任一項(xiàng)所述的方法,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序指令,其特征在于,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任意一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.基于深度強(qiáng)化學(xué)習(xí)的半導(dǎo)體制造中晶圓廠級(jí)實(shí)時(shí)調(diào)度方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述狀態(tài)空間向量輸入預(yù)先訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型,所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型包括價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò),其中價(jià)值評(píng)估網(wǎng)絡(luò)用于評(píng)估當(dāng)前設(shè)備和批次組合的價(jià)值分?jǐn)?shù),策略網(wǎng)絡(luò)用于根據(jù)價(jià)值分?jǐn)?shù)生成批次與設(shè)備的匹配概率分布的步驟包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用均方誤差和策略梯度方法對(duì)所述價(jià)值評(píng)估網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行協(xié)同訓(xùn)練的步驟包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述匹配概率分布,采用分層強(qiáng)化學(xué)習(xí)方法將批次與設(shè)備的匹配過程分解為批次選擇和設(shè)備分配兩個(gè)子任務(wù),通過批次選擇子任務(wù)確定待加工批次的優(yōu)先序列,再由設(shè)備分配子任務(wù)為每個(gè)待加工批次匹配合適的設(shè)備,生成多個(gè)候選的匹配方案的步驟的包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)每個(gè)候選的匹配方案應(yīng)用預(yù)設(shè)的多目標(biāo)獎(jiǎng)懲函數(shù)進(jìn)行評(píng)估,將多目標(biāo)獎(jiǎng)懲函數(shù)的評(píng)估結(jié)果作為蒙特卡洛樹搜索算法的選擇權(quán)重,通過多輪搜索迭代選出批次與設(shè)備的最優(yōu)調(diào)度方案的步驟包括:...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李清生,吳釗,馮白羽,徐世明,
申請(qǐng)(專利權(quán))人:北京珂陽(yáng)科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。