本發(fā)明專利技術(shù)提供一種機器人導(dǎo)航方法、裝置、電子設(shè)備及存儲介質(zhì),所述方法包括:獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài);通過時空圖注意力網(wǎng)絡(luò)對所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)共同進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征;基于所述高層策略層時空狀態(tài)特征獲得機器人的高層策略動作;基于所述高層策略動作計算獲得子目標位置的誤差狀態(tài);基于所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征,獲得機器人的低層策略動作;基于所述低層策略動作進行機器人導(dǎo)航。本方法能夠高效地實現(xiàn)機器人無障礙導(dǎo)航。
【技術(shù)實現(xiàn)步驟摘要】
機器人導(dǎo)航方法、裝置、電子設(shè)備及存儲介質(zhì)
本專利技術(shù)涉及智能機器人
,具體涉及一種機器人導(dǎo)航方法、裝置、電子設(shè)備及存儲介質(zhì)。
技術(shù)介紹
近年來,隨著科學(xué)技術(shù)發(fā)展,如服務(wù)機器人、掃地機器人、物流機器人等的自主移動機器人在各種生活場景中的應(yīng)用越來越多。而在這些應(yīng)用中,機器人導(dǎo)航技術(shù)起到重要的作用。機器人導(dǎo)航通常是指:在動態(tài)擁擠的障礙物環(huán)境中,實現(xiàn)對機器人從起始位置到目標位置的導(dǎo)航?jīng)Q策,避免機器人與靜態(tài)或動態(tài)障礙物產(chǎn)生碰撞。需要說明的是,此中的動態(tài)障礙物通常都擁有自主的機動策略和意圖,且其可以自主決策。可是機器人與障礙物之間通常不存在可以實現(xiàn)協(xié)同避障的通信,同時,大部分機器人都面臨著大量障礙物密集分布的復(fù)雜動態(tài)環(huán)境。因此,在復(fù)雜動態(tài)環(huán)境下,為機器人找到無碰撞最優(yōu)路徑以實現(xiàn)機器人導(dǎo)航具有深遠意義。現(xiàn)有的機器人導(dǎo)航技術(shù)大致分為基于模型和基于學(xué)習(xí)的方法。基于模型的方法,通常需要使用導(dǎo)航領(lǐng)域?qū)I(yè)知識。比如,采用反映式導(dǎo)航方法,其原理是采用基于幾何或物理學(xué)的一步式交互規(guī)則來避免機器人與障礙物碰撞,但是,此方法容易使機器人產(chǎn)生振蕩和不自然行為。再比如,采用基于軌跡的導(dǎo)航方法,此方法可以從長遠角度計算以生成更平滑的路徑,但是,該方法計算過程復(fù)雜耗時且因其需要更多不可觀測的狀態(tài)知識導(dǎo)致計算難度大、準確率低。基于學(xué)習(xí)的方法,主要采用深度強化學(xué)習(xí)方法學(xué)習(xí)機器人導(dǎo)航行為。且為了更好地感知環(huán)境,甚至在此方法中采用長短時記憶統(tǒng)一處理環(huán)境中所有障礙物對機器人的影響,但是,統(tǒng)一處理的方法忽略了不同障礙物的自主特性差異。或者,在此方法中引入注意力機制以標記機器人與不同障礙物間的關(guān)系,但此方法仍然是僅以最終目標位置作為引導(dǎo),僅考慮機器人當(dāng)前步驟的障礙狀態(tài),這樣容易使機器人為快速達到最終目標位置而采取短視的激進行為,從而導(dǎo)致機器人與障礙物產(chǎn)生碰撞而陷入危險。綜上所述,現(xiàn)有方法雖然能夠?qū)崿F(xiàn)簡單場景下的機器人導(dǎo)航,但其往往存在導(dǎo)航行為振蕩、計算過程復(fù)雜耗時、未考慮不同障礙物的自主特性差異,或者,僅以最終目標位置為引導(dǎo)且僅考慮當(dāng)前步驟障礙狀態(tài)等問題。
技術(shù)實現(xiàn)思路
本專利技術(shù)提供一種機器人導(dǎo)航方法、裝置、電子設(shè)備及存儲介質(zhì),用以克服現(xiàn)有技術(shù)中導(dǎo)航行為振蕩、計算過程復(fù)雜耗時、導(dǎo)航過程僅以最終目標位置為引導(dǎo)且僅考慮當(dāng)前步驟狀態(tài)等缺陷,能夠高效地實現(xiàn)機器人無障礙導(dǎo)航。本專利技術(shù)提供一種機器人導(dǎo)航方法,包括:獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài);通過時空圖注意力網(wǎng)絡(luò)對所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)共同進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征;基于所述高層策略層時空狀態(tài)特征獲得機器人的高層策略動作;基于所述高層策略動作計算獲得子目標位置的誤差狀態(tài);基于所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征,獲得機器人的低層策略動作;基于所述低層策略動作進行機器人導(dǎo)航。根據(jù)本專利技術(shù)提供的機器人導(dǎo)航方法,所述獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài),包括:獲取初始的機器人狀態(tài)和機器人所處環(huán)境狀態(tài);基于所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)計算獲得機器人觀測狀態(tài);其中,所述機器人狀態(tài)包括機器人的目標位置和機器人的瞬時位置。根據(jù)本專利技術(shù)提供的機器人導(dǎo)航方法,所述獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài),包括:根據(jù)機器人的目標位置、機器人的最大速度、第一時刻機器人的瞬時位置、第一時刻機器人的瞬時速度和第一時刻機器人的體積半徑大小,確定第一時刻機器人的狀態(tài);根據(jù)第一時刻機器人所處環(huán)境中的多個動態(tài)障礙物狀態(tài),確定第一時刻機器人所處環(huán)境狀態(tài);和,所述基于所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)計算獲得機器人觀測狀態(tài),包括:根據(jù)第一時刻所述機器人的狀態(tài)和第一時刻所述機器人所處環(huán)境狀態(tài)以及第一時刻前若干個時刻的機器人所處環(huán)境狀態(tài),確定第一時刻的機器人觀測狀態(tài)。根據(jù)本專利技術(shù)提供的機器人導(dǎo)航方法,所述通過時空圖注意力網(wǎng)絡(luò)對所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)共同進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征,包括:將所述第一時刻的機器人觀測狀態(tài)中第一時刻的機器人狀態(tài)和第一時刻及第一時刻前若干個時刻的機器人所處環(huán)境狀態(tài),均輸入至?xí)r空圖注意力網(wǎng)絡(luò)中,分別對應(yīng)獲得第一時刻的機器人過程狀態(tài)和第一時刻及第一時刻前若干個時刻的機器人所處環(huán)境過程狀態(tài);分別計算各個過程狀態(tài)的查詢目標特征、值目標特征和鍵目標特征,并根據(jù)所述各個過程狀態(tài)的查詢目標特征、值目標特征和鍵目標特征計算獲得各個時刻的機器人的圖注意力特征;基于長短時記憶網(wǎng)絡(luò)和各個時刻的機器人的圖注意力特征,分別獲取所述高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征。根據(jù)本專利技術(shù)提供的機器人導(dǎo)航方法,所述基于所述高層策略層時空狀態(tài)特征獲得機器人的高層策略動作,包括:將所述高層策略層時空狀態(tài)特征與所述機器人狀態(tài)融合獲得第一組合向量;將所述第一組合向量輸入至第一多層全連接層網(wǎng)絡(luò)層,獲得高層策略層值函數(shù);基于所述高層策略層值函數(shù)和預(yù)設(shè)的外部獎懲函數(shù)獲得機器人的高層策略動作。根據(jù)本專利技術(shù)提供的機器人導(dǎo)航方法,所述基于所述高層策略動作計算獲得子目標位置的誤差狀態(tài),包括:基于所述高層策略動作計算機器人的子目標位置以將機器人導(dǎo)航至子目標位置;基于所述子目標位置和所述瞬時位置獲得子目標位置的誤差狀態(tài)。根據(jù)本專利技術(shù)提供的機器人導(dǎo)航方法,所述基于所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征,獲得機器人的低層策略動作,包括:將所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征融合獲得第二組合向量;將所述第二組合向量輸入至第二多層全連接層網(wǎng)絡(luò)層,獲得低層策略層值函數(shù);基于所述低層策略層值函數(shù)與預(yù)設(shè)的低層獎懲函數(shù)獲得機器人的低層策略動作。本專利技術(shù)還提供一種機器人導(dǎo)航裝置,所述裝置包括:狀態(tài)獲取模塊,用于獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài);特征編碼模塊,用于通過時空圖注意力網(wǎng)絡(luò)對由所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)組成的機器人觀測狀態(tài)進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征;高層動作獲取模塊,用于基于所述高層策略層時空狀態(tài)特征獲得機器人的高層策略動作;狀態(tài)更新模塊,基于所述高層策略動作計算獲得子目標位置的誤差狀態(tài);低層動作獲取模塊,用于基于所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征,獲得機器人的低層策略動作;導(dǎo)航模塊,用于基于所述低層策略動作進行機器人導(dǎo)航。本專利技術(shù)還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)根據(jù)如上任一項所述機器人導(dǎo)航方法的全部或部分步驟。本專利技術(shù)還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種機器人導(dǎo)航方法,其特征在于,包括:/n獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài);/n通過時空圖注意力網(wǎng)絡(luò)對所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)共同進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征;/n基于所述高層策略層時空狀態(tài)特征獲得機器人的高層策略動作;/n基于所述高層策略動作計算獲得子目標位置的誤差狀態(tài);/n基于所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征,獲得機器人的低層策略動作;/n基于所述低層策略動作進行機器人導(dǎo)航。/n
【技術(shù)特征摘要】
1.一種機器人導(dǎo)航方法,其特征在于,包括:
獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài);
通過時空圖注意力網(wǎng)絡(luò)對所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)共同進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征;
基于所述高層策略層時空狀態(tài)特征獲得機器人的高層策略動作;
基于所述高層策略動作計算獲得子目標位置的誤差狀態(tài);
基于所述子目標位置的誤差狀態(tài)、所述機器人狀態(tài)和所述低層策略層時空狀態(tài)特征,獲得機器人的低層策略動作;
基于所述低層策略動作進行機器人導(dǎo)航。
2.根據(jù)權(quán)利要求1所述的機器人導(dǎo)航方法,其特征在于,所述獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài),包括:
獲取初始的機器人狀態(tài)和機器人所處環(huán)境狀態(tài);
基于所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)計算獲得機器人觀測狀態(tài);
其中,所述機器人狀態(tài)包括機器人的目標位置和機器人的瞬時位置。
3.根據(jù)權(quán)利要求2所述的機器人導(dǎo)航方法,其特征在于,所述獲取機器人狀態(tài)和機器人所處環(huán)境狀態(tài),包括:
根據(jù)機器人的目標位置、機器人的最大速度、第一時刻機器人的瞬時位置、第一時刻機器人的瞬時速度和第一時刻機器人的體積半徑大小,確定第一時刻機器人的狀態(tài);
根據(jù)第一時刻機器人所處環(huán)境中的多個動態(tài)障礙物狀態(tài),確定第一時刻機器人所處環(huán)境狀態(tài);
和,所述基于所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)計算獲得機器人觀測狀態(tài),包括:
根據(jù)第一時刻所述機器人的狀態(tài)和第一時刻所述機器人所處環(huán)境狀態(tài)以及第一時刻前若干個時刻的機器人所處環(huán)境狀態(tài),確定第一時刻的機器人觀測狀態(tài)。
4.根據(jù)權(quán)利要求3所述的機器人導(dǎo)航方法,其特征在于,所述通過時空圖注意力網(wǎng)絡(luò)對所述機器人狀態(tài)和所述機器人所處環(huán)境狀態(tài)共同進行特征編碼,以獲得機器人的高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特征,包括:
將所述第一時刻的機器人觀測狀態(tài)中第一時刻的機器人狀態(tài)和第一時刻及第一時刻前若干個時刻的機器人所處環(huán)境狀態(tài),均輸入至?xí)r空圖注意力網(wǎng)絡(luò)中,分別對應(yīng)獲得第一時刻的機器人過程狀態(tài)和第一時刻及第一時刻前若干個時刻的機器人所處環(huán)境過程狀態(tài);
分別計算各個過程狀態(tài)的查詢目標特征、值目標特征和鍵目標特征,并根據(jù)所述各個過程狀態(tài)的查詢目標特征、值目標特征和鍵目標特征計算獲得各個時刻的機器人的圖注意力特征;
基于長短時記憶網(wǎng)絡(luò)和各個時刻的機器人的圖注意力特征,分別獲取所述高層策略層時空狀態(tài)特征和低層策略層時空狀態(tài)特...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:丘騰海,張?zhí)鞓?/a>,蒲志強,劉振,易建強,常紅星,
申請(專利權(quán))人:中國科學(xué)院自動化研究所,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。