阿米爾卡比爾理工大學(xué)提出逆強(qiáng)化學(xué)習(xí)方法Irl-Dal 可實現(xiàn)更安全的自動駕駛

2026-02-09 蓋世汽車劉麗婷810

核心提示：據(jù)外媒報道，來自阿米爾卡比爾理工大學(xué)電氣工程系的研究人員Seyed Ahmad Hosseini Miangoleh、Amin Jalal Aghdasian和Farzaneh A

據(jù)外媒報道，來自阿米爾卡比爾理工大學(xué)電氣工程系的研究人員Seyed Ahmad Hosseini Miangoleh、Amin Jalal Aghdasian和Farzaneh Abdollahi提出逆強(qiáng)化學(xué)習(xí)方法IRL-DAL，結(jié)合了專家模仿、自適應(yīng)規(guī)劃和一種新型安全監(jiān)控器。這項工作意義重大，因為它在模擬環(huán)境中實現(xiàn)了96%的成功率，同時顯著降低了碰撞事故，為自主導(dǎo)航樹立了新的標(biāo)桿，并有望在充滿挑戰(zhàn)且難以預(yù)測的真實世界場景中展現(xiàn)出更穩(wěn)健的性能。

展示.png

圖片來源：https://arxiv.org/abs/2601.23266

基于擴(kuò)散的逆強(qiáng)化學(xué)習(xí)在提升自動駕駛安全性方面展現(xiàn)出令人矚目的成果

該新型逆強(qiáng)化學(xué)習(xí)框架旨在顯著提升自動駕駛車輛的導(dǎo)航性能。該研究引入了一種基于擴(kuò)散的自適應(yīng)前瞻規(guī)劃器，旨在實現(xiàn)更安全、更穩(wěn)健的駕駛能力。訓(xùn)練首先通過模仿學(xué)習(xí)專家級有限狀態(tài)機(jī)控制器，為后續(xù)學(xué)習(xí)階段奠定穩(wěn)定的基礎(chǔ)。

隨后，將環(huán)境因素與逆強(qiáng)化學(xué)習(xí)判別器信號相結(jié)合，使車輛的動作與期望的專家級目標(biāo)保持一致。最后，采用混合獎勵系統(tǒng)實現(xiàn)強(qiáng)化學(xué)習(xí)，該系統(tǒng)結(jié)合了擴(kuò)散環(huán)境反饋和來自逆強(qiáng)化學(xué)習(xí)過程的目標(biāo)獎勵。

條件擴(kuò)散模型充當(dāng)安全監(jiān)控器，精心規(guī)劃安全路徑，以保持車道位置、避開障礙物并確保車輛平穩(wěn)行駛。至關(guān)重要的是，可學(xué)習(xí)的自適應(yīng)掩碼能夠根據(jù)車速和附近危險情況動態(tài)調(diào)整視覺注意力，從而提升感知系統(tǒng)的性能。

在初始模仿階段之后，駕駛策略使用近端策略優(yōu)化（一種用于策略改進(jìn)的復(fù)雜算法）進(jìn)行微調(diào)。在Webots模擬器中進(jìn)行了大量的訓(xùn)練，采用兩階段課程逐步挑戰(zhàn)自主智能體。

該團(tuán)隊在導(dǎo)航任務(wù)中取得了驚人的96%成功率，同時將碰撞率降低至每千步僅0.05次，為安全自動駕駛性能樹立了新的標(biāo)桿。通過實施這一創(chuàng)新方法，該智能體不僅展現(xiàn)了出色的車道保持能力，還能熟練地應(yīng)對各種危險狀況，從而顯著提升了整體魯棒性。

研究人員已將代碼公開，以促進(jìn)該關(guān)鍵領(lǐng)域的進(jìn)一步研究和開發(fā)。這項工作為創(chuàng)建能夠在復(fù)雜動態(tài)環(huán)境中導(dǎo)航且安全性和可靠性堪比人類駕駛員的自主系統(tǒng)開辟了新的途徑。

該研究首先利用有限狀態(tài)機(jī)（FSM）控制器進(jìn)行模仿訓(xùn)練，為后續(xù)學(xué)習(xí)奠定穩(wěn)定的基礎(chǔ)。隨后，將環(huán)境因素與IRL判別器信號相結(jié)合，使智能體的行為與專家駕駛目標(biāo)保持一致。

接下來，研究人員采用混合獎勵系統(tǒng)進(jìn)行強(qiáng)化學(xué)習(xí)，該系統(tǒng)結(jié)合了環(huán)境反饋和目標(biāo)IRL獎勵，以優(yōu)化策略。條件規(guī)劃器作為安全監(jiān)督器，通過保持車道位置、避開障礙物和促進(jìn)車輛平穩(wěn)行駛，確保路徑規(guī)劃的安全。

研究人員設(shè)計了一種可學(xué)習(xí)自適應(yīng)掩碼（LAM）來提升感知能力，它能夠根據(jù)車速和附近危險情況動態(tài)調(diào)整視覺注意力。在基于有限狀態(tài)機(jī)（FSM）的模仿之后，該策略利用近端策略優(yōu)化（PPO）進(jìn)行微調(diào)，并在Webots模擬器中采用兩階段訓(xùn)練方案。

該方法不僅使智能體能夠保持車道行駛，還能以專家級水平有效應(yīng)對不安全狀況，從而顯著提升整體魯棒性。

實驗首先利用有限狀態(tài)機(jī)（FSM）控制器進(jìn)行模仿學(xué)習(xí)，為后續(xù)的強(qiáng)化學(xué)習(xí)奠定穩(wěn)定的基礎(chǔ)。研究團(tuán)隊通過兩階段課程評估系統(tǒng)性能，該課程結(jié)合了環(huán)境反饋和目標(biāo)導(dǎo)向的逆強(qiáng)化學(xué)習(xí)獎勵。

數(shù)據(jù)顯示，平均獎勵顯著提升，從基線PPO和均勻采樣下的85.2提升至采用完整IRL-DAL框架后的180.7。這一16%的提升伴隨著碰撞次數(shù)的減少，從每1000步0.63次降至0.05次。該系統(tǒng)利用64×64大小的4通道視覺張量，結(jié)合180光束激光雷達(dá)掃描，構(gòu)建全面的環(huán)境感知。

進(jìn)一步分析表明，引入有限狀態(tài)機(jī)（FSM）回放緩沖區(qū)使平均獎勵提升了41%，而擴(kuò)散規(guī)劃器則貢獻(xiàn)了29%的提升?？蓪W(xué)習(xí)自適應(yīng)掩碼（LAM）和安全感知能量控制器（SAEC）進(jìn)一步優(yōu)化了性能，最終實現(xiàn)了2.45米的平均位移誤差（ADE）和5.1米的最終位移誤差（FDE）。

測試證明，該系統(tǒng)能夠以專家級水平有效應(yīng)對不安全狀況，增強(qiáng)了魯棒性，并實現(xiàn)了更平順的變道和碰撞規(guī)避。算法1詳細(xì)描述了集成的訓(xùn)練流程，其中包括FSM感知回放、行為克隆、生成對抗模仿學(xué)習(xí)、近端策略優(yōu)化、基于擴(kuò)散的自適應(yīng)前瞻規(guī)劃器和安全感知能量控制器。

研究人員表示，目前的評估僅限于Webots模擬器，未來的工作可以探索真實世界測試和更復(fù)雜的環(huán)境。進(jìn)一步的研究方向包括研究LAM對不同傳感器模式的泛化能力，以及擴(kuò)展該框架以處理更復(fù)雜的交通交互。

點贊 0反對 0舉報 0 收藏 0 打賞 0評論 0

更多>同類行業(yè)資訊

推薦圖文

研究人員發(fā)現(xiàn)新型固體電解質(zhì)成分使鈉電池更安全、成本更低

研究人員發(fā)現(xiàn)新型固體

推薦行業(yè)資訊

• XPANCEO公司開發(fā)高精度被動式眼動追蹤技術(shù) 用于	• Roadzen公司drivebuddyAI獲得專利可實時檢測并
• TomTom推出面向ADAS的統(tǒng)一限速數(shù)據(jù)服務(wù)	• MIKROE推出XSENS MTi-8 Click擴(kuò)展板提供RTK增
• 全球首款! PolyIC和Nanomade聯(lián)合推出透明的觸控	• 突破燃料電池瓶頸：韓國研究人員開發(fā)新型鉑催化
• 佐治亞理工學(xué)院構(gòu)建無需電子元件、電池和“大腦	• 采埃孚推出面向公交車隊的SolarBoost太陽能電池
• 哈佛大學(xué)開發(fā)信任框架使機(jī)器人和車輛網(wǎng)絡(luò)更安	• 東北大學(xué)研發(fā)出抗畸變能量材料改善鋰離子電池

国内天堂色福利,国产又大又粗91,亚洲一区二区无码喷水,成人写真福利网,超碰在线人妻,好色视频网站,日本久久网,亚洲91av,韩日一级二级

阿米爾卡比爾理工大學(xué)提出逆強(qiáng)化學(xué)習(xí)方法Irl-Dal 可實現(xiàn)更安全的自動駕駛