国内天堂色福利,国产又大又粗91,亚洲一区二区无码喷水,成人写真福利网,超碰在线人妻,好色视频网站,日本久久网,亚洲91av,韩日一级二级

阿米爾卡比爾理工大學(xué)提出逆強(qiáng)化學(xué)習(xí)方法Irl-Dal 可實現(xiàn)更安全的自動駕駛

   2026-02-09 蓋世汽車劉麗婷810
核心提示:據(jù)外媒報道,來自阿米爾卡比爾理工大學(xué)電氣工程系的研究人員Seyed Ahmad Hosseini Miangoleh、Amin Jalal Aghdasian和Farzaneh A

據(jù)外媒報道,來自阿米爾卡比爾理工大學(xué)電氣工程系的研究人員Seyed Ahmad Hosseini Miangoleh、Amin Jalal Aghdasian和Farzaneh Abdollahi提出逆強(qiáng)化學(xué)習(xí)方法IRL-DAL,結(jié)合了專家模仿、自適應(yīng)規(guī)劃和一種新型安全監(jiān)控器。這項工作意義重大,因為它在模擬環(huán)境中實現(xiàn)了96%的成功率,同時顯著降低了碰撞事故,為自主導(dǎo)航樹立了新的標(biāo)桿,并有望在充滿挑戰(zhàn)且難以預(yù)測的真實世界場景中展現(xiàn)出更穩(wěn)健的性能。

展示.png

圖片來源:https://arxiv.org/abs/2601.23266

基于擴(kuò)散的逆強(qiáng)化學(xué)習(xí)在提升自動駕駛安全性方面展現(xiàn)出令人矚目的成果

該新型逆強(qiáng)化學(xué)習(xí)框架旨在顯著提升自動駕駛車輛的導(dǎo)航性能。該研究引入了一種基于擴(kuò)散的自適應(yīng)前瞻規(guī)劃器,旨在實現(xiàn)更安全、更穩(wěn)健的駕駛能力。訓(xùn)練首先通過模仿學(xué)習(xí)專家級有限狀態(tài)機(jī)控制器,為后續(xù)學(xué)習(xí)階段奠定穩(wěn)定的基礎(chǔ)。

隨后,將環(huán)境因素與逆強(qiáng)化學(xué)習(xí)判別器信號相結(jié)合,使車輛的動作與期望的專家級目標(biāo)保持一致。最后,采用混合獎勵系統(tǒng)實現(xiàn)強(qiáng)化學(xué)習(xí),該系統(tǒng)結(jié)合了擴(kuò)散環(huán)境反饋和來自逆強(qiáng)化學(xué)習(xí)過程的目標(biāo)獎勵。

條件擴(kuò)散模型充當(dāng)安全監(jiān)控器,精心規(guī)劃安全路徑,以保持車道位置、避開障礙物并確保車輛平穩(wěn)行駛。至關(guān)重要的是,可學(xué)習(xí)的自適應(yīng)掩碼能夠根據(jù)車速和附近危險情況動態(tài)調(diào)整視覺注意力,從而提升感知系統(tǒng)的性能。

在初始模仿階段之后,駕駛策略使用近端策略優(yōu)化(一種用于策略改進(jìn)的復(fù)雜算法)進(jìn)行微調(diào)。在Webots模擬器中進(jìn)行了大量的訓(xùn)練,采用兩階段課程逐步挑戰(zhàn)自主智能體。

該團(tuán)隊在導(dǎo)航任務(wù)中取得了驚人的96%成功率,同時將碰撞率降低至每千步僅0.05次,為安全自動駕駛性能樹立了新的標(biāo)桿。通過實施這一創(chuàng)新方法,該智能體不僅展現(xiàn)了出色的車道保持能力,還能熟練地應(yīng)對各種危險狀況,從而顯著提升了整體魯棒性。

研究人員已將代碼公開,以促進(jìn)該關(guān)鍵領(lǐng)域的進(jìn)一步研究和開發(fā)。這項工作為創(chuàng)建能夠在復(fù)雜動態(tài)環(huán)境中導(dǎo)航且安全性和可靠性堪比人類駕駛員的自主系統(tǒng)開辟了新的途徑。

該研究首先利用有限狀態(tài)機(jī)(FSM)控制器進(jìn)行模仿訓(xùn)練,為后續(xù)學(xué)習(xí)奠定穩(wěn)定的基礎(chǔ)。隨后,將環(huán)境因素與IRL判別器信號相結(jié)合,使智能體的行為與專家駕駛目標(biāo)保持一致。

接下來,研究人員采用混合獎勵系統(tǒng)進(jìn)行強(qiáng)化學(xué)習(xí),該系統(tǒng)結(jié)合了環(huán)境反饋和目標(biāo)IRL獎勵,以優(yōu)化策略。條件規(guī)劃器作為安全監(jiān)督器,通過保持車道位置、避開障礙物和促進(jìn)車輛平穩(wěn)行駛,確保路徑規(guī)劃的安全。

研究人員設(shè)計了一種可學(xué)習(xí)自適應(yīng)掩碼(LAM)來提升感知能力,它能夠根據(jù)車速和附近危險情況動態(tài)調(diào)整視覺注意力。在基于有限狀態(tài)機(jī)(FSM)的模仿之后,該策略利用近端策略優(yōu)化(PPO)進(jìn)行微調(diào),并在Webots模擬器中采用兩階段訓(xùn)練方案。

該方法不僅使智能體能夠保持車道行駛,還能以專家級水平有效應(yīng)對不安全狀況,從而顯著提升整體魯棒性。

實驗首先利用有限狀態(tài)機(jī)(FSM)控制器進(jìn)行模仿學(xué)習(xí),為后續(xù)的強(qiáng)化學(xué)習(xí)奠定穩(wěn)定的基礎(chǔ)。研究團(tuán)隊通過兩階段課程評估系統(tǒng)性能,該課程結(jié)合了環(huán)境反饋和目標(biāo)導(dǎo)向的逆強(qiáng)化學(xué)習(xí)獎勵。

數(shù)據(jù)顯示,平均獎勵顯著提升,從基線PPO和均勻采樣下的85.2提升至采用完整IRL-DAL框架后的180.7。這一16%的提升伴隨著碰撞次數(shù)的減少,從每1000步0.63次降至0.05次。該系統(tǒng)利用64×64大小的4通道視覺張量,結(jié)合180光束激光雷達(dá)掃描,構(gòu)建全面的環(huán)境感知。

進(jìn)一步分析表明,引入有限狀態(tài)機(jī)(FSM)回放緩沖區(qū)使平均獎勵提升了41%,而擴(kuò)散規(guī)劃器則貢獻(xiàn)了29%的提升??蓪W(xué)習(xí)自適應(yīng)掩碼(LAM)和安全感知能量控制器(SAEC)進(jìn)一步優(yōu)化了性能,最終實現(xiàn)了2.45米的平均位移誤差(ADE)和5.1米的最終位移誤差(FDE)。

測試證明,該系統(tǒng)能夠以專家級水平有效應(yīng)對不安全狀況,增強(qiáng)了魯棒性,并實現(xiàn)了更平順的變道和碰撞規(guī)避。算法1詳細(xì)描述了集成的訓(xùn)練流程,其中包括FSM感知回放、行為克隆、生成對抗模仿學(xué)習(xí)、近端策略優(yōu)化、基于擴(kuò)散的自適應(yīng)前瞻規(guī)劃器和安全感知能量控制器。

研究人員表示,目前的評估僅限于Webots模擬器,未來的工作可以探索真實世界測試和更復(fù)雜的環(huán)境。進(jìn)一步的研究方向包括研究LAM對不同傳感器模式的泛化能力,以及擴(kuò)展該框架以處理更復(fù)雜的交通交互。


 
反對 0舉報 0 收藏 0 打賞 0評論 0
 
更多>同類行業(yè)資訊
推薦圖文
推薦行業(yè)資訊
點擊排行
網(wǎng)站首頁 ?|? 關(guān)于我們  |  聯(lián)系方式  |  使用協(xié)議  |  版權(quán)隱私  |  網(wǎng)站地圖 ?|? 排名推廣 ?|? 廣告服務(wù) ?|? 積分換禮 ?|? 網(wǎng)站留言 ?|? RSS訂閱 ?|? 違規(guī)舉報 ?|? 鄂ICP備2024066298號-1
?
晋中市| 宜兰县| 台中市| 马尔康县| 汝南县| 舒城县| 土默特右旗| 石林| 三台县| 沙湾县| 红安县| 顺义区| 邵东县| 榆社县| 平阴县| 涟源市| 湄潭县| 米易县| 耿马| 怀安县| 环江| 青河县| 稻城县| 广州市| 大田县| 泗阳县| 临漳县| 玛曲县| 惠来县| 扶余县| 万全县| 海伦市| 罗江县| 武平县| 浪卡子县| 巴彦县| 梧州市| 资兴市| 凤凰县| 晋中市| 新疆|