12月28日,小鵬汽車與北京大學(xué)合作的論文《FastDriveVLA:基于即插即用重構(gòu)的端到端高效駕駛》已被AAAI 2026接收。AAAI 2026是全球頂尖的人工智能會(huì)議之一。

圖片來源:小鵬
該論文介紹了一種名為FastDriveVLA的高效視覺標(biāo)記剪枝框架( efficient visual token pruning framework),專為端到端自動(dòng)駕駛的視覺-語言-動(dòng)作(VLA)模型而設(shè)計(jì)。這項(xiàng)工作提供了一種全新的視覺標(biāo)記剪枝方法,使人工智能能夠“像人一樣駕駛”,僅關(guān)注關(guān)鍵的視覺信息,同時(shí)過濾掉無關(guān)數(shù)據(jù)。
隨著人工智能大型模型的快速發(fā)展,VLA模型因其在復(fù)雜場(chǎng)景理解和動(dòng)作推理方面的強(qiáng)大能力,正被廣泛應(yīng)用于端到端自動(dòng)駕駛系統(tǒng)中。這些模型將圖像編碼成大量的視覺標(biāo)記,作為模型“感知”世界并做出駕駛決策的基礎(chǔ)。然而,處理大量的標(biāo)記會(huì)增加車載計(jì)算負(fù)載,從而影響推理速度和實(shí)時(shí)性能。
雖然視覺標(biāo)記剪枝已被公認(rèn)為加速VLA推理的有效方法,但現(xiàn)有的方法,無論是基于文本-視覺注意力還是標(biāo)記相似性,在實(shí)際駕駛場(chǎng)景中都存在局限性。為了解決這個(gè)問題,小鵬汽車和北京大學(xué)聯(lián)合開發(fā)出FastDriveVLA,這是一種基于重構(gòu)的新型標(biāo)記剪枝框架,其靈感來源于人類駕駛員如何專注于相關(guān)的前景信息(例如車道、車輛、行人),而忽略非關(guān)鍵的背景區(qū)域。

圖片來源:小鵬
該方法引入了一種對(duì)抗性的前景-背景重構(gòu)策略,增強(qiáng)了模型識(shí)別和保留有價(jià)值標(biāo)記的能力。在nuScenes自動(dòng)駕駛基準(zhǔn)測(cè)試中,F(xiàn)astDriveVLA在各種剪枝比例下均取得了最先進(jìn)的性能。當(dāng)視覺標(biāo)記的數(shù)量從3249個(gè)減少到812個(gè)時(shí),該框架在保持高規(guī)劃精度的同時(shí),計(jì)算量降低了近7.5倍。
這是小鵬汽車今年第二次在全球頂級(jí)人工智能會(huì)議上獲得認(rèn)可。今年6月,小鵬汽車在CVPR WAD大會(huì)上分享了其在自動(dòng)駕駛基礎(chǔ)模型方面的最新進(jìn)展。在11月的技術(shù)日上,小鵬汽車發(fā)布了VLA 2.0架構(gòu),該架構(gòu)取消了“語言翻譯”步驟,實(shí)現(xiàn)了直接的視覺到動(dòng)作生成,這一突破重新定義了傳統(tǒng)的V-L-A流程。
展望未來,小鵬汽車將繼續(xù)致力于實(shí)現(xiàn)L4級(jí)自動(dòng)駕駛,加大對(duì)人工智能大模型技術(shù)的投入,加速將物理人工智能系統(tǒng)集成到車輛中,旨在為全球用戶提供安全、高效、舒適的智能駕駛體驗(yàn)。

