端到端不是終點(diǎn),大模型才是結(jié)局
Myautotime | 10-22
18966
中國(guó)頭部智駕廠商小鵬汽車的掌門人何小鵬曾經(jīng)發(fā)表過一個(gè)觀點(diǎn),端到端只能實(shí)現(xiàn)L3,端到端+大模型才能實(shí)現(xiàn)L4。這是嚴(yán)謹(jǐn)?shù)募夹g(shù)研判,還是拍腦袋的一家之言?
01
偷換概念,固然有利于產(chǎn)品的宣傳,卻有可能把大家的認(rèn)知搞得一團(tuán)糟。端到端成了自動(dòng)駕駛行業(yè)最火的營(yíng)銷熱詞,沒有之一。
大模型破圈效應(yīng)更大,GPT的逆天實(shí)力東一句、西一句地多次灌到普通消費(fèi)者的耳朵里。
端到端大模型的概念被少數(shù)車企和智駕方案商宣傳了好長(zhǎng)一段時(shí)間,在從業(yè)者群里逐漸變得耳熟能詳。
不過,當(dāng)前的自動(dòng)駕駛系統(tǒng)能力確定無疑地處于L2++階段,既然端到端+大模型才能實(shí)現(xiàn)L4,“端到端大模型”這個(gè)概念便有偷梁換柱之嫌。
實(shí)際上,端到端和大模型確實(shí)是兩個(gè)不同的概念。
談概念,就要一竿子扎到底,回到技術(shù)的原點(diǎn)去看一看。
與端到端相對(duì)的是規(guī)則+算法的分模塊方案。
與傳統(tǒng)的分模塊方案相比,端的端方案有兩個(gè)最根本的不同點(diǎn),一則是傳統(tǒng)的分模塊自動(dòng)駕駛系統(tǒng)劃分為感知-決策-執(zhí)行三個(gè)模塊,每個(gè)模塊之間都有非常明顯的界限。
二則是傳統(tǒng)方案是規(guī)則加算法,端到端方案是全面AI化、模型化。
與生成式AI大模型相對(duì)的是基于判別式AI的小模型。
這兩者的區(qū)別在于判別式AI屬于判定模型,它的基本原理是從大量的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)并總結(jié)出決策邊界,從而預(yù)測(cè)數(shù)據(jù)的標(biāo)簽。
比如說,在BEV的視角下,行人、二輪車、三輪車、乘用車、大卡車、錐桶……每一個(gè)事物的種類都分得明明白白。
生成式模型則是估計(jì)各種類型的數(shù)據(jù)分布,比較不同類型下生成數(shù)據(jù)的概率,它的側(cè)重點(diǎn)在于生成新的數(shù)據(jù)。
比如,正慢慢變得火熱并有望在2025年成為自動(dòng)駕駛行業(yè)最火營(yíng)銷熱詞的世界模型,它的主要作用就是生成在不同的駕駛策略下的攝像頭視角。
再進(jìn)一步總結(jié)一下,端到端是系統(tǒng)結(jié)構(gòu)形式從規(guī)則向AI的轉(zhuǎn)換,大模型是AI從判別式AI向生成式AI的轉(zhuǎn)變,很明顯是兩種不同的概念。
02
沒有調(diào)查就沒有發(fā)言權(quán)。
一家車企或智駕方案供應(yīng)商要在傳統(tǒng)端到端方案之外開辟第二戰(zhàn)線,上馬生成式AI大模型這種特別消耗人力、物力、金錢、時(shí)間的新技術(shù),肯定經(jīng)過了非常仔細(xì)縝密的調(diào)研。
傳統(tǒng)端到端之所以要+大模型,必定是因?yàn)榇竽P湍軌蚪鉀Q現(xiàn)有方案無法解決的痛點(diǎn)。
畢竟,大部分公司都在虧錢,不至于像西紅柿首富那么豪橫,非要把錢花在刀把上。
在2023年的CVPR會(huì)議上,小鵬汽車自動(dòng)駕駛高管分享過在廣袤的中國(guó)大地上做自動(dòng)駕駛需要克服的三方面挑戰(zhàn):層出不窮、無視交通規(guī)則的交通參與者,復(fù)雜難解、特別考驗(yàn)空間幾何能力的道路拓?fù)洌涡郧夷?、神鬼莫辨的交通?biāo)識(shí)。
這三個(gè)方面的挑戰(zhàn)或痛點(diǎn),端到端方案來了也只能望洋生嘆。
傳統(tǒng)的端到端方案固然可以消除冗余,通過對(duì)計(jì)算資源的集約化使用增加車端神經(jīng)網(wǎng)絡(luò)的參數(shù)量。
但是,即便是參數(shù)翻倍,也解決不了上面三個(gè)挑戰(zhàn)。
車端模型都是由云端模型壓縮而來,參數(shù)量有著幾十倍的差距,云端模型好使的話,蘿卜快跑也不用配備云端駕駛員了。
因?yàn)椋瑓?shù)翻倍是無法實(shí)現(xiàn)從感知能力到認(rèn)知能力的升維。
比如對(duì)于第一項(xiàng)挑戰(zhàn)-人車混雜的城區(qū)交通場(chǎng)景中的動(dòng)態(tài)物體,比識(shí)別物體種類更加重要的是,能否建立足夠的通用認(rèn)知能力,并通過對(duì)長(zhǎng)時(shí)序信息和當(dāng)前交通環(huán)境下復(fù)雜語(yǔ)義信息的捕捉理解交通參與者的意圖。
至于包含各種顏色、圖案、數(shù)字、文字信息且形狀各異的交通標(biāo)識(shí),就更加讓人抓狂了,沒有大語(yǔ)言模型的通用理解能力,小模型注定在各種長(zhǎng)尾面前無能為力。
所以,無論是對(duì)交通參與者的意圖理解,還是對(duì)繁雜多變的交通標(biāo)識(shí)的語(yǔ)義理解,都需要仰仗生成式AI大模型超強(qiáng)的理解能力,才有可能解決這些感知長(zhǎng)尾和決策長(zhǎng)尾。
03
魯迅先生說,這世上本沒有路,走的人多了,也就有了路。在端到端大模型這條路上,已經(jīng)有了越來越多的選手。
蔚來、小鵬、理想們紛紛將生成式AI大模型搬進(jìn)車端自動(dòng)駕駛系統(tǒng)里。
龍生九子,各有不同,正如各家的端到端模型架構(gòu)各有千秋一樣,蔚小理在自動(dòng)駕駛大模型上做出了各自的技術(shù)選擇。
或許是因?yàn)橛?顆Orin X芯片在手,算力比較從容,又或許特斯拉選擇了世界模型這條路線,在自動(dòng)駕駛大模型上,蔚來汽車的世界模型成了蔚小理三家方案中最為硬核的存在。
它的基本原理是根據(jù)車端傳感器采集的當(dāng)前視頻數(shù)據(jù)、本車狀態(tài)和對(duì)其它交通參與者意圖的判斷,推演左轉(zhuǎn)、直行、右轉(zhuǎn)后的場(chǎng)景,根據(jù)安全、舒適、效率最大化、社會(huì)影響最小化的策略,選擇一條最佳的行駛軌跡。
小鵬的大語(yǔ)言模型體現(xiàn)在其端到端方案中的XBrain模塊上面,對(duì)應(yīng)去年在CVPR會(huì)議上痛陳的那幾個(gè)挑戰(zhàn),它可以用于對(duì)動(dòng)態(tài)物體的意圖判斷、對(duì)路牌文字、待轉(zhuǎn)區(qū)交通標(biāo)識(shí)的識(shí)別。
7月初,理想汽車召開智能駕駛發(fā)布會(huì),宣布推送分段式端到端無圖NOA,并發(fā)布了“本土首個(gè)”一體式端到端方案,并且“行業(yè)首創(chuàng)”端到端+視覺語(yǔ)言模型的雙系統(tǒng)方案。
這里的視覺語(yǔ)言模型就是疊加了視覺模態(tài)的大語(yǔ)言模型。值得一提的是,在國(guó)內(nèi)車圈,發(fā)布絕不等同于推送。
從理想汽車展示的視覺語(yǔ)言模型的能力來看,其作用和小鵬汽車的XBrain有異曲同工之妙。
在這三家的方案中,蔚來汽車含金量最高。世界模型涉及到對(duì)時(shí)空的理解和對(duì)物理規(guī)律的理解,本質(zhì)上是三維空間智能,空間智能正是AI教母李飛飛的創(chuàng)業(yè)方向。
小鵬和理想汽車方案的本質(zhì)依然是一維文本智能,和世界模型背后的空間智能不可同日而語(yǔ)。
李想6月份高調(diào)公布了理想汽車在智能駕駛上的目標(biāo)-一年內(nèi)實(shí)現(xiàn)L3,三年內(nèi)實(shí)現(xiàn)L4。
做一下閱讀理解,李想認(rèn)為,端到端可以實(shí)現(xiàn)L3,端到端+視覺語(yǔ)言模型可以實(shí)現(xiàn)L4,和何小鵬的觀點(diǎn)可謂不謀而合!