??在深度學(xué)習(xí)變得普遍之前的2010年,感知是molex連接器自動(dòng)駕駛汽車能力的主要限制,但2014年之后基于深度學(xué)習(xí)的雷達(dá)技術(shù)、相機(jī)還有激光雷達(dá),帶來了技術(shù)性能的不斷提升——那么無人駕駛汽車下一步還會(huì)迎來哪些挑戰(zhàn)呢?
??在過去的十年里,自動(dòng)駕駛領(lǐng)域?qū)C(jī)器學(xué)習(xí)的大部分對(duì)話都集中在對(duì)象檢測(cè)上。對(duì)安全導(dǎo)航至關(guān)重要的是,我們?nèi)绾尾拍芴岣咦詣?dòng)駕駛汽車檢測(cè)和跟蹤動(dòng)態(tài)物體的能力?在2010年,當(dāng)深度學(xué)習(xí)變得普遍之前,感知是自動(dòng)駕駛汽車能力的主要限制。其中ImageNet的分類精度在當(dāng)時(shí)作為最先進(jìn)的解決方案只能達(dá)到50%的準(zhǔn)確率(相比之下,今天的準(zhǔn)確率為88%)。雖然ImageNet分類并不能與當(dāng)前最先進(jìn)的目標(biāo)檢測(cè)技術(shù)相提并論,但它確實(shí)代表了計(jì)算機(jī)視覺的進(jìn)步。
??直到2012年,AlexNet成為ImageNet競(jìng)賽的首批參賽者之一,它利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)。AlexNet在當(dāng)年的ImageNet競(jìng)賽上達(dá)到了最先進(jìn)的精度,成為計(jì)算機(jī)視覺領(lǐng)域最有影響力的方法。
??從2014年開始,基于深度學(xué)習(xí)(Deep Learning)的雷達(dá)技術(shù)、相機(jī)還有激光雷達(dá),都開始悄悄進(jìn)入自動(dòng)駕駛領(lǐng)域。谷歌的自動(dòng)駕駛汽車與一位坐輪椅的女士用掃帚追趕一只鴨子的奇遇,成為有史以來挑戰(zhàn)感知技術(shù)的一個(gè)著名例子。
??如今,基于深度學(xué)習(xí)的感知技術(shù)在自動(dòng)駕駛汽車中應(yīng)用很常見,我們也看到了技術(shù)性能的不斷提升。近年來,VoxelNet、PIXOR和pointpillar等網(wǎng)絡(luò)推動(dòng)了計(jì)算機(jī)視覺技術(shù)的發(fā)展。盡管機(jī)器人不會(huì)像人類那樣完美的感知,但計(jì)算機(jī)視覺的發(fā)展如此之快,可以說它現(xiàn)在已經(jīng)不再是自動(dòng)駕駛汽車商業(yè)化應(yīng)用的主要障礙。
? 那么無人駕駛汽車接下來呢?預(yù)測(cè)!
??既然我們已經(jīng)安全地探測(cè)到周圍的關(guān)鍵物體,接下來就是預(yù)測(cè)它們下一步的行動(dòng)。正確的預(yù)測(cè)意味著我們將在正確的時(shí)間執(zhí)行正確的策略,同時(shí)考慮周圍人的行動(dòng)。預(yù)測(cè)錯(cuò)誤意味著我們可能把自己推入危險(xiǎn)的境地。我們需要使用成千上萬的環(huán)境輸入來進(jìn)行盡可能正確的預(yù)測(cè)。
? ??預(yù)測(cè)是無保護(hù)左轉(zhuǎn)彎最難實(shí)現(xiàn)的核心問題。自動(dòng)駕駛汽車在轉(zhuǎn)彎前必須預(yù)測(cè)周圍所有動(dòng)態(tài)智能體的未來動(dòng)作,這一任務(wù)比自動(dòng)駕駛中的其他問題需要更多的智能。人類駕駛員雖然不是完美的,但主要依賴其大腦、駕駛經(jīng)驗(yàn)和心理暗示(如輕推或手勢(shì)等),來成功地執(zhí)行無保護(hù)左轉(zhuǎn)彎。
??雖然機(jī)器相對(duì)于人類也有一些明顯的優(yōu)勢(shì)(比如360°的遠(yuǎn)程視覺),但與人類相比,自動(dòng)駕駛技術(shù)中的預(yù)測(cè)能力可能落后很多。
1、感知模塊檢測(cè)輸出自動(dòng)駕駛汽車一定半徑內(nèi)的一組目標(biāo) (如車輛、行人等),然后輸入給預(yù)測(cè)模塊;
2、預(yù)測(cè)模塊使用當(dāng)前的方位、速度和之前的觀察來生成關(guān)于每個(gè)對(duì)象在接下來5秒內(nèi)可能做什么的預(yù)測(cè);
3、通過將所有這些預(yù)測(cè)輸入一個(gè)算法,最終生成一個(gè)關(guān)于自動(dòng)駕駛汽車可以執(zhí)行的最安全操作的假設(shè);
4、自動(dòng)駕駛汽車實(shí)時(shí)計(jì)算,每100毫秒重新評(píng)估決策。
??可以看到,這種傳統(tǒng)的計(jì)算方式會(huì)導(dǎo)致不安全和潛在危險(xiǎn)的駕駛行為,尤其是在密集的城市環(huán)境中。在過去的幾年里,我們見證了用深度學(xué)習(xí)方法進(jìn)行預(yù)測(cè)的很多實(shí)驗(yàn)。這些方法有可能顯著提高預(yù)測(cè)的準(zhǔn)確性,將它們從機(jī)器人轉(zhuǎn)變?yōu)轭惾恕?/span>
??用數(shù)據(jù)驅(qū)動(dòng)的方法來解決這些傳統(tǒng)的預(yù)測(cè)問題,與2010年的深度學(xué)習(xí)如何取代傳統(tǒng)認(rèn)知技術(shù)驚人地相似。
下面是一些實(shí)際的例子:
? 克魯斯的感知工程師做了一次偉大的演講,關(guān)于他們?nèi)绾螌㈩A(yù)測(cè)問題轉(zhuǎn)化為一個(gè)分類問題。我對(duì)他們構(gòu)建的工具特別感興趣,這些工具支持快速實(shí)驗(yàn),并具有快速學(xué)習(xí)場(chǎng)景和自動(dòng)標(biāo)記的能力。
Uber分享了他們?cè)贒RF-Net上的工作,DRF-Net增強(qiáng)了行人預(yù)測(cè)能力:“大量的實(shí)驗(yàn)表明,我們的模型表現(xiàn)出了高概率、低誤差、低熵和多模態(tài)的強(qiáng)大特性。”DRF-NET離散預(yù)測(cè)的強(qiáng)大性能對(duì)于基于成本和約束的機(jī)器人規(guī)劃是很有意義的。蘋果發(fā)表了一篇新的強(qiáng)化學(xué)習(xí)論文,題為《最壞策略梯度》(Worst Cases Policy Gradients):“構(gòu)建智能系統(tǒng)的關(guān)鍵挑戰(zhàn)之一是在復(fù)雜環(huán)境中做出穩(wěn)健、安全的順序決策的能力?!?/span>ISEE在CVPR 2019發(fā)布了一項(xiàng)學(xué)習(xí)預(yù)測(cè)方法:“這種MAT編碼能夠自動(dòng)處理不同種類的場(chǎng)景,并通過對(duì)MAT的卷積運(yùn)算,預(yù)測(cè)場(chǎng)景中所有Agent的軌跡,其計(jì)算復(fù)雜性與Agent的數(shù)量成線性關(guān)系?!彪m然預(yù)測(cè)還沒有達(dá)到它所需要的性能,但我很清楚,我們將看到數(shù)據(jù)驅(qū)動(dòng)方法在預(yù)測(cè)性能上的巨大飛躍,這與深度學(xué)習(xí)如何影響傳統(tǒng)感知非常相似。這些即將到來的飛躍將極大地改善自動(dòng)駕駛汽車的決策,為乘客帶來更安全、更順暢的乘坐體驗(yàn)。?