在自動駕駛系統(tǒng)的感知架構(gòu)中,攝像頭始終扮演著“眼睛”的角色,它以直觀的方式捕捉車外環(huán)境,將光學(xué)信號轉(zhuǎn)化為圖像數(shù)據(jù),供后端算法進行物體檢測、分割、跟蹤與深度估計。隨著自動駕駛技術(shù)從輔助駕駛(Level?1/2)向中高階自動駕駛(Level?3?及以上)演進,對環(huán)境感知的精度、可靠性和冗余度也提出了更苛刻的要求。與此同時,行業(yè)內(nèi)主流的視覺方案也在不斷豐富,從早期的單目攝像頭,到雙目立體視覺,再到近年來開始探索的三目甚至多目的多視角布局,自動駕駛純視覺解決方案也更加豐富。
單目攝像頭
單目攝像頭因其硬件結(jié)構(gòu)最為簡單、成本最低廉、布置最為靈活而成為自動駕駛感知系統(tǒng)的基礎(chǔ)配置。一臺普通攝像頭即可安裝于擋風(fēng)玻璃后方或車前格柵處,便可獲得寬視角的彩色圖像序列。單目深度估計主要依賴于圖像中的透視幾何線索(如遠(yuǎn)近關(guān)系產(chǎn)生的尺寸變化)、運動線索(雙幀或多幀光流)、以及深度學(xué)習(xí)模型對場景先驗的學(xué)習(xí)。
基于單目圖像的深度估計方法可以分為監(jiān)督式與自監(jiān)督式。監(jiān)督式借助激光雷達(LiDAR)或結(jié)構(gòu)光相機標(biāo)定出的真深度進行網(wǎng)絡(luò)訓(xùn)練,精度較高但對大規(guī)模標(biāo)注數(shù)據(jù)依賴嚴(yán)重;自監(jiān)督式則通過視差一致性、光度一致性約束和多視角幾何投影建立損失函數(shù),擺脫了稠密標(biāo)注的束縛,但在紋理匱乏和動態(tài)遮擋場景下精度波動明顯。單目攝像頭在弱光、強逆光條件下表現(xiàn)較好,且與毫米波雷達結(jié)合時能夠形成較為完善的檢測與跟蹤管線;但由于其固有的“視差盲區(qū)”,在深度估計誤差(數(shù)米級)與目標(biāo)尺寸估計偏差(百分之十以內(nèi))的情況下,難以獨立支撐高階自動駕駛對亞米級、甚至亞米級以下的深度精度需求。
雙目攝像頭
雙目視覺系統(tǒng)通過兩臺同步標(biāo)定、具有固定基線的攝像機獲取左右兩路圖像,以視差(disparity)為橋梁直接計算場景深度,雙目視覺系統(tǒng)也更加近似于人眼。同一物點在左右圖像中的橫向偏移量與基線長度和焦距共同決定了其絕對距離。經(jīng)典雙目深度重建分為四大步驟:立體校正(stereo rectification)、視差匹配(disparity estimation)、視差濾波與優(yōu)化(filtering & refinement)、以及點云重建(point cloud generation)。當(dāng)前主流的視差匹配算法既包括基于局部窗口的代價聚合方法(如SAD、SSD與Census Transform),也包括全局能量最小化方法(如Graph Cuts、Semi-Global Matching),以及最近幾年興起的端到端深度學(xué)習(xí)方法(如GC-Net、PSMNet)。
雙目視覺能夠在中短距離(0.5?米至50?米)內(nèi)提供亞米級的深度精度,并在靜態(tài)與高紋理場景中表現(xiàn)卓越;但當(dāng)面對低紋理、重復(fù)紋理、強光照不均或半透明遮擋時,視差匹配的正確率會顯著下降,導(dǎo)致深度估計失真。此外,雙目系統(tǒng)對攝像頭外參(相對位置與姿態(tài))的標(biāo)定精度和時間同步提出了高要求,一旦標(biāo)定誤差超過千分之一(基線與焦距之比),就可能帶來數(shù)毫米至數(shù)厘米的深度偏離。雙目系統(tǒng)在算力消耗與數(shù)據(jù)帶寬方面也高于單目,兩路高分辨率圖像的拼接與匹配、對稱的圖像預(yù)處理與后處理,都需要更強的視覺處理單元(VPU)或GPU支持。
三目攝像頭
三目布局一般采用共面而非共線的設(shè)計,三臺攝像頭按一定幾何形狀(如等邊三角形基線)分布,以獲得更豐富的視差信息。相較于雙目,三目系統(tǒng)能夠形成兩組或三組不同基線長度、不同匹配對的深度估計,從而在多種距離區(qū)間內(nèi)兼顧近、中、遠(yuǎn)距離的測量精度。例如,基線較短的一對攝像頭適合1至10?米范圍的高精度測距,而基線較長的一對則能夠延伸到100?米的目標(biāo)探測。
在算法層面,三目視差匹配可同時在多對圖像間建立代價體(cost volume),并通過多視角一致性約束(multiview consistency)剔除錯誤匹配,顯著提升了在低紋理與弱光場景下的魯棒性。三目系統(tǒng)還能夠利用不同視角下的遮擋信息(occlusion reasoning)進行遮擋補償,彌補雙目在部分遮擋物體(如行人背后夾雜車輛或路牌)時深度估計的盲區(qū)。三目系統(tǒng)的一個挑戰(zhàn)是算法復(fù)雜度,如何高效構(gòu)建三維代價體、如何在保證實時性的前提下完成多對視差匹配、如何動態(tài)選擇最優(yōu)基線對進行深度融合,都是亟需解決的問題。在硬件方面,為了減輕時間同步與數(shù)據(jù)帶寬壓力,通常會采用板載FPGA或?qū)S?a class="article-link" target="_blank" href="/tag/ISP/">ISP(Image Signal Processor)進行初步預(yù)處理與視差計算,然后再將稀疏或半密集的深度信息傳輸給主算力單元。
技術(shù)方案
在更高階的自動駕駛車輛上,為了實現(xiàn)360°無死角監(jiān)控與高精度三維重建,廠商往往會將前向雙目或三目視覺與側(cè)向、后向、俯瞰等多路攝像頭結(jié)合,構(gòu)成四目、六目甚至八目的多視角網(wǎng)絡(luò)。此時,系統(tǒng)需要解決的關(guān)鍵問題不僅僅是單對深度估計,更包括跨視角的時空對齊(temporal-spatial synchronization)、全局標(biāo)定(global extrinsic calibration)、多視角深度融合(multiview depth fusion)與全景拼接(panorama stitching)。在全景感知中,車輛往往需要同時執(zhí)行多任務(wù),前方車輛與行人的距離測量、側(cè)向障礙物的實時告警、倒車時的俯視圖生成,以及自動泊車中的全景軌跡規(guī)劃。多目布局能夠提供更豐富的冗余信息,即便某一路攝像頭因泥污、強逆光或物理損壞暫時失效,系統(tǒng)仍能依靠其它視角的深度信息維持基礎(chǔ)感知能力,從而滿足高安全等級(ASIL D)對感知冗余的要求。
單目方案憑借極低的硬件成本與成熟的深度學(xué)習(xí)生態(tài),成為市面上大量量產(chǎn)車型實現(xiàn)L2?級別自動輔助駕駛的主流選擇;雙目方案在特定場景(如干式公路、高速公路集群貨運)中能夠提供亞米級精度,成為部分L3?級自動駕駛示范區(qū)的首選;而三目及多目方案則主要出現(xiàn)在少數(shù)高端概念車與少量具備大量數(shù)據(jù)標(biāo)注與計算資源支持的示范車隊中。對于工程實現(xiàn)而言,還需考慮視覺傳感器與整車CAN總線、以太網(wǎng)交換機的帶寬匹配;車載算力單元(如NVIDIA DRIVE、Mobileye EyeQ)對并行視覺算法的部署能力;視覺算法與其他傳感器(LiDAR、毫米波雷達、超聲波雷達)的融合策略以及在極端天氣(雨、雪、霧、夜間)下的抗干擾與抗閃爍能力。
當(dāng)前,為提升單目與雙目在復(fù)雜場景下的魯棒性,主流做法是將視覺深度估計與雷達或LiDAR點云進行時空融合,通過深度校正網(wǎng)絡(luò)(depth correction network)對單目估計值進行回歸補償,或利用Kalman濾波與圖優(yōu)化(graph optimization)框架將多源深度信息整合到同一幀時空參照系內(nèi)。對于三目與多目系統(tǒng),則往往采用多視角神經(jīng)網(wǎng)絡(luò)(multiview neural network),直接在稠密的多目代價體上進行端到端訓(xùn)練,以統(tǒng)一的方式生成更高精度、更少噪聲的稠密深度圖。此外,利用自監(jiān)督式多視角重投影損失(photometric consistency)與幾何一致性約束(geometric consistency),進一步優(yōu)化深度估計的精度和邊緣完整性。
結(jié)語
其實單目、雙目與三目乃至多目攝像頭方案各有千秋,單目以簡馭繁、成本友好;雙目以立體、精度可控;三目以多基線、魯棒性更強。隨著算法的精進與硬件的升級,三目與多目系統(tǒng)在復(fù)雜場景下的優(yōu)勢將日益凸顯,但其算力與集成成本也需要工程團隊在量產(chǎn)化中不斷權(quán)衡優(yōu)化。自動駕駛視覺方案的選擇,從來不只是“目”數(shù)越多越好,而是要在安全冗余、深度精度、實時算力與成本之間找到最佳平衡,最終服務(wù)于可持續(xù)、大規(guī)模部署的智能出行愿景。