隨著自動駕駛技術(shù)在不同場景下的持續(xù)落地,目標(biāo)檢測作為其中的一項核心模塊,對檢測算法的精度和穩(wěn)定性要求越來越高。近日,在國際機器人技術(shù)與自動化會議(ICRA 2021)舉辦的第四屆nuScenes三維目標(biāo)檢測挑戰(zhàn)賽中,來自百度研究院的機器人與自動駕駛實驗室(RAL)團(tuán)隊在三維物體檢測任務(wù)的多項評價指標(biāo)中榮獲第一,并將關(guān)鍵指標(biāo)nuScenes Detection Score (NDS)從上一屆的71.4%提升至74.9%,刷新了三維目標(biāo)檢測比賽成績。
ICRA2021 nuScenes三維物體檢測挑戰(zhàn)賽官方排行榜
榜單地址:https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Any
第四屆nuScenes目標(biāo)檢測挑戰(zhàn)賽吸引了來自全球各地的多支參賽隊伍,不僅有百度、華為、滴滴等知名企業(yè),還涵蓋了德克薩斯大學(xué)奧斯汀分校、上海交通大學(xué)、中國科技大學(xué)、哈爾濱工程大學(xué)等國內(nèi)外重點高校。
本屆挑戰(zhàn)賽使用的nuScenes[1]數(shù)據(jù)集是自動駕駛目標(biāo)檢測領(lǐng)域中最流行的公開數(shù)據(jù)集之一,集成了多種傳感器(如相機,LiDAR, Radar等),提供了包含二維、三維物體標(biāo)注、點云分割、高精地圖等豐富的標(biāo)注信息。數(shù)據(jù)集整體共包含1000個場景、140萬幀圖像、39萬幀激光雷達(dá)點云數(shù)據(jù)、23個物體類別、140萬個三維標(biāo)注框,數(shù)據(jù)規(guī)模和難度遠(yuǎn)超之前的自動駕駛數(shù)據(jù)集KITTI。
百度研究院的機器人與自動駕駛實驗室(RAL)團(tuán)隊在比賽中提出了一種多模態(tài)和多任務(wù)的信息融合框架FusionPainting[3] ,并且結(jié)合多模型融合等技術(shù),推出了CenterPoint-Fusion的技術(shù)方案,將評價的關(guān)鍵指標(biāo)NDS從上一屆冠軍的71.4%提升至74.9%,全類平均正確率(mean Average Precision)從上一屆冠軍的67.1%提升至72.4%。憑借本次挑戰(zhàn)賽中多個評測指標(biāo)第一的優(yōu)異成績,百度在自動駕駛領(lǐng)域的技術(shù)實力再次彰顯。
CenterPoint-Fusion算法優(yōu)勢何在?
激光雷達(dá)(LiDAR)可以直接以三維點云的形式提供周圍場景的深度信息,因此廣泛的應(yīng)用于自動駕駛的感知模塊中。但是相比于圖像數(shù)據(jù),激光點云具有密度稀疏,紋理信息不豐富的缺點,因此在檢測任務(wù)中對于物體的類別分辨往往不準(zhǔn)確。
利用相機和Lidar之間的標(biāo)定參數(shù),PointPainting[2]將圖像的語義信息附加到點云上,再利用融合的點云信息進(jìn)行物體檢測,能有效的提升檢測的精度。但是由于圖像分割器的特征圖尺寸大小的限制,分割結(jié)果在物體的邊界上有模糊效應(yīng),再反投影到3D點云上時會造成物體邊界的點云類別信息不準(zhǔn)確,從而影響最終檢測的效果。
基于多模態(tài)自適應(yīng)融合的FusionPainting流程圖
相比于二維圖像分割有物體邊界模糊的缺點,直接在三維點云上進(jìn)行分割卻能得到清晰的物體邊界。為了有效的解決這種邊界模糊的問題,百度提出了融合二維圖像分割與三維點云分割結(jié)果的FusionPainting框架[3]。對于每一個三維點,既通過二維圖像分割獲得語義信息,又通過三維點云分割獲得語義信息,最終通過一個自適應(yīng)的注意力模塊來對兩種信息進(jìn)行有效的融合。融合后的點云可以作為任何三維物體檢測器的輸入,從而最終得到三維物體檢測結(jié)果。
在此框架的基礎(chǔ)上,百度進(jìn)一步添加了多模型融合、半監(jiān)督學(xué)習(xí)、測試階段數(shù)據(jù)增強等技術(shù),充分發(fā)揮多模態(tài)和多模型的作用,進(jìn)一步提升了目標(biāo)檢測的效果。
nuScene數(shù)據(jù)集三維物體檢測檢測效果示例,其中不同的顏色代表不同類別的物體
本次在nuScenes三維目標(biāo)檢測挑戰(zhàn)賽中奪冠的百度研究院機器人與自動駕駛實驗室,在自動駕駛感知和機器人領(lǐng)域有著豐富的技術(shù)積累和成果輸出,研究成果發(fā)表在CVPR、ICCV、ECCV、NeurIPS、AAAI、ICRA 與IROS等頂級國際學(xué)術(shù)會議和《Science Robotics》,《IEEE T-PAMI》、《IEEE T-IP》、《IEEE T-ITS》、《SAGE IJRR》等頂級期刊上。
百度布局自動駕駛以來,不僅在自動駕駛技術(shù)和智能駕駛領(lǐng)域市場占據(jù)了先發(fā)優(yōu)勢,并通過持續(xù)深耕,在技術(shù)創(chuàng)新和應(yīng)用落地上也取得了令人矚目的成就。在自動駕駛這場改變?nèi)祟愜壽E的長跑中,百度還將繼續(xù)技術(shù)創(chuàng)新,做這條道路上堅定的領(lǐng)跑者。
參考文獻(xiàn):
Caesar, Holger and Bankiti, Varun and Lang, Alex H and Vora, Sourabh and Liong, Venice Erin and Xu, Qiang and Krishnan, Anush and Pan, Yu and Baldan, Giancarlo and Beijbom, Oscar. nuscenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.
Vora, Sourabh and Lang, Alex H and Helou, Bassam and Beijbom, Oscar. Pointpainting: Sequential fusion for 3d object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4604-4612.
Shaoqing Xu , Dingfu Zhou, Jin Fang, Junbo Yin, Bin Zhou and Liangjun Zhang. FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object Detection. Accepted by IEEE International Conference on Intelligent Transportation Systems (ITSC), 2021.