近年來,隨著大規模訓練數據和先進機器學習、深度學習算法的發展,三維目標檢測的整體性能有了巨大的提高,三維目標檢測也廣泛應用于重建建筑物的建筑模型、自動駕駛、人臉檢測、歷史遺址保留、虛擬現實游戲等行業。
三維目標檢測的數據表示形式有多種,例如RGB圖像、立體像素化圖像、多邊形網格以及點云等。隨著硬件設備性能的提升與人工智能技術的飛速發展,越來越多的領域開始使用激光雷達采集到的點云進行三維空間的場景理解,如自動駕駛、增強現實等,雷達點云不易受到外界因素的影響,具有較強的抗干擾能力且測距精度較高。而相機采集到的RGB圖像卻具有豐富的紋理信息和豐富的色彩,但是圖像是缺乏深度的二維信息,存在由遠及近的尺度問題,可以看出圖像數據與點云數據各有優劣。
WIMI微美全息(NASDAQ:WIMI)開發了基于圖像和點云融合的三維目標檢測算法系統。以RGB 圖像和含深度信息的點云數據為輸入數據,對三維空間中的目標進行分類和定位,再經過一系列的特征提取、實例分割、3D框估計等操作,將圖像和點云融合,利用多任務的相互增益,,大大提升三維目標檢測準確率。
首先處理圖像和點云數據,提取各自的特征,將特征輸入到檢測方法的不同階段以進行3D邊界框預測,提取出對應的目標數據。每個物體對應一個視錐體點云;其次,將每個物體的視錐體點云做為掩膜預測的輸入數據,獲得預測的物體掩膜,并利用物體掩膜結果投影至點云空間再形成視錐進行3D實例分與3D框估計,可有效地減小了場景中嘈雜點云對目標檢測的影響。然后將最后層的特征連接在一起送入決策層進行特征融合和目標檢測。為了精確地定位物體的3D位置,可以通過將點云數據中的點投影至圖像平面來建立點和像素的關聯,然后將圖像特征融合入每個點中。將圖像RGB特征融入點云數據在一定程度上是能夠起到正向提升的效果,有效提升三維目標檢測的精度。
隨著三維數據獲取技術的進步、計算能力的增強、深度學習技術的發展以及應用需求的增加,三維視覺技術的研究和應用受到越來越多的關注。目前,三維目標檢測技術已經成為計算機視覺和自動駕駛領域的核心技術之一,與二維目標檢測技術相比,在三維空間中進行目標的位姿估計對于實際應用場景更加重要。三維目標檢測與識別是三維場景理解的關鍵技術,是機器理解世界并與世界交互的基礎,在自動駕駛、智能機器人、智慧交通、自主導航等領域具有極其廣闊的應用前景,WIMI微美全息也將不斷拓展其基于圖像和點云融合的三維目標檢測算法的運用領域。
請輸入驗證碼