水下機器人在復(fù)雜環(huán)境中導(dǎo)航和建模,需解決深度感知難題。研究人員提出StereoAdapter框架,結(jié)合單目和雙目視覺,利用自監(jiān)督學(xué)習(xí),在無水下真實深度標(biāo)簽下,高效適配視覺基礎(chǔ)模型,實現(xiàn)高精度深度估計,顯著提升水下機器人導(dǎo)航和目標(biāo)檢測能力。

水下環(huán)境中的深度感知對水下機器人自主導(dǎo)航、目標(biāo)檢測和三維重建等任務(wù)至關(guān)重要。

相比單目方法,雙目視覺可以通過雙目相機直接獲得具有度量尺度的3D深度,避免了單目深度固有的尺度不確定性。

然而,將現(xiàn)有視覺算法直接應(yīng)用于水下場景會遇到顯著挑戰(zhàn)。

水下成像因光學(xué)特性差異引入嚴(yán)重的域偏移:水對不同波長光的吸收導(dǎo)致顏色和亮度隨距離衰減,水體中的懸浮顆粒會產(chǎn)生前向/后向散射,攝像機與水的界面產(chǎn)生復(fù)雜折射。

這些因素違背了陸地視覺中常用的光度一致性假設(shè),使得在水下獲得可靠的雙目匹配變得更加困難。

在此背景下,目前的方法面臨兩大挑戰(zhàn)

  • 如何參數(shù)高效地將龐大的視覺基礎(chǔ)模型(如在海量陸地數(shù)據(jù)上訓(xùn)練的單目深度編碼器)適配到水下域,而不依賴大量有標(biāo)注的水下數(shù)據(jù);

  • 如何將全局一致但存在尺度模糊單目深度先驗局部精確但光度敏感雙目匹配約束緊密融合,在自監(jiān)督條件下充分發(fā)揮雙方優(yōu)勢。

此前一些研究嘗試從不同角度結(jié)合單目和雙目信息,例如TiO-Depth提出了「二合一」的單目-雙目聯(lián)合框架,Stereo Anywhere利用視覺基礎(chǔ)模型提供的單目先驗來增強雙目匹配,實現(xiàn)了在低紋理或反光場景下的零樣本泛化能力。

但在水下場景,劇烈的域差異依然使這些方法效果受限。

針對上述難題,北京大學(xué)等機構(gòu)的研究人員提出了全新的StereoAdapter框架,監(jiān)督學(xué)習(xí)為基礎(chǔ),在不需要水下真實深度標(biāo)簽的情況下,將強大的單目深度基礎(chǔ)模型與雙目幾何有機結(jié)合。