水下機器人在復雜環境中導航和建模,需解決深度感知難題。研究人員提出StereoAdapter框架,結合單目和雙目視覺,利用自監督學習,在無水下真實深度標簽下,高效適配視覺基礎模型,實現高精度深度估計,顯著提升水下機器人導航和目標檢測能力。

水下環境中的深度感知對水下機器人自主導航、目標檢測和三維重建等任務至關重要。

相比單目方法,雙目視覺可以通過雙目相機直接獲得具有度量尺度的3D深度,避免了單目深度固有的尺度不確定性。

然而,將現有視覺算法直接應用于水下場景會遇到顯著挑戰。

水下成像因光學特性差異引入嚴重的域偏移:水對不同波長光的吸收導致顏色和亮度隨距離衰減,水體中的懸浮顆粒會產生前向/后向散射,攝像機與水的界面產生復雜折射。

這些因素違背了陸地視覺中常用的光度一致性假設,使得在水下獲得可靠的雙目匹配變得更加困難。

在此背景下,目前的方法面臨兩大挑戰

  • 如何參數高效地將龐大的視覺基礎模型(如在海量陸地數據上訓練的單目深度編碼器)適配到水下域,而不依賴大量有標注的水下數據;

  • 如何將全局一致但存在尺度模糊單目深度先驗局部精確但光度敏感雙目匹配約束緊密融合,在自監督條件下充分發揮雙方優勢。

此前一些研究嘗試從不同角度結合單目和雙目信息,例如TiO-Depth提出了「二合一」的單目-雙目聯合框架,Stereo Anywhere利用視覺基礎模型提供的單目先驗來增強雙目匹配,實現了在低紋理或反光場景下的零樣本泛化能力。

但在水下場景,劇烈的域差異依然使這些方法效果受限。

針對上述難題,北京大學等機構的研究人員提出了全新的StereoAdapter框架,監督學習為基礎,在不需要水下真實深度標簽的情況下,將強大的單目深度基礎模型與雙目幾何有機結合。