港中大RAM模型讓機器人從“聽懂”到“會做” 空間智能邁出關鍵一步

首頁 -> 港澳 ->時政

港中大RAM模型讓機器人從“聽懂”到“會做” 空間智能邁出關鍵一步

分享到：

2026-05-06 10:35 | 稿件來源：香港新聞網

【字號：大中小】

香港新聞網5月6日電　香港中文大學與浙江人形機器人創新中心、浙江大學等團隊聯合提出RAM三維空間理解與操作模型，相關成果近日發表於國際學術期刊《科學·機器人》。該模型借鑒檢索增強生成思想，為機器人配備可查詢的外部三維知識庫，按需檢索物體幾何屬性與抓取點等信息，彌補視覺語言模型在三維空間理解上的不足，顯著提升機器人在複雜長程任務中的操作可靠性。

讓機器人從“聽懂”到“會做”，空間智能邁出關鍵一步

近年來，以 GPT、Gemini 等為代表的視覺語言大模型（VLM）已能幫助機器人理解人類語言指令，并基於圖像進行一定程度的場景推理。然而，從“理解指令”到“動手操作”之間，仍存在一道關鍵鴻溝：大模型懂語義，卻未必懂三維空間；會生成任務步驟，卻未必能把步驟轉化為真實物理世界中的可執行動作。

在抓取、擺放、整理等機器人操作任務中，物體的位置、朝向、尺寸、功能平面和可抓取部位都直接影響執行結果。一旦模型對空間關係判斷不准，就可能給出看似合理、實際無法落地的規劃。如何讓大模型獲得可驗證、可遷移的三維空間知識，正成為具身智能研究中的核心問題。

香港中文大學與浙江人形創新中心、浙江大學等團隊在機器人空間智能領域取得重要突破，提出名為RAM的三維空間理解與操作模型，為提升機器人在複雜長程任務中的操作可靠性提供了新的技術路徑。

图源：Science Robotics

“針對這一挑戰，我們提出了RAM模型，其借鑒檢索增強生成的思想，為大模型配備可查詢的外部三維知識庫。機器人執行任務時，模型可以按需檢索物體類別、幾何屬性、功能平面、抓取點等信息，從而彌補視覺語言模型自身三維空間理解不足的問題。”團隊成員、浙江人形機器人創新中心首席技術官許學成介紹。

這項研究的第一作者、香港中文大學博士後陳凱向 DeepTech 介紹，RAM 可以被理解為一套可檢索的“三維物體知識庫”：其中記錄了各類日常物體的三維形狀、穩定擺放方式、可抓取部位和功能平面等信息。它并不是重新訓練 VLM，而是在模型規劃前為其提供更精細的空間上下文，讓大模型在任務規劃時不只“知道要做什麼”，也更清楚“應該如何在三維空間中做”。

图源：Science Robotics

14 項實驗檢驗 RAM 的空間操作能力

據了解，為了驗證 RAM 的能力，研究團隊在真實機械臂平台上開展了 14 項空間操作實驗，覆蓋 31 個物體實例和 11 個物體類別。

實驗首先考察語言指令驅動的空間操作，任務包括單物體單步驟、多物體單步驟和多物體多步驟三類。結果顯示，RAM 在總計 120 次重複測試中取得 89.17% 的平均成功率，其中最複雜的多物體多步驟任務成功率達到 80%。

不過，當任務對物體的空間位置和朝向要求較高時，僅靠語言描述會變得冗長，也容易產生歧義。陳凱表示，圖片在表達複雜空間布局時更加緊凑、直觀。因此，團隊進一步測試了 RAM 在圖像引導操作中的表現。

以餐具擺放為例，系統只需輸入一張目標擺放參考圖，機器人便需要理解圖中物體的相對位置和朝向，并將二維參考布局映射到當前三維工作空間中。實驗顯示，在單張圖像引導空間操作中，常規平面場景成功率達到 92%，複雜高低平面場景成功率為 72%，突破了傳統方法通常依賴俯視參考圖的限制。

RAM 還被用於測試與空間推理相關的自主決策。陳凱解釋，同一個目標任務往往存在多個語義上可行的方案，但考慮到物體尺寸、朝向、高度和位置關係後，其中一些方案在物理上并不可行。RAM 的價值在於讓機器人在規劃前顯式獲得這些空間約束，從而選擇更可執行的策略。

在清理桌面任務中，機器人需要根據桌面高度、垃圾桶尺寸和物體位置選擇合適的清掃方案。實驗中，當直接清掃不可行時，系統能够規劃藉助簸箕等中間工具的間接方案，平均成功率達到 65%，展示了相比純語義規劃更強的物理可行性判斷能力。

除了常見剛體物體，研究團隊還探索了 RAM 在鉸接物體和柔性物體操作中的擴展能力。對於筆記本電腦、抽屜等具有鉸鏈結構的物體，團隊採用多模板匹配策略，預設不同開合狀態或滑動狀態，并通過觀測結果匹配最接近的模板，從而估計旋轉軸或推動方向。基於這些空間信息，機器人能够完成筆記本電腦開合、抽屜推拉等操作。

在柔性物體操作方面，團隊以叠衣服為例，將摺叠過程拆解為展開、叠左袖、叠右袖等有限步驟，并為不同狀態匹配相應模板，輔助系統完成分階段操作。研究還初步探索了與觸覺傳感器的結合：當抓取過程中物體因重心分布不均發生相對移動時，系統可利用觸覺反饋重新規劃抓取姿勢。

談及未來方向，陳凱表示，“這一路徑可以繼續向更開放的物體類別、更複雜的物理交互和更長程的任務執行擴展。一方面，機器人所需的知識庫可以從物體形狀、抓取點和功能平面，進一步拓展到材質、受力、可變形性、操作失敗模式和安全邊界等更豐富的具身知識；另一方面，空間知識的使用也可以從任務規劃階段進一步延伸到執行過程，在機器人與環境交互的過程中持續感知、校正和重規劃，使外部知識庫提供的空間先驗與機器人自身積累的操作經驗形成閉環。對於家庭服務、養老照護等需要近距離人機交互的場景而言，這類能力將是機器人實現安全、可靠輔助操作的重要基礎。”　　（完）

【編輯：錢林霞】