實現全球最尖端實體AI基礎模型開發的REAL WORLD株式會社(RLWRLD,日本法人:東京都千代田區 代表:柳俊熙)於2026年5月7日,正式公開了其獨特的機器人基礎模型(Robotics Foundation Model,以下簡稱 RFM)「RLDX-1(RealDex)」。本模型採用「Dexterity-First」設計,除了視覺、語言之外,還能將力量、觸覺及工作記憶一併在單一模型中處理。其技術有別於傳統以視覺和語言為中心的VLA(Vision-Language-Action)模型,實現了高性能。

以靈巧性為起點的全新設計理念「Dexterity-First」

業界普遍認為,「如果先實現智慧,靈巧性便會自然而然地具備」。然而,REAL WORLD(RLWRLD)提出了不同的觀點。RLDX-1所提出的觀點是,「靈巧性並非智慧的結果隨後附帶而來,而是智慧在物理世界中行動時不可或缺的過程本身」。基於這種認識,唯有能夠處理視覺無法捕捉的信號,例如力量(扭矩)、觸覺和接觸時機,才能實現工業現場中精密作業的自動化。

為驗證這一理念,REAL WORLD(RLWRLD)著重於工業現場中反覆出現的手工操作課題,並透過其自有基準測試「DexBench」進行了系統性定義。具體而言,他們從以下五個方面建立了定量評估手部操作能力的機制:① 抓取多樣性(Grasp Diversity)、② 空間精度(Spatial Precision)、③ 時間精度(Temporal Precision)、④ 接觸精度(Contact Precision)、⑤ 情境意識(Context Awareness)。

全球基準測試確認高性能,並在實際機器人環境中驗證優勢

RLDX-1在全球八種公開基準測試中,超越了NVIDIA的GR00T和Physical Intelligence的πO(Pi Zero)等現有的最高性能(State-of-the-Art,SOTA)模型,取得了優異成績。在為長期且以接觸為中心的任務設計的「RoboCasa Kitchen」中,它獲得了70.6分,作為達到70分區間的VLA模型,展現了高水準。在類人機器人專用評估「GR-1 Tabletop」中,它獲得了58.7分,領先第二名模型10.7個百分點。此外,在評估對攝影機、照明、語言、背景等七個變數的魯棒性的「LIBERO-Plus」中,它也錄得了86.7%的成績,超越了對照模型。

此外,在實際機器人環境中,觀察到了更為顯著的差異。在REAL WORLD(RLWRLD)參與開發的WiRobotics公司類人機器人「ALLEX」的評估中,它在涉及動態重量變化的「倒咖啡(Pot-to-Cup Pouring)」任務中,成功率達到了70.8%。考慮到對照模型僅停留在30%區間後半,這約是其兩倍的成果。

採用「看、感受、記憶、適應」的核心架構「MSAT」

REAL WORLD(RLWRLD)的技術核心是多流動作變換器(Multi-Stream Action Transformer,MSAT)。傳統的VLA(Vision-Language-Action)模型將視覺、語言、動作、觸覺、記憶等不同信號在單一串流中處理,而MSAT則為每個模態設置了獨立的串流,並透過模態間的聯合注意力(joint attention)進行整合。此外,對於視覺無法捕捉的物理信號(如力量(扭矩)和觸覺)以及長期記憶,也透過專用模組(Physics Module、Memory Module)進行處理,從而實現了單一模型「看(see)、感受(feel)、記憶(remember)、適應(adapt)」的一系列過程。

REAL WORLD(RLWRLD)CTO裴宰京表示,「RLDX-1的核心在於將結構分離,使每個模態都能充分發揮其特性。透過扭矩信號高精度捕捉接觸瞬間,並推斷時間軸上動態變化的能力,這是傳統VLA在結構上難以處理的領域。」

FACT BOX · 重點整理

  • 來源:PR TIMES
  • 分類:新品
  • 相關組織:NVIDIA / Physical Intelligence / WiRobotics
  • 原文日期2026年5月7日
  • 產品、服務:DexBench / MSAT (Multi-Stream Action Transformer)