Turing股份有限公司(東京都大田區,代表取締役:山本一成,以下簡稱「Turing」)宣布,在面向自動駕駛的實體AI——VLA(Vision-Language-Action,視覺-語言-動作)模型領域,成為國內首家(※1)實現於公開道路進行即時控制與行駛的企業。此外,公司同步公開了因果推論資料集「RACER」及影像分詞器「DriveTiTok」。

本次開發是日本經濟產業省/NEDO生成式AI研究支援計畫「後5G資訊通訊系統基礎強化研究開發事業/具競爭力之生成式AI基礎模型開發(GENIAC)」的一環。所建構的部分資料集及開發完成的預訓練模型已於Hugging Face上公開。此外,開發過程中獲得的技術洞見也透過技術部落格對外發表,持續推動產業界及學術界自動駕駛技術的發展。

※1:本公司自行調查,2026年3月調查,依據公開資訊,為國內以VLA模型進行公開道路即時推論之自動駕駛控制的案例

關於VLA模型的即時控制

VLA模型整合來自攝影機的視覺資訊與語言情境理解,預測並輸出相當於車輛轉向、加減速的駕駛行為。與以往以影像和感測器資料為核心訓練的端對端自動駕駛模型不同,其特點在於採用以語言模型為基礎的整合式決策架構。

此次,Turing自主訓練了約20億參數規模的VLA模型,並針對車載計算機環境進行最佳化,實現了於公開道路的自動駕駛控制。以10Hz(每秒10次)的頻率同時執行即時推論與車輛控制,並確認了在實際環境中穩定的自動駕駛性能。

Turing自2023年起,持續致力於以語言模型為基礎的自動駕駛技術研究開發。本次成果是其延伸,未來將朝著實現國產實體AI的目標,進一步加速技術開發及社會落地。

技術部落格:https://zenn.dev/turing_motors/articles/f5e44178d78153

因果推論資料集「RACER...

FACT BOX · 重點整理

  • 來源:PR TIMES
  • 分類:新聞