利用「IOWN APN」進行東京至福岡遠端分散式 AI 基礎設施實證,確認依據工作負載特性之實用效能
利用 IOWN APN 技術,成功驗證東京至福岡間遠端分散式 AI 基礎設施的實用效能。
GMO 網際網路集團旗下的 GMO Internet, Inc.(總部:東京都澀谷區,代表取締役社長執行役員:伊藤 正,以下簡稱 GMO Internet)、NTT 東日本(總部:東京都新宿區,代表取締役社長:澁谷直樹,以下簡稱 NTT 東日本)、NTT 西日本(總部:大阪府大阪市,代表取締役社長:北村亮太,以下簡稱 NTT 西日本)以及 QTnet(總部:福岡縣福岡市,代表取締役社長:小倉 良夫,以下簡稱 QTnet)已完成利用「IOWN (Innovative Optical and Wireless Network)」之「APN (All-Photonics Network)」進行東京至福岡間遠端分散式 AI 基礎設施的技術實證。
本實證於 2025 年 11 月至 2026 年 2 月期間,在東京(儲存設備)與福岡(GPU)之間鋪設 IOWN APN 實際線路,並針對連接「GMO GPU Cloud」GPU 與大容量儲存設備的 AI 開發平台進行 AI 工作負載效能測量與評估。結果顯示,在大型語言模型(LLM)訓練方面,與本地環境相比,效能下降幅度僅約 0.5%,影響極為有限。針對涉及資料讀取的影像分類任務,透過訓練資料優化等手段,確認在遠端環境下亦能達到實用處理水準。此實證證明,透過針對工作負載特性進行設計,在遠端分散環境下進行實用級 AI 開發是可行的。
此外,在本次實證之前,四家公司曾於 2025 年 7 月進行預備實證(Phase 1),針對東京至福岡間(約 1,000 公里)的模擬遠端環境進行效能測試,並已公開詳細技術報告。
新聞稿:https://www.ntt-west.co.jp/news/2510/251002a.html
技術報告:https://www.ntt-west.co.jp/news/2510/251002a_1.html
四家公司今後將基於本次實證成果,持續推動符合客戶需求的遠端分散式 AI 基礎設施實用化。
【背景與目的】
隨著近年生成式 AI 與大型語言模型(LLM)的普及,對 AI 開發平台的需求急劇擴大。過去,GPU 與大容量儲存設備必須物理鄰近配置,但為了解決資料中心空間限制以及企業希望在自有據點管理資料的需求,市場亟需實現跨越地理限制的分散式 AI 開發平台。四家公司利用 IOWN APN 高速、大容量且低延遲的特性,探討了連接遠端 GPU 與儲存設備的技術可行性。
【預備實證(Phase 1)概要與結果】
2025 年 7 月,在福岡的資料中心內設置延遲調整裝置「OTN Anywhere」,並利用 GMO GPU Cloud 執行影像辨識(ResNet)與語言學習(Llama2 70B)兩項測試任務。在相當於東京至福岡間(15 毫秒)的模擬延遲條件下,ResNet 的基準測試分數下降約 12%,判斷已達商用可行範圍,進而推動本次實證。
【本實證(Phase 2)概要與結果】
本實證將 GMO 網際網路集團第二總部(東京澀谷區)與 QTnet 資料中心(福岡福岡市)透過 IOWN APN (100GbE) 實際連接。在福岡端配置 GPU 伺服器「NVIDIA HGX H100」,在澀谷端配置高速儲存設備「DDN AI400X2」,測量使用遠端儲存時的 AI 訓練效能。
- 實證期間:2025 年 11 月至 2026 年 2 月,連接區間:東京都澀谷區(GMO Internet)至福岡縣福岡市(QTnet)
- 實證內容:測量影像分類任務(ResNet)及大型語言模型處理任務(Llama2 70B)的訓練時間
【實證結果】
實驗結果確認,即使透過 IOWN APN 的遠端分散環境,也能發揮與本地環境(同一資料中心內連接)相當的效能。
■ 大型語言模型(Llama2 70B)訓練任務
- 本地環境:24.87 分鐘
- 遠端環境(經由 IOWN APN):24.99 分鐘
- 實證顯示,在以運算處理為主的 LLM 訓練中,延遲影響極為有限(差異約 0.5%)。
■ 影像分類(ResNet)任務
- 本地環境:13.72 分鐘
- 遠端環境(經由 IOWN APN):14.38 分鐘
- 確認即使在涉及資料讀取的任務中,透過適當的資料整理,在遠端環境下亦能達到實用處理水準。
※本驗證結果未經 MLCommons Association 官方驗證或認可。
【本實證帶來的變革】
本次實證的成功,是解決因物理距離導致「計算資源與資料分離」問題的重要轉捩點。過去,AI 訓練所需的資料通常需傳輸並複製到雲端服務商的資料中心,而本次實證展示的「資料不動,計算資源從遠端存取資料」模式,為資料主權與安全性要求嚴格的領域提供了新選擇。這將有助於減少資料傳輸的時間與成本、消除重複管理,並擴大結合地端(On-premise)與雲端的計算資源選擇。特別是此模式允許在將資料保留於自有設施與組織管理下的同時,利用國內雲端的 GPU 資源,預期將對金融、醫療、國防、行政等內部控制與資料跨境規範嚴格的領域,實現「主權雲(Sovereign Cloud)」做出重大貢獻。
【預期應用案例】
隨著本技術實用化,預期可應用於以下場景:
- 在保持大型訓練資料或機密資料狀態下進行 AI 訓練:無需將自有管理資料存放在外部,即可利用遠端雲端 GPU 執行 AI 模型訓練。
- 與既有地端環境混合運用:在利用自有既設儲存與 GPU 資源的同時,從雲端調度不足的 GPU 資源,建構靈活的 AI 開發環境。
- 透過地方分散配置應對 BCP(業務持續計畫):將計算資源與儲存設備地理分散,即使在災害或故障發生時,也能確保 AI 處理的持續性,建構高可用性環境。
本實證顯示了 IOWN APN 不僅僅是通訊線路,更將發展成為支撐 AI 與雲端基礎設施的社會基礎設施。四家公司今後將持續推廣 IOWN APN,並與包含「GMO GPU Cloud」在內的雲端服務業者及 QTnet 等地方資料中心合作,目標讓 IOWN APN 成為 AI 基礎設施的骨幹,實現社會落地應用。