GMO網際網路集團旗下的GMO網際網路股份有限公司(總公司:東京都澀谷區,代表取締役社長執行役員:伊藤 正,以下簡稱「GMO網際網路」)、NTT東日本股份有限公司(總公司:東京都新宿區,代表取締役社長:澁谷直樹,以下簡稱「NTT東日本」)、NTT西日本股份有限公司(總公司:大阪府大阪市,代表取締役社長:北村亮太,以下簡稱「NTT西日本」)以及QTnet股份有限公司(總公司:福岡縣福岡市,代表取締役社長:小倉 良夫,以下簡稱「QTnet」),已完成利用「IOWN (Innovative Optical and Wireless Network)」之「APN (All-Photonics Network)」進行東京至福岡間遠端分散式AI基礎設施的技術驗證。

本次驗證中,於2025年11月至2026年2月期間,在東京(儲存設備)與福岡(GPU)之間鋪設了IOWN APN實際線路,並針對連接「GMO GPU雲端」之GPU與大容量儲存設備的AI開發基礎設施,進行了AI工作負載性能的測量與評估。結果顯示,在大型語言模型(LLM)的訓練方面,與本地環境相比,性能下降幅度僅約0.5%,確認其影響極為有限。針對伴隨資料讀取的影像分類任務,透過學習資料的最佳化等方式,亦確認了即使在遠端環境下也能達到實用等級的處理能力,證實了透過針對工作負載特性進行設計,在遠端分散式環境下進行實用性AI開發是可行的。

此外,在本次驗證之前,四家公司曾於2025年7月作為事前驗證(Phase 1),針對模擬東京至福岡間(約1,000km)的遠端環境進行了性能測試,並已將其詳細內容作為技術報告公開。

新聞稿:https://www.ntt-west.co.jp/news/2510/251002a.html

技術報告:https://www.ntt-west.co.jp/news/2510/251002a_1.html

四家公司今後將基於本次驗證的成果,持續推動針對客戶需求之遠端分散式AI基礎設施的實用化工作。

【背景與目的】

隨著近年生成式AI與大型語言模型(LLM)的普及,對AI開發基礎設施的需求正急劇擴大。過去,GPU與大容量儲存設備必須在物理位置上相鄰配置,但為了因應資料中心的空間限制,以及企業希望在自有據點管理資料的需求,實現跨越地理限制的分散式AI開發基礎設施已成為必要。四家公司利用具備高速大容量且低延遲特性的IOWN APN,針對連接遠端GPU與儲存設備時的技術可行性進行了探討。

建構AI開發基礎設施時的課題範例

【事前驗證(Phase 1)概要與結果】

2025年7月,於福岡的資料中心內設置延遲調整裝置「OTN Anywhere」,並利用GMO GPU雲端執行了影像辨識(ResNet)與語言學習(Llama2 70B)兩項測試任務。在相當於東京至福岡間(15毫秒)的模擬延遲條件下,確認ResNet的基準測試分數下降幅度約為12%,判斷已達商用範圍,進而推進至本次驗證。

【本次驗證(Phase 2)概要與結果】

本次驗證中,作為實際的據點間網路,將GMO網際網路集團的第二總部(東京、澀谷區)與QTnet的資料中心(福岡、福岡市)透過IOWN APN(100GbE)進行連接。在福岡端配置GPU伺服器「NVIDIA HGX H100」,在澀谷端配置高速儲存設備「DDN AI400X2」,並測量使用遠端儲存設備時的AI訓練性能。

・ 驗證期間:2025年11月~2026年2月 連接區間: 東京都澀谷區(GMO網際網路) ~ 福岡縣福岡市(QTnet)

・ 驗證內容:影像分類任務(ResNet)及大型語言模型處理任務(Llama2 70B)的訓練時間測量

【驗證結果】

驗證實驗結果顯示,即使在經由IOWN APN的遠端分散式環境下,也能發揮與本地環境(同一資料中心內連接)不相上下的性能。

大型語言模型(Llama2 70B)訓練任務

・ 本地環境:24.87分

・ 遠端環境(經由IOWN APN):24.99分

・ 證實了在以運算處理為主的LLM訓練中,延遲的影響極為有限(差異約0.5%)。

影像分類(ResNet)任務

・ 本地環境:13.72分

・ 遠端環境(經由IOWN APN):14.38分

・ 確認了即使在發生資料讀取的任務中,透過適當的資料整理,在遠端環境下也能達到實用等級的處理能力。

※本驗證結果未經MLCommons Association官方驗證與認可。

詳細內容請參閱以下附件。

利用『IOWN APN』之遠端分散式AI基礎設施中,GPU與儲存設備間連接性能測試的詳情與結果

URL  https://www.ntt-west.co.jp/news/2603/260330b_1.html

【本次驗證帶來的變革】

本次驗證的成功,是解決因物理距離導致「計算資源與資料分離」這一課題的重要轉捩點。過去,AI訓練所需的資料通常必須傳輸並複製到雲端服務供應商的資料中心,但本次驗證所展示的「資料不動,計算資源從遠端存取資料」模式,為資料主權或安全性要求嚴格的領域提供了新的選擇。這被認為能夠減少資料傳輸的時間與成本、消除重複管理,並擴大結合地端(On-premises)與雲端的計算資源選擇。特別是這種在將資料保留於自有設施與組織管理下,同時利用國內雲端GPU資源的模式,預期將對金融、醫療、國防、行政等內部控制或資料跨境規範嚴格的領域,實現「主權雲端(Sovereign Cloud)」做出重大貢獻。

【期待的應用案例】

隨著本次驗證確認的技術實用化,預期將有以下應用。此外,在實際應用時,由於性能可能會因GPU與儲存設備間的距離及網路架構等個別條件而變動,因此需針對各個使用案例評估其適用性。

・ 在保持大型訓練資料或機密資料狀態下的AI訓練:無需將自有管理下的資料儲存於外部,即可利用遠端雲端GPU執行AI模型訓練。

・ 與既有地端環境的混合應用:在利用公司既有儲存設備與GPU資源的同時,從雲端調度不足的GPU資源,建構靈活的AI開發環境。

・ 透過地方分散配置進行BCP(業務持續計畫)對應:透過地理上分散計算資源與儲存設備,建構在災害或故障發生時也能確保AI處理持續性的高可用性環境。

本次驗證顯示了IOWN APN不僅僅是通訊線路,更是一條邁向支撐AI與雲端基礎設施之社會基礎設施的發展路徑。四家公司今後將透過推廣IOWN APN(NTT東日本與NTT西日本的「All-Photonics Connect powered by IOWN」),並與「GMO GPU雲端」等雲端服務供應商,以及QTnet等地方資料中心進行合作,目標使IOWN APN作為AI基礎設施的骨幹,實現社會實裝。

※新聞發布資料中所記載的資訊及驗證結果為發布當日之內容。本內容係於特定驗證環境下所得,並不保證在任何環境下皆能獲得同等性能與結果。

FACT BOX · 重點整理

  • 來源:PR TIMES
  • 分類:research