Datadog 推出「GPU 監控」功能,協助企業在 AI 專案規模擴大時優化成本與提升效能

Datadog 宣佈在全球範圍內推出「GPU 監控」產品,透過提供整個 AI 技術棧的統一可視化,幫助企業應對 AI 基礎設施不斷上升的成本和性能挑戰。
新製品NQ 88/100出典:PR Times

📋 文章處理履歷

  • 📰 發表: 2026年4月24日 20:00
  • 🔍 收集: 2026年4月24日 11:31
  • 🤖 AI分析完成: 2026年4月25日 02:34(收集後15小時3分鐘)
紐約 – 作為領先的 AI 驅動觀察性與安全平台,Datadog, Inc. (NASDAQ: DDOG) 今日宣佈「GPU 監控(GPU Monitoring)」正式向全球客戶開放。本產品旨在解決企業在尋求擴展且有效的管理方法以應對日益增長的 AI 成本時,目前最常見的挑戰之一。

Datadog 首席產品官 Yanbin Li 表示:「GPU 實例已佔計算成本的 14%,這對於力求以可擴展且高效的方式構建 AI 優先技術的企業來說是一個巨大挑戰。許多企業雖然意識到成本在增加,但卻無法按業務部門分配 GPU 成本,也無法掌握工作負載的背景資訊,或確定改進的明確下一步措施。結果導致預算制定和計劃變得異常困難。」

GPU 監控的推出,是首個作為單一解決方案提供整個 AI 棧集成可視化的產品。這使得企業能夠在單一屏幕上,將 GPU 資源池(Fleet)的健康狀況、成本、性能與使用這些資源的部門和成員直接關聯起來,實現性能下降工作負載的快速故障排除並降低成本。

Li 進一步指出:「當發生容量分配錯誤、訓練和推理工作負載停滯以及成本增加等情況時,AI 成本的妥善管理將成為管理層級別的重要課題。每個人都意識到管理 GPU 成本是一個待解決的重大問題,但許多企業仍處於試錯階段,很難在單一屏幕上掌握整個技術棧發生的情況。GPU 監控以空前的效率和可靠性解決了這一難題。」

目前使用的 GPU 相關工具雖然提供設備健康狀況的概覽指標,但無法揭示跨部門的資源競爭問題,無法解釋訓練或推理工作負載失敗的原因,也無法可視化哪些設備處於閒置狀態或使用效率低下。這種可視化的缺乏導致調查耗時,開發部門為了安全起見傾向於過度儲備資源,結果產生了不必要的成本。

GPU 監控通過將 GPU 資源池的遙測數據與消耗這些資源的工作負載直接掛鉤,簡化了這一過程。同時,它為平台工程團隊和機器學習團隊提供共同的畫面進行協作調查,從而實現:

- 在抑制過度成本的同時擴展 AI:基於 GPU 資源使用模式的可視化與預測,以及判斷是購買新 GPU 還是釋放現有資源的具體判斷準則,平台團隊可以規避昂貴的資本投資或長期的採購流程。機器學習團隊可以更迅速地獲取所需容量,管理層則能在可預測的支出下獲得更高的 ROI。
- 加速 AI 實施與部署:通過將停滯的工作負載直接關聯到支撐它的 GPU、Pod 和進程,團隊可以在幾分鐘而非幾小時內確定性能瓶頸,讓工程師專注於 AI 專案的交付。
- 避免代價高昂的故障:預先識別不健康的 GPU,並在故障波及整個集群導致訓練或推理延遲之前進行處理。
- 最大化 GPU 成本的 ROI:團隊對 GPU 的利用率和成本負責,可以輕鬆識別何處發生了過度儲備或未充分利用的情況。這使得資源回收和再分配成為可能,從而減少浪費性支出。

Hyperbolic 產品負責人 Kai Fan 表示:
「得益於 Datadog GPU 監控,我們現在可以輕鬆掌握多租戶 GPU 基礎設施的情況。無需額外配置,即可立即將實例和設備單位的核心利用率、內存、功耗和溫度等信息可視化。儀表板初始狀態功能就很齊全,自定義也很容易,只需幾分鐘即可構建為每個客戶隔離的界面。」