美国Datadog公司于当地时间22日宣布,正式推出“GPU监控”功能,旨在帮助企业在AI项目规模扩大过程中实现成本优化和性能提升。
GPU监控作为一体化解决方案,提供覆盖整个AI技术栈的综合可视化能力。用户可以在单一界面上直观查看GPU资源群(集群)的健康状况、成本和性能,并且能够将这些指标与使用这些资源的部门和成员直接关联,从而快速定位性能下降的工作负载,及时进行故障排查和成本控制。
Datadog指出,目前市面上的GPU相关工具虽然能提供设备健康的基础指标,但无法揭示跨部门资源竞争问题,也难以解释训练或推理任务失败的原因,更无法清晰展示哪些设备处于空闲或低效状态。
GPU监控通过将GPU资源群的遥测数据与具体工作负载直接关联,大幅提升了监控效率。同时,它为平台工程团队和机器学习团队提供统一的视图,方便双方协同调查和解决问题。
借助这一功能,企业能够在控制成本的同时实现AI的规模化扩展。基于GPU资源使用模式的可视化和预测,以及关于是否购买新GPU或释放现有资源的具体决策依据,平台团队可以避免高额资本支出和冗长的采购流程。机器学习团队则能更快获得所需容量,管理层也能在可预测的支出框架下实现更高的投资回报率。
为了加速AI的部署和实施,GPU监控能将停滞的工作负载直接关联到对应的GPU、Pod和进程,帮助团队在几分钟内识别性能瓶颈,使工程师能够专注于推动AI项目的交付。
此外,该功能还能提前识别不健康的GPU,防止故障蔓延至整个集群,避免训练和推理任务延迟,降低昂贵的故障风险。
团队能够明确GPU的使用状况和成本责任,轻松发现过度预留或未充分利用的资源,从而实现资源回收和重新分配,减少不必要的开支。


