
日本软银在其新成长战略“Activate AI for Society”指导下,作为其新云业务的一部分,自10月起开始提供搭载AI数据中心专用软件栈“Infrinia AI Cloud OS”的云服务——“AI数据中心 GPU云服务”。在正式发布前,软银及其集团公司已于今日启动了该服务的Beta版本使用。
“AI数据中心 GPU云服务”结合了支持多租户环境的Kubernetes即服务(KaaS)和作为API提供大规模语言模型(LLM)推理功能的推理即服务(Inf-aaS),以及软银在日本国内数据中心构建的先进GPU计算基础设施,如“NVIDIA GB200 NVL72”。通过这些高性能GPU资源,用户能够在安全的数据管理和运营环境下,高效灵活地执行从AI模型训练、推理到数据处理的多样化AI工作负载。
此外,该服务通过统一管理和自动化GPU管理、Kubernetes运维及AI工作负载执行,实现了各类工作负载的最优处理环境,显著降低了开发环境搭建和计算资源调整的复杂度,减轻了运营负担和成本,同时保证了环境的稳定性和对变化需求的灵活响应。
软银表示,基于其通信基础设施,依托“Telco AI Cloud”构想,将“AI数据中心 GPU云服务”与“AI-RAN”整合,旨在优化AI计算处理流程,实现低延迟、高可靠的分布式AI基础设施,保障数据主权。
“AI数据中心 GPU云服务”的主要特点
支持从训练到推理的广泛工作负载
该服务提供适用于需要大量计算资源的LLM训练及对快速响应有需求的推理应用的GPU环境。基于“NVIDIA GB200 NVL72”等先进加速计算平台,利用NVIDIA NVLink实现高性能Blackwell GPU间通信,结合高速存储,即使在多租户环境下,也能满足复杂推理和大规模训练的需求。
通过Kubernetes即服务(KaaS)实现灵活运维
利用Kubernetes统一自动管理大量容器,简化开发环境配置变更和弹性扩展,降低运维复杂度。容器技术加速应用启动,提升部署和扩展效率,推动AI模型从开发到部署的快速迭代。Kubernetes的负载均衡和自动故障恢复机制确保服务的高可用性和稳定性。
推理即服务(Inf-aaS)提供模型推理环境
自动化构建和运维基于Kubernetes的模型推理平台,支持推理API的快速搭建。用户只需选择自有或第三方AI模型,即可轻松获得稳定的推理环境,显著降低基础设施管理负担。
关于“Infrinia AI Cloud OS”
“Infrinia AI Cloud OS”由软银Infrinia团队开发,是面向AI数据中心的软件栈,支持多租户KaaS和LLM推理API(Inf-aaS)功能,集成于软银GPU云服务中。相比定制解决方案或自研系统,该软件栈有助于降低总体拥有成本(TCO)和运维负荷,实现从AI模型训练到推理的高效灵活管理。

