日本软银推出搭载“Infrinia AI Cloud OS”的AI数据中心GPU云服务

AI数据中心GPU云服务

日本软银在其新成长战略“Activate AI for Society”指导下，作为其新云业务的一部分，自10月起开始提供搭载AI数据中心专用软件栈“Infrinia AI Cloud OS”的云服务——“AI数据中心 GPU云服务”。在正式发布前，软银及其集团公司已于今日启动了该服务的Beta版本使用。

“AI数据中心 GPU云服务”结合了支持多租户环境的Kubernetes即服务（KaaS）和作为API提供大规模语言模型（LLM）推理功能的推理即服务（Inf-aaS），以及软银在日本国内数据中心构建的先进GPU计算基础设施，如“NVIDIA GB200 NVL72”。通过这些高性能GPU资源，用户能够在安全的数据管理和运营环境下，高效灵活地执行从AI模型训练、推理到数据处理的多样化AI工作负载。

此外，该服务通过统一管理和自动化GPU管理、Kubernetes运维及AI工作负载执行，实现了各类工作负载的最优处理环境，显著降低了开发环境搭建和计算资源调整的复杂度，减轻了运营负担和成本，同时保证了环境的稳定性和对变化需求的灵活响应。

软银表示，基于其通信基础设施，依托“Telco AI Cloud”构想，将“AI数据中心 GPU云服务”与“AI-RAN”整合，旨在优化AI计算处理流程，实现低延迟、高可靠的分布式AI基础设施，保障数据主权。

“AI数据中心 GPU云服务”的主要特点

支持从训练到推理的广泛工作负载

该服务提供适用于需要大量计算资源的LLM训练及对快速响应有需求的推理应用的GPU环境。基于“NVIDIA GB200 NVL72”等先进加速计算平台，利用NVIDIA NVLink实现高性能Blackwell GPU间通信，结合高速存储，即使在多租户环境下，也能满足复杂推理和大规模训练的需求。

通过Kubernetes即服务（KaaS）实现灵活运维

利用Kubernetes统一自动管理大量容器，简化开发环境配置变更和弹性扩展，降低运维复杂度。容器技术加速应用启动，提升部署和扩展效率，推动AI模型从开发到部署的快速迭代。Kubernetes的负载均衡和自动故障恢复机制确保服务的高可用性和稳定性。

推理即服务（Inf-aaS）提供模型推理环境

自动化构建和运维基于Kubernetes的模型推理平台，支持推理API的快速搭建。用户只需选择自有或第三方AI模型，即可轻松获得稳定的推理环境，显著降低基础设施管理负担。

关于“Infrinia AI Cloud OS”

“Infrinia AI Cloud OS”由软银Infrinia团队开发，是面向AI数据中心的软件栈，支持多租户KaaS和LLM推理API（Inf-aaS）功能，集成于软银GPU云服务中。相比定制解决方案或自研系统，该软件栈有助于降低总体拥有成本（TCO）和运维负荷，实现从AI模型训练到推理的高效灵活管理。