日本GMO与NTT利用IOWN APN构建东京至福冈分布式AI开发平台

东京福冈分布式AI开发平台

日本GMO互联网、NTT东日本、NTT西日本及QTnet联合完成了基于IOWN APN的东京至福冈远程分布式AI基础设施的技术验证。该平台在东京部署存储设备，在福冈配置GPU，实现了远程分布式环境下的实用AI开发能力。

此次验证是在生成式AI和大型语言模型（LLM）需求急剧增长的背景下进行的，考虑到数据中心空间限制及企业对数据本地管理的需求，四家公司共同探讨了远程连接GPU与存储的技术可行性。

技术验证环境

验证过程中，使用了GMO GPU云的GPU与大容量存储设备，评估了图像分类任务和大型语言模型处理任务的训练时间。所用模型包括图像识别模型“ResNet”和大型语言模型“Llama2 70B”。

技术环境方面，GMO互联网集团位于日本东京涩谷区的第二总部与QTnet位于日本福冈市的数据中心通过IOWN APN（100GbE）连接。GPU服务器“NVIDIA HGX H100”部署在福冈，存储设备“DDN AI400X2”部署在涩谷。

结果显示，大型语言模型训练中，本地环境耗时24.87分钟，远程环境耗时24.99分钟，性能下降仅约0.5%。图像分类任务中，本地环境耗时13.72分钟，远程环境耗时14.38分钟，表明即使涉及数据读取的处理，远程环境也能达到实用水平。

未来应用场景包括：在保持企业自主管理的大规模及机密数据的同时，利用远程云GPU进行AI训练；结合现有本地环境与云GPU的混合运维；通过地理分散计算资源和存储，实现灾害或故障时的业务连续性计划（BCP）。

四家公司计划推动IOWN APN的普及，并加强与云服务提供商及地方数据中心的合作，致力于将IOWN APN作为AI基础设施的核心骨干，实现社会层面的广泛应用。

评论