日本NTT通信科学研究所展示节能AI模型基础研究成果

NTT通信科学研究所展示

日本NTT通信科学基础研究所（CS研）于5月20日至22日在日本大阪府大阪市都岛区东野田町的NTT西日本QUINTBRIDGE·PRISM举办了“开放日2026”活动，展示其最新的研究成果。

活动前夕，5月12日在东京举行了预览会，所长纳谷太先生介绍了研究所的整体情况。NTT控股公司旗下设有IOWN综合创新中心、服务创新综合研究所、信息网络综合研究所、先进技术综合研究所等四个综合研究所，共计14个研究机构。

纳谷所长表示，CS研的使命是“促进人与人、人与AI之间的顺畅交流，理解其机制，并开发新的交流形式”。

多媒体交流研究

在交流研究方面，除了传统的语音、图像和视频媒体外，研究所还将触觉、心跳、肌电和脑电波等人体信号视为交流媒体，开展基础研究。同时，研究团队探索如何利用声音和光线进行可视化，以及如何将这些媒体转换为更易于人类使用的形式，涵盖了广泛的领域。

此外，随着数字孪生技术的社会应用推进，研究所还致力于分析复杂数据的规律性和因果关系，探索其引发的现象，推动ICT社会的变革。同时，研究团队也关注人类科学领域，研究人类如何学习语言、发展情感及社会性。

本次开放日共展示了22项研究和演示，预览会上介绍了其中8项，本文重点聚焦与AI相关的内容。

AI应用背后依赖于数据中心的大规模计算，计算复杂度越高，能耗也越大。美国领先的IT企业为保障AI所需能源，甚至呼吁利用核能或建设太空数据中心。

节能AI模型研究

针对这一挑战，CS研利用NTT集团擅长的光神经网络技术，开发了适用于模拟设备的高效学习算法，致力于实现比使用CPU或GPU等数字设备更节能的AI模型。

跨模态处理问题

随着AI多模态技术的发展，图像识别精度提升，但在文本与图像信息交互的跨模态处理中，存在“枢纽”嵌入导致搜索结果出现噪声的问题。研究团队提出了将枢纽嵌入逆转为枢纽文本的方法，通过分析枢纽文本揭示噪声产生原因，期望抑制无意义行为。

枢纽文本分析

在语音处理方面，展示了基于深度学习和神经网络的“SoundBeam”技术，能够选择性地增强或抑制特定声音，实现类似人类在嘈杂环境中选择性听音的能力，且可实时在PC上运行。

SoundBeam技术

该技术可应用于在线会议，选择性传输所需声音，提高语音转文本的准确率。

在线会议应用

此外，介绍了已在部分图书馆进行实地实验的绘本感想对话AI“ぴたりえチャット”，结合NTT独有的9000册绘本和儿童书语料库及自主开发的大型语言模型tsuzumi 2，通过机器人对话引导儿童表达绘本感想，支持语言发展。

绘本感想对话AI

有趣的是，研究所还展示了通过显示屏传达物体柔软度和粘性等质感的演示。例如，通过视觉表现拇指和食指夹持的球体柔软度，即使没有触觉设备，也能感受到物体的触感。未来，这项技术或将用于在线购物中传达商品特性。

质感视觉表达

评论