NTT通信科学研究所展示

日本NTT通信科学基础研究所(CS研)于5月20日至22日在日本大阪府大阪市都岛区东野田町的NTT西日本QUINTBRIDGE·PRISM举办了“开放日2026”活动,展示其最新的研究成果。

活动前夕,5月12日在东京举行了预览会,所长纳谷太先生介绍了研究所的整体情况。NTT控股公司旗下设有IOWN综合创新中心、服务创新综合研究所、信息网络综合研究所、先进技术综合研究所等四个综合研究所,共计14个研究机构。

纳谷所长表示,CS研的使命是“促进人与人、人与AI之间的顺畅交流,理解其机制,并开发新的交流形式”。

多媒体交流研究

在交流研究方面,除了传统的语音、图像和视频媒体外,研究所还将触觉、心跳、肌电和脑电波等人体信号视为交流媒体,开展基础研究。同时,研究团队探索如何利用声音和光线进行可视化,以及如何将这些媒体转换为更易于人类使用的形式,涵盖了广泛的领域。

此外,随着数字孪生技术的社会应用推进,研究所还致力于分析复杂数据的规律性和因果关系,探索其引发的现象,推动ICT社会的变革。同时,研究团队也关注人类科学领域,研究人类如何学习语言、发展情感及社会性。

本次开放日共展示了22项研究和演示,预览会上介绍了其中8项,本文重点聚焦与AI相关的内容。

AI应用背后依赖于数据中心的大规模计算,计算复杂度越高,能耗也越大。美国领先的IT企业为保障AI所需能源,甚至呼吁利用核能或建设太空数据中心。

节能AI模型研究

针对这一挑战,CS研利用NTT集团擅长的光神经网络技术,开发了适用于模拟设备的高效学习算法,致力于实现比使用CPU或GPU等数字设备更节能的AI模型。

跨模态处理问题

随着AI多模态技术的发展,图像识别精度提升,但在文本与图像信息交互的跨模态处理中,存在“枢纽”嵌入导致搜索结果出现噪声的问题。研究团队提出了将枢纽嵌入逆转为枢纽文本的方法,通过分析枢纽文本揭示噪声产生原因,期望抑制无意义行为。

枢纽文本分析

在语音处理方面,展示了基于深度学习和神经网络的“SoundBeam”技术,能够选择性地增强或抑制特定声音,实现类似人类在嘈杂环境中选择性听音的能力,且可实时在PC上运行。

SoundBeam技术

该技术可应用于在线会议,选择性传输所需声音,提高语音转文本的准确率。

在线会议应用

此外,介绍了已在部分图书馆进行实地实验的绘本感想对话AI“ぴたりえチャット”,结合NTT独有的9000册绘本和儿童书语料库及自主开发的大型语言模型tsuzumi 2,通过机器人对话引导儿童表达绘本感想,支持语言发展。

绘本感想对话AI

有趣的是,研究所还展示了通过显示屏传达物体柔软度和粘性等质感的演示。例如,通过视觉表现拇指和食指夹持的球体柔软度,即使没有触觉设备,也能感受到物体的触感。未来,这项技术或将用于在线购物中传达商品特性。

质感视觉表达