日本NTT推出提升LVLM输出可信度的新机制“根拠强化解码”

发布时间：2026/6/3

NTT根拠强化解码技术示意图

日本NTT公司近日确立了一种名为“根拠强化解码”的新推理机制，旨在提升基于图像与语言的多模态AI基础模型输出的可信度。

该技术针对大规模视觉语言模型（LVLM）在执行链式思考推理（Chain-of-Thought，CoT）时，发现根拠（依据）与推理结果不一致的重大问题。为此，NTT引入了一个理论框架，能够在保持图像信息完整的同时，最大限度地利用根拠信息，使得推理过程中LVLM的输出能够忠实依赖于图像和根拠两方面的信息。

根拠强化解码技术流程

LVLM推理示意

通过该技术，原本作为“黑盒”的LVLM无需额外学习成本，即可作为可解释AI（eXplainable AI）进行运用。这不仅提升了模型的透明度，也为商业决策和与AI代理协作解决复杂问题等需要高度可信赖性的多样化应用场景带来了广阔前景。

应用场景示意

此外，该研究成果将于2026年6月3日至7日在计算机视觉领域最具权威的国际会议“CVPR 2026”（Computer Vision and Pattern Recognition）上正式发布。

标签

#多模态AI #视觉语言模型 #推理机制 #可解释AI #日本NTT

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

美国xAI发布“Grok Voice Think Fast 2.0”，语音转写精度提升至最高两倍

2026/08/01

美国xAI发布“Grok Voice Think Fast 2.0”，语音转写精度提升至最高两倍

美国xAI公司于7月29日（当地时间）正式发布了其下一代语音AI模型“Grok Voice Think Fast 2.0”。该服务的收费标准为每分钟0.08美元（约合12日元）。新模型在语音推理、对话能力以及工具调用的可靠性方面均有显著提升。与竞争对手如GPT-Realtime-2.1和Gemini 3.1 Flash等模型进行基准测试时，Grok Voice Think Fast 2.0以8

国内提供热门「Kimi K3」模型，百万令牌上下文支持，起价仅1000日元

2026/08/01

国内提供热门「Kimi K3」模型，百万令牌上下文支持，起价仅1000日元

HCloud在日本推出Moonshot AI最新大型语言模型「Kimi K3」，支持百万令牌上下文，采用零数据保存政策，保障用户隐私。

Snapchat不再奖励完全由AI生成的Spotlight内容

2026/08/01

Snapchat不再奖励完全由AI生成的Spotlight内容

Snapchat近日宣布，将不再对完全由AI生成的视频内容给予奖励，旨在优先推广由真人创作的内容。该社交平台表示，其推荐系统将调整，确保只有真实用户创作的视频才有资格获得Spotlight推荐。 Snapchat在官方博客中指出，希望Spotlight成为一个让用户发现真实创意的地方，因为他们相信原创视角、个人故事以及用户自主创作和分享的瞬间具有持久价值。不过，Snapchat并未完全排斥AI技