
日本NTT公司近日确立了一种名为“根拠强化解码”的新推理机制,旨在提升基于图像与语言的多模态AI基础模型输出的可信度。
该技术针对大规模视觉语言模型(LVLM)在执行链式思考推理(Chain-of-Thought,CoT)时,发现根拠(依据)与推理结果不一致的重大问题。为此,NTT引入了一个理论框架,能够在保持图像信息完整的同时,最大限度地利用根拠信息,使得推理过程中LVLM的输出能够忠实依赖于图像和根拠两方面的信息。


通过该技术,原本作为“黑盒”的LVLM无需额外学习成本,即可作为可解释AI(eXplainable AI)进行运用。这不仅提升了模型的透明度,也为商业决策和与AI代理协作解决复杂问题等需要高度可信赖性的多样化应用场景带来了广阔前景。

此外,该研究成果将于2026年6月3日至7日在计算机视觉领域最具权威的国际会议“CVPR 2026”(Computer Vision and Pattern Recognition)上正式发布。


