
日本NTT公司于5月19日宣布,推出了其开发的大规模语言模型(LLM)“tsuzumi 2”的视觉处理版本——“tsuzumi 2 Vision模型”。
此前,tsuzumi 2主要支持基于文字的信息处理,但实际工作中使用的文档往往包含表格、图表等视觉元素,且这些文档格式多样,主要面向人类阅读。
此次升级的版本能够高精度地读取带有图表的日文文档,能够理解格式各异的企业报价单、以及定义业务流程的流程图等内容,并能根据用户请求提供相应回答。

日本NTT表示,新模型将通过NTT集团旗下各公司陆续提供相关服务,并将继续推动该技术的研究与开发,力求实现更进一步的功能提升。



