
AI的应用已经不再局限于写作。正如在【第6回】“深度伪造”中介绍的,AI不仅能合成人脸、模仿声音,还能理解和描述照片及视频内容。
理解这一进展的关键概念是“多模态”。
多模态AI:整合文字、图像、音频与视频
“多模态”指的是能够同时处理文字、图像、音频、视频等多种信息形式的能力。在AI领域,多模态AI不仅能读取文本,还能识别照片、听取音频、解释视频内容。
过去,音频识别AI、图像识别AI、翻译AI、文本生成AI等各自独立存在。例如:
- “语音识别”→“转写成文字”→“摘要”
即先将音频转换为文字,再由另一种AI进行摘要处理。类似地,也有:
- “图像识别”→“标签标注”→“文本生成”
- “OCR识别”→“文本分析”
而如今的多模态AI则能更综合地处理这些信息。例如,向AI展示照片让其描述内容,或通过屏幕截图询问操作方法,甚至听取访谈音频后总结要点和行动事项。
本系列文章每次配有AI生成的插图,读者们可能已经注意到了。

需要说明的是,这并不意味着AI拥有了像人类一样的视觉和听觉,而是AI能够将多种信息形式转换成便于处理的格式,并整合它们之间的关系。
可以比喻为,过去由不同专家分工传递处理的信息,现在由一个“大脑”同时关联文字、图像和音频进行综合思考。
AI从“写作工具”转变为“多信息处理工具”
人类的工作和生活从来不仅仅依赖文字。我们结合资料、图表、屏幕、照片、会议录音、视频、手写笔记等多种信息进行判断。换言之,现实生活本身就是多模态的。
因此,AI向多模态发展是顺理成章的趋势。
多模态AI标志着AI正从单纯的“写作工具”转变为“整合处理多种信息的工具”。
不过,目前的多模态AI仍存在不足。虽然它能处理图像和音频,但并不意味着它像人类一样真正理解这些信息。
例如,多模态AI可能会“误判图像内容”、“错误解读图表”、“听错音频”或“误解视频语境”,甚至会“做出貌似合理的错误解释”。
正如在【第2回】“幻觉”中提到的,AI虽便利,但并非总是准确。使用多模态AI时,也需意识到它并非总能正确理解所“看到”的内容。


