第7回：什么是“多模态”——不仅理解文字，还能处理图像、音频和视频的AI

多模态AI示意图

AI的应用已经不再局限于写作。正如在【第6回】“深度伪造”中介绍的，AI不仅能合成人脸、模仿声音，还能理解和描述照片及视频内容。

理解这一进展的关键概念是“多模态”。

多模态AI：整合文字、图像、音频与视频

“多模态”指的是能够同时处理文字、图像、音频、视频等多种信息形式的能力。在AI领域，多模态AI不仅能读取文本，还能识别照片、听取音频、解释视频内容。

过去，音频识别AI、图像识别AI、翻译AI、文本生成AI等各自独立存在。例如：

即先将音频转换为文字，再由另一种AI进行摘要处理。类似地，也有：

而如今的多模态AI则能更综合地处理这些信息。例如，向AI展示照片让其描述内容，或通过屏幕截图询问操作方法，甚至听取访谈音频后总结要点和行动事项。

本系列文章每次配有AI生成的插图，读者们可能已经注意到了。

多模态AI应用示例

需要说明的是，这并不意味着AI拥有了像人类一样的视觉和听觉，而是AI能够将多种信息形式转换成便于处理的格式，并整合它们之间的关系。

可以比喻为，过去由不同专家分工传递处理的信息，现在由一个“大脑”同时关联文字、图像和音频进行综合思考。

人类的工作和生活从来不仅仅依赖文字。我们结合资料、图表、屏幕、照片、会议录音、视频、手写笔记等多种信息进行判断。换言之，现实生活本身就是多模态的。

因此，AI向多模态发展是顺理成章的趋势。

多模态AI标志着AI正从单纯的“写作工具”转变为“整合处理多种信息的工具”。

不过，目前的多模态AI仍存在不足。虽然它能处理图像和音频，但并不意味着它像人类一样真正理解这些信息。

例如，多模态AI可能会“误判图像内容”、“错误解读图表”、“听错音频”或“误解视频语境”，甚至会“做出貌似合理的错误解释”。

正如在【第2回】“幻觉”中提到的，AI虽便利，但并非总是准确。使用多模态AI时，也需意识到它并非总能正确理解所“看到”的内容。