AI代理的未来：从万能大脑到超强调度师的转变

AI代理示意图

AI代理被寄予厚望，期待它们能够自主思考和行动，以实现用户设定的目标。它们需要了解多个对话生成AI的专业领域和资源，并能根据情况迅速指派最合适的AI来协助。如今，AI代理的价值不再是拥有海量知识，而是具备卓越的调度和判断能力。我们正处于这样一个面向未来的宏大实验阶段。

AI的过渡期还会持续多久？

AI的角色正处于从“只会回复词语的字典”向“能代替人类完成实际工作的优秀秘书”转变的过渡期。虽然AI技术发展迅猛，但正因速度太快，似乎一直停留在过渡期。

目前大多数AI代理并非自主行动，而是响应触发式提示（prompt-driven）。它们不会在后台持续思考或监控环境变化，也没有设计成常驻的自主系统。

此外，AI的安全设计假设有人类介入，因此不会擅自发送邮件、修改设置或完成涉及支付的预约。它们总是先提出建议，等待用户批准。

更重要的是，AI无法完全掌握用户的实时环境，贸然先行行动存在风险。

因此，现阶段的AI仍是等待指令的助手。要实现从“建议”到“主动预判并执行”的转变，必须实现对用户上下文的持续掌握，并在硬件或操作系统层面实现深度集成和本地解析。

不过，最近也出现了如日本OpenClaw这样无需人类审批即可自主执行浏览器和文件操作的开源AI代理，未来发展值得关注。

当前AI最大的问题是“幻觉”（hallucination），即自信地给出错误信息。用户不能盲目信任答案，必须承担大量事实核查的负担，这成为AI助力智能生活的重大瓶颈。

有人认为可以让另一台AI来审核答案，实际上这是目前最有力的保障方法。

大型语言模型在开发和训练阶段，就通过人类和其他AI模型的审核来保证质量。

运行时，也会有并行的审核代理对生成结果进行质疑，核实依据和真实性，生成代理则不断修正，最终给用户呈现答案。

虽然这种方法可行，但处理时间和计算成本显著增加，难以实现日常轻快使用。此外，审核代理自身也可能出现幻觉，错误否定正确答案，反而降低回答质量。

另一方面，随着边缘硬件的发展，出现了云端AI生成结果由本地轻量高速AI审核的混合模式。这种方式减少延迟，同时利用设备内的文件和历史数据，实现更精准的事实核查。

“模型路由”（Model Routing）是一种根据提示内容和任务性质动态选择最合适语言模型的方法。AI代理自主选择模型并请求回答。比如普通对话调用通用模型，图像生成调用专用模型，不再依赖单一庞大模型，而是根据用途合理分配多个专家模型，堪称超级调度师。

随着技术成熟，用户无需关心使用哪款AI，只需获得最快最优的答案。

此时，AI代理就是路由器，基于规则、机器学习或模型自身机制实现。AI模型选择正从“选一个最强”转向“同时使用多个”。

例如，日本微软的Copilot提供快速响应和深度思考两种模式，用户可手动切换，也可使用自动模式，由AI根据提示自动分配模型。谷歌Gemini则有高速、思考和专业三种模式，但无自动模式，用户必须明确选择。

如果自动模式能扩展到更多模型和外部工具，将实现真正的动态路由，这是AI代理化的下一步。

类似于Intel处理器的线程调度器自动分配任务到性能核心和效率核心，用户无需关注复杂细节，只享受流畅体验。AI模型选择也正走向这一方向。即使非硬件专家，也能轻松利用计算机提升生产力和创造力，AI正在重塑人与机器的关系。

承担动态路由的AI不必拥有所有答案，而是要准确掌握“哪个模型或工具能最快最优地回答问题”。换言之，它是“完全了解公司各部门专业和资源的超级调度师”。

这一理念在AI领域称为“专家混合”（Mixture of Experts，MoE）或“指挥者”（Orchestrator）。

过去AI的评价标准是“知道多少、能回答多少”，现在转向“知道谁最擅长什么”。能判断自己不该回答、而应指派他人的AI，才是优秀AI。关键不在知识量，而在指派能力。

从这个角度看，日本Google TV和Fire TV能跨多个付费视频服务使用，体现了类似理念，虽然前提是用户已订阅所有服务。

AI代理的发展轨迹也如此：从依赖单一庞大“万能大脑”，转向以“超级调度师”为核心，云端多个大型模型与设备端轻量模型分工协作的分布式处理架构。

计算机使用史不断重复形态变迁，从集中处理系统到客户端-服务器分布式系统的转变，为理解当前AI路由变化提供了有力类比。

我们期待下一代搭载于日本AI PC的NPU如何承担调度师角色。在看到那一天之前，不能轻言放弃。