
AI代理被寄予厚望,期待它们能够自主思考和行动,以实现用户设定的目标。它们需要了解多个对话生成AI的专业领域和资源,并能根据情况迅速指派最合适的AI来协助。如今,AI代理的价值不再是拥有海量知识,而是具备卓越的调度和判断能力。我们正处于这样一个面向未来的宏大实验阶段。
AI的过渡期还会持续多久?
AI的角色正处于从“只会回复词语的字典”向“能代替人类完成实际工作的优秀秘书”转变的过渡期。虽然AI技术发展迅猛,但正因速度太快,似乎一直停留在过渡期。
目前大多数AI代理并非自主行动,而是响应触发式提示(prompt-driven)。它们不会在后台持续思考或监控环境变化,也没有设计成常驻的自主系统。
此外,AI的安全设计假设有人类介入,因此不会擅自发送邮件、修改设置或完成涉及支付的预约。它们总是先提出建议,等待用户批准。
更重要的是,AI无法完全掌握用户的实时环境,贸然先行行动存在风险。
因此,现阶段的AI仍是等待指令的助手。要实现从“建议”到“主动预判并执行”的转变,必须实现对用户上下文的持续掌握,并在硬件或操作系统层面实现深度集成和本地解析。
不过,最近也出现了如日本OpenClaw这样无需人类审批即可自主执行浏览器和文件操作的开源AI代理,未来发展值得关注。
幻觉现象与事实核查
当前AI最大的问题是“幻觉”(hallucination),即自信地给出错误信息。用户不能盲目信任答案,必须承担大量事实核查的负担,这成为AI助力智能生活的重大瓶颈。
有人认为可以让另一台AI来审核答案,实际上这是目前最有力的保障方法。
大型语言模型在开发和训练阶段,就通过人类和其他AI模型的审核来保证质量。
运行时,也会有并行的审核代理对生成结果进行质疑,核实依据和真实性,生成代理则不断修正,最终给用户呈现答案。
虽然这种方法可行,但处理时间和计算成本显著增加,难以实现日常轻快使用。此外,审核代理自身也可能出现幻觉,错误否定正确答案,反而降低回答质量。
另一方面,随着边缘硬件的发展,出现了云端AI生成结果由本地轻量高速AI审核的混合模式。这种方式减少延迟,同时利用设备内的文件和历史数据,实现更精准的事实核查。
AI代理作为路由器,智能指派最佳模型
“模型路由”(Model Routing)是一种根据提示内容和任务性质动态选择最合适语言模型的方法。AI代理自主选择模型并请求回答。比如普通对话调用通用模型,图像生成调用专用模型,不再依赖单一庞大模型,而是根据用途合理分配多个专家模型,堪称超级调度师。
随着技术成熟,用户无需关心使用哪款AI,只需获得最快最优的答案。
此时,AI代理就是路由器,基于规则、机器学习或模型自身机制实现。AI模型选择正从“选一个最强”转向“同时使用多个”。
例如,日本微软的Copilot提供快速响应和深度思考两种模式,用户可手动切换,也可使用自动模式,由AI根据提示自动分配模型。谷歌Gemini则有高速、思考和专业三种模式,但无自动模式,用户必须明确选择。
如果自动模式能扩展到更多模型和外部工具,将实现真正的动态路由,这是AI代理化的下一步。
类似于Intel处理器的线程调度器自动分配任务到性能核心和效率核心,用户无需关注复杂细节,只享受流畅体验。AI模型选择也正走向这一方向。即使非硬件专家,也能轻松利用计算机提升生产力和创造力,AI正在重塑人与机器的关系。
不必自己知道所有答案,知道问谁就够了
承担动态路由的AI不必拥有所有答案,而是要准确掌握“哪个模型或工具能最快最优地回答问题”。换言之,它是“完全了解公司各部门专业和资源的超级调度师”。
这一理念在AI领域称为“专家混合”(Mixture of Experts,MoE)或“指挥者”(Orchestrator)。
过去AI的评价标准是“知道多少、能回答多少”,现在转向“知道谁最擅长什么”。能判断自己不该回答、而应指派他人的AI,才是优秀AI。关键不在知识量,而在指派能力。
从这个角度看,日本Google TV和Fire TV能跨多个付费视频服务使用,体现了类似理念,虽然前提是用户已订阅所有服务。
AI代理的发展轨迹也如此:从依赖单一庞大“万能大脑”,转向以“超级调度师”为核心,云端多个大型模型与设备端轻量模型分工协作的分布式处理架构。
计算机使用史不断重复形态变迁,从集中处理系统到客户端-服务器分布式系统的转变,为理解当前AI路由变化提供了有力类比。
我们期待下一代搭载于日本AI PC的NPU如何承担调度师角色。在看到那一天之前,不能轻言放弃。


