AI自动化通常指的是通过自动化完成许多过去由人类执行的任务,以提升生产力和效率,常常伴随着大规模裁员的前奏。然而,微软研究人员最近发表的一篇尚未经过同行评审的论文指出,现有顶尖AI系统在现实职场任务中的表现令人担忧。该团队研究了包括OpenAI的GPT 5.4、Anthropic的Claude Opus 4.6以及谷歌的Gemini 3.1 Pro等前沿模型,发现这些先进的AI在处理复杂任务时,平均有25%的文档内容被错误修改(旧版本模型的表现更差)。

研究人员总结称,这些模型“在绝大多数领域尚未准备好承担委托工作流程”,这一结论尤其令人关注,因为微软一直在大力投资AI技术,并积极将其集成到Windows 11操作系统的各个方面,然而效果常常适得其反。值得注意的是,论文中并未评估微软自家的Copilot AI。

换句话说,微软的研究团队本应有动力发现AI在职场中的积极作用,但结果却表明,盲目信任大型语言模型处理内部文件几乎肯定会导致错误甚至数据丢失。

随着各地管理层推动用AI替代人力,微软的这项研究进一步支持了关于“AI工作垃圾”(workslop)的学术观点:即AI生成的内容往往是懒惰或缺乏能力的员工推给同事的无用信息,最终仍需由细心的人类员工来修正。