如果你是Latent Space的新成员,可能还不知道我们有一个Discord频道,大家在那里讨论当天的AI及其他新闻。如今,OpenAI和Anthropic都认为AI可以完成大约70%的白领工作。随着关于AI引发的裁员以及大部分编码工作(包括SWE-Bench Verified和METR)被解决的讨论不断增加,一些人对Citadel对Citrini Research的回应感到困惑:

我们在播客中多次提到“AI工程师将是最后的职业”。这最初是2023年“AI工程师崛起”的一个玩笑(我本人对此观点极为偏爱),但到了2026年,我们对此越来越严肃。简单的解释是引用了杰文斯悖论,但我们认为仅仅指向维基百科上的某个定律,严重低估了正在发生的因果关系和规模。
例如,你如何看待Anthropic另一份报告显示软件工程占据了Claude模型超过50%的使用场景?

你是否同意Han的观点,认为应该转向其他使用场景?2025年是编码代理之年,2026年其他领域会迎头赶上,对吗?
恭喜,你犯了典型的以自我为中心的错误,加入了永久的底层阶级。
“没有墙壁。”没有理由相信已经达到50%的领域不会继续增长到80%、90%甚至更多。
目前的共识是2026年是知识工作代理之年(更多内容将在即将发布的Claude Cowork和OpenAI Frontiers播客中介绍)。正如OpenClaw基于编码代理Pi,Cowork基于Claude Code,OpenAI Symphony最大化了harness engineering。随着Code Mode/CLI取代MCP,文件系统取代Memory/RAG,沙盒取代视觉,实际上所有代理都只是带有额外技能的编码代理,每增加一项技能就能完成更多白领任务。
“软件工程可能是唯一经历杰文斯悖论的职业,因为他们利用AI自动化其他职业,使其消失。”——QwQiao提出的最后AI工程师论点
当整个经济变成荒地,我们疯狂印钞发放无条件基本收入时,最后的职业之争将是AI工程师与AI研究员的对决。这是一个“先有鸡还是先有蛋”的问题——工程师鸡还是研究员蛋先出现?
我们也深思熟虑,认为研究员可能会先退休,而工程师仍在部署研究员产出的最后一公里成果。
以下是2026年3月5日至6日的AI新闻摘要,我们监测了12个Reddit子版块、544个Twitter账号和24个Discord服务器(共264个频道,13382条消息),为你节省了约1311分钟的阅读时间。你可以在AINews网站搜索所有过往内容。提醒一下,AINews现已成为Latent Space的一个板块,你可以选择订阅或取消订阅邮件频率。
AI Twitter回顾
OpenAI GPT-5.4发布:基准领先,成本与效率权衡,用户反馈不一
-
Artificial Analysis深度解析(xhigh)及定价细节:GPT-5.4(xhigh)使OpenAI重回Artificial Analysis智能指数第一(与Gemini 3.1 Pro Preview并列),得分57(高于GPT-5.2的51),但每百万输入/输出token价格更高($2.50/$15 vs $1.75/$14),上下文窗口扩大至约105万token(之前为40万)。优势在物理推理和终端编码,但幻觉率较高,基准运行成本比GPT-5.2高约28%。
-
GPT-5.4 Pro在CritPt上提升显著,输出成本极高,单次运行费用超过1000美元。
-
社区基准测试及“模型个性”观察显示GPT-5.4在代理和编码评测中有显著提升,但在推理效率和字面理解方面与Claude存在分歧。
-
Text Arena数据显示GPT-5.4 High在创意写作和长查询类别中进入前十,数学表现与GPT-5.2 High持平。
代理、编码工作流及“AI原生开发”工具
-
OpenAI发布了针对GPT-5.4 API用户的代理提示指南,涵盖工具使用、结构化输出、验证循环及长流程工作流。
-
Claude Code桌面版新增本地定时任务和循环支持。
-
MCP作为连接工具,推动AI评估如单元测试般进行,Figma MCP服务器实现双向交互,GitHub Copilot用户可将设计上下文拉入代码并反馈至画布。
-
开源项目T3 Code基于Codex CLI构建,探索支持Claude代理。
-
Factory AI实现每个PR运行40+ CI检查,支持快速合并,强调持续集成评估编码代理的重要性。
安全领域成为大语言模型优先领域
-
Anthropic与Mozilla合作,Claude Opus 4.6在两周内发现22个漏洞,其中14个为高危漏洞,占Mozilla 2025年高危漏洞修复的约20%。
-
评估工具识别浏览器组件,提出基准测试完整性风险,模型可利用缓存网络资源作为通信渠道。
-
OpenAI推出Codex Security应用安全代理,支持漏洞发现、验证及修复建议,向ChatGPT企业版和Pro用户开放。
-
多方观点认为复杂公共软件应默认被视为已被攻破,提示注入攻击风险上升,红队招聘力度加大。
推理与内核工程
-
vLLM发布跨平台Triton注意力后端,支持NVIDIA/AMD/Intel,MI300性能提升约5.8倍。
-
vLLM 0.17版本集成FlashAttention 4,支持Qwen3.5,优化模型运行效率。
-
Meta/PyTorch发布KernelAgent,实现基于GPU性能信号的闭环多代理内核优化,性能显著提升。
-
GPU MODE宣布110万美元AMD赞助的内核优化竞赛。
小型及专用模型与后训练方案
-
微软发布15B参数多模态推理模型Phi-4,定位实用代理的“甜 spot”。
-
Databricks提出结合强化学习和合成数据的任务专用模型训练方案,显著降低成本和延迟。
-
研究表明在微调时重放预训练数据可减少遗忘并提升性能。
-
Sakana AI Labs提出基于文档或任务描述动态生成LoRA适配器的持续学习方法。
技术热门推文
-
Claude Opus 4.6发现Firefox多处漏洞。
-
OpenAI Codex Security项目启动。
-
Claude Code支持本地定时任务。
-
OpenAI为开源维护者提供支持包。
-
vLLM实现跨平台注意力内核。
以上内容展示了AI技术的快速发展及其对软件工程和知识工作的深远影响,AI工程师作为最后的职业角色,正面临前所未有的机遇与挑战。


