2026年3月12日,xAI正式推出新一代大型语言模型Grok4.20Beta,该模型在保持竞争性价格的同时,实现了极高的事实可靠性,刷新了行业记录。

根据Artificial Analysis的最新评测,Grok4.20在智能指数中的推理能力得分为48分,比上一版本提升了6分。虽然在综合基准测试中仍落后于Gemini3.1Pro Preview和GPT-5.4(两者均为57分),但其在AA全知测试中的表现尤为突出,非虚构率高达78%,有效解决了AI模型常见的虚假信息生成问题。

在产品矩阵和工程参数方面,xAI同步推出了三种API版本:具备推理能力版、不具备推理能力版以及多代理模式版。该模型支持最高200万令牌的上下文窗口,且定价策略极具市场渗透力,每百万令牌费用仅为2至6美元,远低于Grok4。技术上,Grok4.20在面对未知领域时表现出较强的自我约束能力,承认“未知”的频率显著提升,错误率约为五分之一。

目前,全球大型模型的竞争已从单纯追求参数规模,转向推理深度与事实准确性的双重较量。Grok4.20的发布标志着xAI在追求通用人工智能(AGI)过程中,正通过提升“诚实性”和“低虚假率”来构建差异化优势。这种对事实可靠性的极致追求,不仅提升了AI在严谨行业中的实际应用潜力,也为未来多代理协作中的信息信任奠定了更坚实的基础。