大原雄介谈半导体行业趣闻：x86生态系统发布AI计算扩展白皮书

Intel和AMD的x86生态系统

由美国Intel和AMD组成的The x86 Ecosystem Advisory Group（EAG）于4月27日发布了关于x86架构的AI计算扩展（ACE）的白皮书。此次发布的仍是白皮书阶段，具体指令规格尚未公开，但通过示例代码（Instinct形式）已足以让人理解其大致内容。本文将介绍这次白皮书的核心内容。

EAG的成立背景已在2024年10月的报道中介绍过，这里不再赘述。值得一提的是，成员企业新增了美国Adobe和Nutanix，目前共有12家公司和2位顾问参与。

EAG成立后发布的指令标准回顾

EAG成立一年后的2025年10月13日，发布了首个标准化提案“Standardizing x86 features”，确定了未来x86将支持的四类标准指令：FRED、AVX10、ChkTag和ACE（高级矩阵扩展）。

其中，FRED已在2023年12月的报道中详细介绍。AVX10则是为了解决AVX512指令种类繁多、支持情况复杂的问题，将其统一整理为AVX10标准。AVX512本身是512位指令，但部分指令如AVX512_VNNI后来被回溯支持为256位版本AVX2_VNNI，导致指令支持不一。AVX10旨在统一这些指令，现阶段定义了10.1和10.2两个版本。

AVX10.1基本是AVX512的整合版本，AVX10.2则新增了多项指令，包括：

新数据类型E5M2/E4M3 FP8（符合OCP 8-bit浮点规范）
新媒体指令VMPSADBW（512位扩展）及16位VNNI的符号支持扩展
支持IEEE754-2019 NaN行为的min/max指令
饱和转换指令
零扩展向量复制指令
浮点标量比较指令

ChkTag是Intel于2025年10月13日公开的内存标签机制，类似于Arm的MTE（内存标签扩展），具体规格预计2025年下半年公布，目前尚未公开详细信息。

新增的ACE（AI计算扩展）详解

此前FRED、AVX10和ChkTag已有较多细节披露，唯独ACE细节不明。官方仅表示ACE标准化了矩阵乘法能力，支持从笔记本到数据中心服务器的无缝开发体验。

ACE主要利用ZMM寄存器（AVX512扩展的512位寄存器）进行矩阵运算，具体是计算外积（Outer Product）。一般矩阵运算单元多支持乘加运算（GEMM），因其广泛应用于卷积神经网络等，且硬件实现紧凑。NVIDIA的Tensor Core、Intel的AMX、Arm的SME/SME2均采用乘加运算单元。

不过，IBM POWER10的MMA（矩阵数学辅助）是少数支持外积计算的加速器，能更高效地完成外积和卷积运算，避免乘加运算单元的额外计算步骤。ACE在这方面实现了更进一步的加速。

ACE中，ZMM寄存器以16×4的形式存储64个8位数值，或8×4存储32个16位数值，计算两个输入的外积（内部以32位计算），结果大概率以16位存储。

例如8位数据时，ZMM寄存器可存储16组数据，共256个外积运算。每个外积包含4次乘法和1次加法，理论运算次数为256×5=1280次，但白皮书中未计加法，标注为1024次。

ACE新增了子瓦片寄存器（Sub Tile Register）用于存储外积结果，规格为512位×16行，共16个寄存器（每个结果占2个512位寄存器）。

示例代码显示，外积输出寄存器类型为“__tile1024i”，即程序视为1024位整数寄存器，实际由两个512位寄存器组成，不能单独操作。

ACE提供8组子瓦片寄存器，支持虚拟处理更大矩阵（如64×32），虽然需要8个周期，但减少了数据加载次数，提高了实际性能。

ACE单元的实现方式

ACE矩阵计算单元有两种实现方式：

与CPU核心完全分离，作为加速器存在，拥有独立寄存器和计算单元。Intel AMX即采用此方案，CPU核心通过Tiles and Accelerator Commands模块与AMX通信，指令如TILELOADD、TILESTORED和TDPBUSD用于数据传输和计算，计算过程脱离CPU指令流水线。
将矩阵计算单元集成到CPU核心内部。IBM POWER10采用此方案，Matrix SIMD单元集成于核心，支持4×4矩阵外积，每周期256次运算，4个单元合计1024次，性能与ACE峰值相当。

考虑到核心面积和功耗，桌面及移动CPU更适合第一种方案，服务器CPU则可能采用第二种。Intel可能在P核集群或E核集群中配置ACE单元，AMD则可能在CCX中配置1-2个。

ACE与AMX的区别包括：

ACE可直接使用ZMM寄存器作为输入，AMX需先复制到瓦片寄存器
ACE单元数量不一定与核心数一一对应
ACE支持OCP标准的MX格式（微缩浮点格式）

OCP MX格式介绍

浮点数通常由符号、指数和尾数组成。对于8位甚至更低位宽的数据，指数和尾数位数不足，难以保证精度。

OCP定义的MX（Microscaling）格式将指数和尾数分开存储，多个数共享一个指数，尾数单独存储。例如：

A: 123.4
B: 154.3
C: 90.7

转换为MX格式后：

A: 1.234
B: 1.543
C: 0.97
共同指数: 2 (10^2)

这样即使数据位宽小，也能保持较好精度。ACE支持BF16和INT8运算，也能使用MXFP8、MXFP6、MXFP4格式。

MX格式使用Block Scale Register管理，虽然ACE暂未支持4位精度运算，但能直接处理MXFP4格式，提升灵活性。

性能与展望

白皮书称ACE每周期运算性能可提升16倍，但实际性能取决于ACE单元数量。若每核心配备1个ACE，性能提升16倍；若1个ACE服务8核心，则提升约2倍。

ACE性能虽不及GPU或NPU，但相较传统x86矩阵运算已有显著提升。考虑到ACE仅支持INT8和BF16，科学计算和音频处理等领域受限，推测ACE定位明确为AI计算加速。

结语

值得一提的是，白皮书作者中包括AMD的8位架构师Michael Clark和Intel资深架构师Pradeep Dubey等业界重量级人物，显示该项目的技术深度和行业影响力。

这份白皮书不仅展现了x86生态系统在AI计算领域的最新进展，也体现了半导体行业跨公司合作的力量。

大原雄介谈半导体行业趣闻：x86生态系统发布AI计算扩展白皮书

EAG成立后发布的指令标准回顾

新增的ACE（AI计算扩展）详解

ACE单元的实现方式

OCP MX格式介绍

性能与展望

结语

标签

评论

相关阅读

东京大学学生生成式AI使用率达93.4%，匿名问卷应用用户突破500人

Meta新款AI芯片将于九月开始量产

TOPPAN等三家公司推动日本政府共通数据的AI准备化