今日,中国政府官方网站转发人民日报报道,引用国家数据局消息,正式将大型模型的基础单位“Token”在官方语境中命名为“词元”。报告披露,中国人工智能行业每日“词元”的使用次数已超过140万亿次。此次权威命名不仅终结了学术界和产业界长期以来关于Token中文译名的争议,也标志着大型模型技术术语在国家层面的进一步规范。

此前,业内对Token的命名存在多种竞争方案。腾讯研究院学者杨斌曾提出“模型元”,引发广泛讨论。随后,百川智能创始人王小川、论辰科技创始人游洋及清华大学前副教授胡一林推荐的“智能元”方案因强调Token作为“通用智能”单位的特性,而非单纯“通用计算”单位,在社交平台上获得较高关注度。

然而,官方最终选定的“词元”一词,更侧重于技术底层逻辑。官方解释称,词元是AI理解人类语言的最小单位,分割粒度介于字符与词之间,使大型模型在文本处理时能更精准地覆盖语义切片。随着使用量逼近140万亿这一历史性里程碑,统一的术语标准有助于降低行业沟通成本,为后续AI基础设施的统计量化和政策制定奠定坚实基础。