为什么谷歌的AI连“Google”都拼错了

谷歌的AI到底能不能正确拼写“Google”？答案是不能。谷歌的AI概述功能竟然说“Google”里有两个字母P。

不仅如此，谷歌AI还声称“poop”这个词里只有一个字母r，而“journalism”这个词被拼成了j-o-u-r-n-a-d-i-s-m，明显拼错了。它至少认出了美国总统姓氏中有一个P，但却拼成了t-r-p-u-m。

谷歌将生成式AI作为其29年历史旗舰产品的核心，然而这次升级的搜索功能并未得到用户的认可。早在谷歌首次将AI概述加入搜索时，就出现过引用讽刺文章、建议吃石头和往披萨上涂胶水的荒谬情况。

谷歌在接受采访时表示：“在单词内部计数一直是大型语言模型（LLM）面临的挑战，我们正在努力解决这个问题。”

这些拼写错误看似简单，却反映了LLM的本质限制。LLM并非为拼写设计，它们更像是基于“token”——即词、音节或字母的编码单位——来处理文本，而非像人类那样理解单词和字母的组合。它们将文本转化为数字编码，再根据上下文生成回答。

阿尔伯塔大学的AI研究员Matthew Guzdial解释说：“LLM基于transformer架构，它们并不真正‘阅读’文本。输入的提示会被转换成编码，比如‘the’这个词有一个整体编码，但模型并不知道‘T’、‘H’、‘E’这些字母。”

这种基于token的架构本身就限制了拼写的准确性。东北大学的博士生Sheridan Feucht表示：“语言模型对‘单词’的定义本身就模糊，即使专家们达成完美的token词汇表，模型仍可能需要进一步‘切分’文本。我猜不存在完美的分词器。”

虽然拼写问题并非研究者们的紧急关注点，因为LLM的价值不在于拼写能力，但这些明显的错误提醒我们，AI并非无所不能。我们不能盲目信任AI的输出，必须核实其准确性。

评论