上个月,Axios不得不为一篇关于美国孕产健康危机的博客文章发布了奇怪的更正声明。文章引用了一家名为Aaru公司的最新民调数据,声称这些数据基于美国成年人的反馈。但编辑注释指出,Aaru其实是一家AI模拟研究公司。换句话说,Axios引用的所谓“民调数据”并非来自真实人类,而是由大型语言模型生成的。这是各行各业试图利用AI的又一例,即使这种做法毫无意义。

数字理论实验室主任Leif Weatherby和加州大学伯克利分校计算机科学教授Benjamin Recht在《纽约时报》的一篇客座文章中解释,这种欺骗Axios的做法被称为“硅采样”,是一条通往灾难的道路。

他们写道:“硅采样的想法简单而诱人。因为大型语言模型能够生成模拟人类回答的内容,民调公司看到用AI代理模拟调查回答的机会,成本和时间远低于传统民调。”

如果这听起来像是对民调价值的巨大挑战,你的担忧是有道理的。Weatherby和Recht指出,数据只有在“总结真实人类的信念和观点”时才有价值。“用模拟的人类观点代替真实数据,只会加剧我们破碎的信息生态系统,播下不信任的种子。”

长期以来,民调机构依赖统计模型来弥补样本量小和可能影响数据的变量,因为说服人们通过电话或网络回答问题并不容易。但完全用AI编造回答显然是糟糕的选择,容易引入偏见,甚至“影响公众舆论,而不仅仅是报告公众想法”。

硅采样加剧了AI模型自身的偏见。2025年东北大学的一篇论文发现,硅采样“通常不能可靠替代人类受访者,尤其是在政策环境中”。论文指出:“模型难以捕捉细微观点,且因训练数据偏见和内部安全过滤,常常对群体产生刻板印象。因此,最明智的做法是采用混合流程,用AI改进研究设计,同时保持人类样本作为数据的黄金标准。”

伯尔尼大学心理学博士后Jamie Cummins的一篇尚未同行评审的论文发现,生成“硅样本”涉及许多分析决策,这些决策对样本质量有显著影响。“少量决策就能极大改变硅样本与人类数据的对应关系。”

尽管存在广泛担忧,Aaru及类似公司仍筹集了数亿美元资金,并与斯坦福大学和民调巨头盖洛普建立合作关系。

这一令人担忧的新趋势凸显了AI工具如何通过将虚构内容当作事实呈现,持续侵蚀公众信任。尤其令人担忧的是,这种基于AI生成数据的民调可能影响公众舆论,进一步加深AI模型长期存在的固有偏见。

Weatherby和Recht总结道:“纯粹的虚构正处于被当作科学和政治知识接受的边缘。如果不及时收手,我们对社会的理解也可能变得人工化。”