研究人员让AI模型分析体育赛事，结果表现惨不忍睹

一项由北卡罗来纳大学教堂山分校和东北大学的研究发现，当前最先进的AI模型在分析职业体育赛事时表现非常糟糕。该尚未经过同行评审的研究旨在评估AI在感知、推理、模拟和自主决策四个领域的能力，这些能力传统测试方法难以准确衡量。

为了测试AI在这些方面的表现，研究人员利用了体育赛事这一丰富的场景，创建了一种名为“战略视频智能”（SVI-bench）的新型测试。该测试涵盖了3.5万小时的篮球、足球和冰球比赛视频，1500万条标注动作，1.5万小时的专业赛事分析，2.3万份赛后报告，以及10.3万条统计数据。

在感知能力方面，AI表现相对较好，能够识别比赛中哪个球员执行了何种动作，但准确率仅约为74%，这一水平甚至无法满足业余体育解说员的基本要求。参与测试的模型包括ChatGPT、谷歌的Gemini以及开源模型Qwen。

在因果推理方面，即解释比赛中某些动作为何发生，AI的表现更差，平均成功率仅约40%。例如，当被问及一记科迪·马丁三分球（球先击中篮板顶部后入筐）有何异常时，ChatGPT错误地回答这是“他本场比赛的第一个三分球”。

模拟能力，即基于球员轨迹预测其下一步动作，表现同样不佳。表现最好的模型在预测球员下一步动作时几乎像抛硬币一样随机，且在预测更长时间的运动轨迹时准确率进一步下降。

东北大学的计算机科学研究员兼本研究合著者洛伦佐·托雷萨尼表示，AI“无法告诉你事情为何发生，也无法预测接下来会发生什么”。

在自主决策能力测试中，即让AI像人类解说员那样进行复杂的赛后统计和趋势分析时，准确率骤降至仅5%。

托雷萨尼指出：“优秀的体育解说员不仅描述画面内容，还会解释战术成功的原因，预测接下来的比赛走势，并判断哪些时刻最为关键。我们的研究显示，AI在描述方面表现尚可，但在其他方面则完全崩溃。”

虽然体育解说员可以松一口气，但这项研究对其他知识工作者同样是好消息，因为当前社会普遍担忧AI自动化会颠覆就业市场。

托雷萨尼总结道：“这种差距在任何需要理解事件背后原因、预测未来、判断重要性并提出建议的工作中都会出现，而不仅仅是简单描述可见内容的工作。”

评论