一项由北卡罗来纳大学教堂山分校和东北大学的研究发现,当前最先进的AI模型在分析职业体育赛事时表现非常糟糕。该尚未经过同行评审的研究旨在评估AI在感知、推理、模拟和自主决策四个领域的能力,这些能力传统测试方法难以准确衡量。
为了测试AI在这些方面的表现,研究人员利用了体育赛事这一丰富的场景,创建了一种名为“战略视频智能”(SVI-bench)的新型测试。该测试涵盖了3.5万小时的篮球、足球和冰球比赛视频,1500万条标注动作,1.5万小时的专业赛事分析,2.3万份赛后报告,以及10.3万条统计数据。
在感知能力方面,AI表现相对较好,能够识别比赛中哪个球员执行了何种动作,但准确率仅约为74%,这一水平甚至无法满足业余体育解说员的基本要求。参与测试的模型包括ChatGPT、谷歌的Gemini以及开源模型Qwen。
在因果推理方面,即解释比赛中某些动作为何发生,AI的表现更差,平均成功率仅约40%。例如,当被问及一记科迪·马丁三分球(球先击中篮板顶部后入筐)有何异常时,ChatGPT错误地回答这是“他本场比赛的第一个三分球”。
模拟能力,即基于球员轨迹预测其下一步动作,表现同样不佳。表现最好的模型在预测球员下一步动作时几乎像抛硬币一样随机,且在预测更长时间的运动轨迹时准确率进一步下降。
东北大学的计算机科学研究员兼本研究合著者洛伦佐·托雷萨尼表示,AI“无法告诉你事情为何发生,也无法预测接下来会发生什么”。

在自主决策能力测试中,即让AI像人类解说员那样进行复杂的赛后统计和趋势分析时,准确率骤降至仅5%。
托雷萨尼指出:“优秀的体育解说员不仅描述画面内容,还会解释战术成功的原因,预测接下来的比赛走势,并判断哪些时刻最为关键。我们的研究显示,AI在描述方面表现尚可,但在其他方面则完全崩溃。”
虽然体育解说员可以松一口气,但这项研究对其他知识工作者同样是好消息,因为当前社会普遍担忧AI自动化会颠覆就业市场。
托雷萨尼总结道:“这种差距在任何需要理解事件背后原因、预测未来、判断重要性并提出建议的工作中都会出现,而不仅仅是简单描述可见内容的工作。”
更多关于AI在体育领域的内容,请参考: 球迷震惊,纽约喷气机队宣布转向AI技术


