由被排名公司资助的“无法作弊”排行榜

人工智能模型迅速增多，竞争异常激烈。在众多参与者争夺市场的情况下，谁能成为最优秀的模型？又由谁来决定？Arena（前身为LM Arena）已经成为前沿大型语言模型（LLM）的事实公共排行榜，影响着资金投入、产品发布和公关周期。仅仅七个月时间，这家初创公司就从加州大学伯克利分校的博士研究项目，发展到估值达到17亿美元。

在《Equity》节目中，主持人Rebecca Bellan采访了Arena的联合创始人Anastasios Angelopoulos和Wei-Lin Chiang，探讨他们的平台如何成为前沿AI模型的首选排行榜，以及他们如何努力构建一个中立的基准，尽管OpenAI、谷歌和Anthropic等公司都在支持该项目。

他们详细介绍了Arena的工作原理，以及为什么它比静态基准更难被操控；什么是“结构性中立”；为什么Claude目前在法律和医疗领域的专家排行榜上名列前茅；以及公司如何通过新的企业产品，扩展到代理、编码和现实任务的基准测试。

欢迎订阅《Equity》节目，平台包括YouTube、Apple Podcasts、Overcast、Spotify等，也可以在X和Threads上关注@EquityPod。

由被排名公司资助的“无法作弊”排行榜

标签

评论

相关阅读

中国AI研究人员在X平台上逐渐发声

Smallest.ai完成1300万美元融资，打造极致逼真的超快语音AI

TechCrunch出行：汽车行业的AI技能竞赛即将来临