人工智能模型迅速增多,竞争异常激烈。在众多参与者争夺市场的情况下,谁能成为最优秀的模型?又由谁来决定?Arena(前身为LM Arena)已经成为前沿大型语言模型(LLM)的事实公共排行榜,影响着资金投入、产品发布和公关周期。仅仅七个月时间,这家初创公司就从加州大学伯克利分校的博士研究项目,发展到估值达到17亿美元。

在《Equity》节目中,主持人Rebecca Bellan采访了Arena的联合创始人Anastasios Angelopoulos和Wei-Lin Chiang,探讨他们的平台如何成为前沿AI模型的首选排行榜,以及他们如何努力构建一个中立的基准,尽管OpenAI、谷歌和Anthropic等公司都在支持该项目。

他们详细介绍了Arena的工作原理,以及为什么它比静态基准更难被操控;什么是“结构性中立”;为什么Claude目前在法律和医疗领域的专家排行榜上名列前茅;以及公司如何通过新的企业产品,扩展到代理、编码和现实任务的基准测试。

欢迎订阅《Equity》节目,平台包括YouTube、Apple Podcasts、Overcast、Spotify等,也可以在X和Threads上关注@EquityPod。