#大型语言模型

按标签聚合查看文章内容。

从博士生到AI行业评判者:Arena如何定义人工智能的未来AI资讯

从博士生到AI行业评判者:Arena如何定义人工智能的未来

人工智能模型正迅速增多,竞争异常激烈。在众多参与者争夺市场的情况下,谁将成为最优秀的AI模型?又由谁来评判?Arena(前身为LM Arena)已成为前沿大型语言模型(LLM)的事实公共排行榜,影响着资金投入、产品发布和公关周期。短短七个月内,这家初创公司从加州大学伯克利分校的博士研究项目,成长为估值达17亿美元的独角兽。 在TechCrunch的Equity播客最新一期中,记者Rebecca B

东京大学AI研究会发布基于Google Colab的全新LLM教学工具EveryonesLLMAI资讯

东京大学AI研究会发布基于Google Colab的全新LLM教学工具EveryonesLLM

日本东京大学AI研究会于5月25日推出了一款名为「EveryonesLLM」的教学工具,该工具允许用户仅通过Google Colab平台,从零开始构建一个规模为0.5B的完整大型语言模型(LLM/SLM)。 EveryonesLLM采用教程式的学习方式,包含超过600道填空题,帮助学习者逐步实现模型的编写与训练,最终能够培养出具备对话能力的语言模型。该教材共分为28个章节,每个章节的学习时间约为

谷歌推出TurboQuant算法,将大型语言模型运行时内存消耗降低至六分之一AI资讯

谷歌推出TurboQuant算法,将大型语言模型运行时内存消耗降低至六分之一

美国谷歌公司发布了一种名为“TurboQuant”的压缩算法,旨在解决大型语言模型(LLM)运行时大量内存消耗的问题。该算法通过向量量子化技术,将内存使用量降低至原来的六分之一。详细内容预计将在2026年4月23日召开的国际学习表征会议(ICLR 2026)上公布。 当前的人工智能技术通过向量来理解和处理语言、图像等信息。虽然向量技术强大,但它们会消耗大量内存。为了让计算机无需低速搜索庞大数据库

DeepSeek首轮融资估值或达450亿美元AI资讯

DeepSeek首轮融资估值或达450亿美元

DeepSeek正处于首轮风险投资融资谈判中,短短几周内,其潜在估值已从200亿美元飙升至450亿美元,《金融时报》和彭博社报道。 这家中国人工智能实验室于2025年初崭露头角,推出了一款大型语言模型,该模型在计算资源和成本上仅为美国大型模型(如OpenAI和Anthropic)的部分,表现出色。此后,DeepSeek在推理和编程等领域与全球顶尖模型保持合理的竞争速度,同时其模型权重保持开放,版本

免费发布:仅1.8B参数的翻译用大型语言模型Hy-MT2,性能超越微软商用APIAI资讯

免费发布:仅1.8B参数的翻译用大型语言模型Hy-MT2,性能超越微软商用API

中国腾讯公司于5月21日(当地时间)发布了支持33种语言的免费翻译大型语言模型(LLM)系列——Hy-MT2。该系列模型的权重以开源形式公开,用户可通过Hugging Face等平台下载使用。 Hy-MT2系列支持33种语言的无缝翻译。包括7B参数模型以及首次采用MoE架构的30B-A3B模型,在多种翻译任务中均展现出领先的性能,甚至超越了参数数量远超自身的其他开源模型。 值得一提的是,轻量级的

你是否听过这些AI术语却只是点头?让我们来弄懂它们AI资讯

你是否听过这些AI术语却只是点头?让我们来弄懂它们

人工智能正在改变世界,同时也创造了一套全新的语言来描述它的运作方式。只需花五分钟阅读AI相关内容,你就会遇到LLM、RAG、RLHF等众多术语,即使是技术领域的专家也可能感到困惑。本文词汇表旨在帮助你理解这些术语,并会随着领域的发展不断更新,堪称一份“活文档”,就像它所描述的AI系统一样。 AGI 人工通用智能(AGI)是一个模糊的概念,通常指的是在多数任务上能力超过普通人的AI。OpenAI的C

西川和久不定期专栏:Gemma 4与DwarfStar 4的LLM高速化探索AI资讯

西川和久不定期专栏:Gemma 4与DwarfStar 4的LLM高速化探索

2026年,开源大型语言模型(LLM)依旧层出不穷,各种高速化技术也不断涌现,AI领域持续热闹非凡。本文将介绍两项技术:利用MTP技术加速的Gemma 4,以及在日本苹果Mac M4 Max 128GB上运行的DeepSeek V4 Flash(现称DwarfStar 4)。 Gemma 4借助MTP实现推理加速 今年春季,LLM领域在高速化和模型轻量化方面取得了显著进展。其中,Google发布

10瓦功耗驱动200亿参数大型语言模型的「Amaretti E1.S」AI资讯

10瓦功耗驱动200亿参数大型语言模型的「Amaretti E1.S」

美国Unigen公司于4月13日(当地时间)发布了搭载其自主研发AI加速芯片「EdgeCortix SAKURA-II」的E1.S接口AI加速模块「Amaretti E1.S」。 【11时52分更正】文章最初误称为M.2接口,现已更正为E1.S接口,特此致歉。 Amaretti E1.S是一款功耗仅10瓦,AI处理性能高达60TOPS的E1.S接口AI加速器。它支持最大32GB内存,凭借每瓦6T

从大型语言模型到幻觉:常见AI术语简明指南AI资讯

从大型语言模型到幻觉:常见AI术语简明指南

人工智能是一个深奥且复杂的领域。该领域的科学家们常用专业术语来解释他们的研究内容,因此我们在报道人工智能行业时也不得不使用这些技术词汇。为此,我们整理了一份术语表,定义了文章中常用的一些重要词汇和短语。 我们将定期更新这份术语表,随着研究人员不断发现推动人工智能前沿的新方法,同时识别新兴的安全风险,我们会添加新的条目。 AGI 人工通用智能(AGI)是一个模糊的概念,通常指的是在许多甚至大多数任务