微软推出多款新AI模型，超越传统文本处理

微软近日宣布推出三款全新AI模型，重点拓展除大型语言模型外的多样化应用。此次发布包括全新的语音和文本转录模型，以及第二代自研图像生成模型。

这两款转录模型是微软首次推出的此类产品，支持将录音转换为25种语言的文本，适用于视频字幕、会议记录和语音助手等场景。语音模型能够生成最长60秒的音频录制。第二代图像模型在生成速度和图像真实感方面均有显著提升，优于之前的版本。目前，这些模型已在微软Foundry和MAI Playground平台上线，未来计划将MAI-Image-2引入必应搜索和PowerPoint。开发者可通过微软官网了解详细定价信息。

微软此举表明其正积极拓展AI市场的产品线。微软的Copilot是企业中广受欢迎的聊天机器人，尤其在Office 360和Azure用户中拥有广泛应用。除了早期的图像模型外，微软主要专注于文本模型，致力于打造安全且适合企业使用的AI解决方案。最新推出的Copilot Cowork和Copilot Health即是这一战略的体现。

作为一家历史悠久的科技巨头，微软拥有充足的资金和计算资源，能够投入到这些“边缘项目”中，而这正是许多初创企业难以做到的。相比之下，OpenAI近期宣布将停用Sora AI视频应用，转而专注核心业务。2026年，AI行业正努力证明其工具在职场中的实用价值，Anthropic的Claude Code在竞争中表现突出。

生成式媒体（如AI图像和视频生成模型）对计算和能源的需求极高，这也引发了业界对效率的关注。谷歌作为另一家老牌科技公司，虽未放弃生成式媒体，但正致力于提升模型的成本和能源效率，推出了更节能的Veo 3.1 Lite视频生成模型。

微软推出多款新AI模型，超越传统文本处理

标签

评论

相关阅读

Medicare新支付模式为AI量身打造，科技界大多尚未察觉

AI短片引发愤怒：将1970年代女性制作成情色影像引争议

1X Neo机器人拥有惊人的快速灵巧手指