微软近日宣布推出三款全新AI模型,重点拓展除大型语言模型外的多样化应用。此次发布包括全新的语音和文本转录模型,以及第二代自研图像生成模型。
这两款转录模型是微软首次推出的此类产品,支持将录音转换为25种语言的文本,适用于视频字幕、会议记录和语音助手等场景。语音模型能够生成最长60秒的音频录制。第二代图像模型在生成速度和图像真实感方面均有显著提升,优于之前的版本。目前,这些模型已在微软Foundry和MAI Playground平台上线,未来计划将MAI-Image-2引入必应搜索和PowerPoint。开发者可通过微软官网了解详细定价信息。
微软此举表明其正积极拓展AI市场的产品线。微软的Copilot是企业中广受欢迎的聊天机器人,尤其在Office 360和Azure用户中拥有广泛应用。除了早期的图像模型外,微软主要专注于文本模型,致力于打造安全且适合企业使用的AI解决方案。最新推出的Copilot Cowork和Copilot Health即是这一战略的体现。

作为一家历史悠久的科技巨头,微软拥有充足的资金和计算资源,能够投入到这些“边缘项目”中,而这正是许多初创企业难以做到的。相比之下,OpenAI近期宣布将停用Sora AI视频应用,转而专注核心业务。2026年,AI行业正努力证明其工具在职场中的实用价值,Anthropic的Claude Code在竞争中表现突出。
生成式媒体(如AI图像和视频生成模型)对计算和能源的需求极高,这也引发了业界对效率的关注。谷歌作为另一家老牌科技公司,虽未放弃生成式媒体,但正致力于提升模型的成本和能源效率,推出了更节能的Veo 3.1 Lite视频生成模型。


