微软推出三款全新基础AI模型，挑战竞争对手

微软AI研究实验室于周四宣布推出三款基础AI模型，分别支持文本、语音和图像生成。这一发布标志着微软在构建多模态AI模型体系上的持续努力，旨在与其他AI实验室竞争，尽管微软仍与OpenAI保持合作关系。

其中，MAI-Transcribe-1支持25种语言的语音转文本，速度是微软Azure Fast的2.5倍。MAI-Voice-1是一款音频生成模型，能够在一秒内生成60秒的音频，并支持用户定制个性化声音。MAI-Image-2则是一款视频生成模型。

MAI-Image-2最初于3月19日在MAI Playground（一款大型语言模型测试软件）发布。现在，这三款模型均已在微软Foundry平台上线，转录和语音模型也可在MAI Playground使用。

这些模型由微软MAI超级智能团队开发，该团队由微软AI首席执行官Mustafa Suleyman领导，于2025年11月成立。

Suleyman在博客中表示：“微软AI致力于构建以人为本的AI。我们在创建模型时注重人类交流的实际方式，优化实用性。未来你将看到更多模型在Foundry及微软产品中推出。”

在竞争日益激烈的大型语言模型市场中，微软希望这些模型以更低的价格成为其优势。MAI-Transcribe-1的起价为每小时0.36美元，MAI-Voice-1为每百万字符22美元，MAI-Image-2则为文本输入每百万令牌5美元，图像输出每百万令牌33美元。

尽管推出了自有模型，Suleyman在接受采访时重申了微软与OpenAI的合作承诺。最近双方重新谈判合作协议，使微软能够更深入地开展超级智能研究。

微软已向OpenAI投资超过130亿美元，并通过多年合作将其模型集成到微软产品中。微软在芯片方面也采取双轨策略，既生产自有芯片，也采购外部供应商的产品。

评论