微软AI研究实验室于周四宣布推出三款基础AI模型,分别支持文本、语音和图像生成。这一发布标志着微软在构建多模态AI模型体系上的持续努力,旨在与其他AI实验室竞争,尽管微软仍与OpenAI保持合作关系。
其中,MAI-Transcribe-1支持25种语言的语音转文本,速度是微软Azure Fast的2.5倍。MAI-Voice-1是一款音频生成模型,能够在一秒内生成60秒的音频,并支持用户定制个性化声音。MAI-Image-2则是一款视频生成模型。
MAI-Image-2最初于3月19日在MAI Playground(一款大型语言模型测试软件)发布。现在,这三款模型均已在微软Foundry平台上线,转录和语音模型也可在MAI Playground使用。
这些模型由微软MAI超级智能团队开发,该团队由微软AI首席执行官Mustafa Suleyman领导,于2025年11月成立。

Suleyman在博客中表示:“微软AI致力于构建以人为本的AI。我们在创建模型时注重人类交流的实际方式,优化实用性。未来你将看到更多模型在Foundry及微软产品中推出。”
在竞争日益激烈的大型语言模型市场中,微软希望这些模型以更低的价格成为其优势。MAI-Transcribe-1的起价为每小时0.36美元,MAI-Voice-1为每百万字符22美元,MAI-Image-2则为文本输入每百万令牌5美元,图像输出每百万令牌33美元。
尽管推出了自有模型,Suleyman在接受采访时重申了微软与OpenAI的合作承诺。最近双方重新谈判合作协议,使微软能够更深入地开展超级智能研究。
微软已向OpenAI投资超过130亿美元,并通过多年合作将其模型集成到微软产品中。微软在芯片方面也采取双轨策略,既生产自有芯片,也采购外部供应商的产品。


