微软自研 MAI 三兄弟：130 亿投了 OpenAI，转身自己干

微软本周做了一件所有人都预料到，但没人知道会这么快的事：一口气发布了三个自研 AI 模型。

不是在 OpenAI 的模型上套了个壳。是完全自研的，从头训练的，用自己的团队、自己的数据、自己的基础设施搞出来的。

130 亿美元投给了 OpenAI，然后转身自己干。这剧情，放在硅谷肥皂剧里都嫌太直白。

三个模型，三条赛道

三个模型目前通过 Microsoft Foundry 平台对外提供 API 服务。Foundry 是微软今年新推出的 AI 模型服务平台，定位类似于 OpenAI 的 API，但区别在于它上面跑的是微软自己的模型。

语音转文字这个赛道，OpenAI 的 Whisper 一直是标杆。开源、多语言、准确率高，基本上垄断了这个领域。

MAI-Transcribe-1 的切入角度是企业场景：Teams 会议实时转写、客服电话分析、多语言会议记录。25 种语言的支持覆盖了全球大部分商务语言。

和 Whisper 的对比还需要更多独立测试，但微软的优势在于和 Office 生态的深度集成。想象一下：你在 Teams 里开会，转写自动生成，摘要自动写好，To-do 自动提取到 Outlook，全程不需要第三方工具。

这个速度是真的快。

目前主流的 TTS（Text-to-Speech）服务，生成 60 秒的音频通常需要 3-5 秒。MAI-Voice-1 声称只需要 1 秒，而且支持多种语音风格和情感调节。

应用场景也很明显：Teams 的实时翻译配音、Xbox 游戏的动态对话、Azure AI 服务的语音接口。每一个都是微软自己的产品线。

MAI-Image-2 是这三个里面最不令人意外的。微软之前已经有了 DALL-E 集成（通过 OpenAI 合作），现在推出自研版本，说明他们不想在图像生成这个核心能力上依赖外部。

具体质量如何？目前只看到了几张官方样例图，和 DALL-E 3、Midjourney v7 的水平还有差距。但对于企业级应用（PPT 配图、营销素材、产品原型），够用了。

这三个模型背后的灵魂人物是 Mustafa Suleyman。

如果你不知道他是谁：DeepMind 联合创始人，Google AI 前高管，后来创办了 Inflection AI（做了 Pi 聊天机器人），然后被微软连人带团队整体收购。现在他的头衔是微软 MAI Superintelligence 团队的负责人。

这个团队的名字就已经说明了野心：MAI = Microsoft AI，Superintelligence = 超级智能。不是做个小工具，是要做微软自己的基础大模型。

Suleyman 加入微软不到一年，就交出了三个模型。这速度暗示了两件事：

这是所有人都想问的问题。微软往 OpenAI 砸了 130 亿美元，拿到了独家云计算合作权和模型的优先使用权。现在微软自己开始做模型了，这笔投资是不是变成了冤大头？

我的看法：不算冤大头，但关系确实在变。

首先，微软和 OpenAI 的合作协议保证了微软可以在 Azure 上独家提供 GPT 系列 API。光是这一项，每年就能带来数十亿美元的云服务收入。130 亿的投资早就在财务上回本了。

其次，微软做自研模型并不意味着要替代 OpenAI。更合理的理解是：微软要确保自己在 AI 这条赛道上不被任何单一供应商卡脖子。

这就像苹果一边用高通的基带芯片，一边疯狂投入自研基带。用你的，但绝不让你成为我的唯一选项。

但微妙之处在于，OpenAI 现在也在想办法减少对微软的依赖。Sam Altman 一直在推动多云战略，甚至自建数据中心。两家公司正在从"蜜月期"滑向"各怀鬼胎期"。

以前我们数 AI 大模型玩家：OpenAI、Anthropic、Google、Meta、Mistral、DeepSeek。现在要加上微软本身了。而且微软不是个小玩家，它手里有全球第二大的云计算基础设施。

当连微软这种体量的公司都能在一年内训练出多个可用的模型时，基础模型的竞争壁垒还剩多少？答案是：越来越少。模型层正在快速商品化，真正的价值在应用层和生态层。

OpenAI 最大的护城河一直是：没人能训练出和 GPT-4/5 一样好的模型。但 DeepSeek R2 在开源端撕开了口子，现在微软在闭源端也开始动手了。OpenAI 的 8400 亿估值里，有多少是建立在"技术独占"假设上的？

Transcribe、Voice、Image，这三个领域都在快速变成基础设施级别的能力。就像云存储和计算一样，语音转写和图像生成很快就不再是一个独立的产品品类，而是每个应用都内置的标准功能。

到 2027 年，微软会发布自研的大语言模型。不是 Transcribe 或 Voice 这种垂直模型，而是一个完整的、能和 GPT-5 竞争的通用语言模型。

为什么这么判断？因为 Suleyman 团队的名字叫 Superintelligence，不叫 “Speech and Vision Lab”。语音和图像只是开胃菜。主菜还没上。

到那时候，微软和 OpenAI 的关系会变成什么样？

可能是竞合。可能是渐行渐远。也可能是一场精彩的分手戏。

不管怎样，这周微软亮出的牌已经足够清晰了：我投了你，但我也不需要你。

想试用 MAI 模型的开发者可以通过 Microsoft Foundry 平台申请 API 访问。目前处于 Preview 阶段，免费额度有限。如果你是 Azure 企业客户，可以直接在 Azure AI 服务中启用。