PR

Microsoft が MAI 新モデルを 3 つ発表 〜文字起こし・音声・画像生成が進化〜

thumbnail_microsoft_1920 Microsoft

要旨

Microsoft は 2026年4月2日、自社開発の AI モデル「MAI」シリーズの新しい 3 つのモデルを発表しました。音声をテキストに変換する「MAI-Transcribe-1」、自然な音声を生成する「MAI-Voice-1」、そして画像生成を行う「MAI-Image-2」です。これらはいずれも Microsoft Foundry を通じて開発者向けに公開されており、高い品質・高速な処理・競争力のある価格という 3 つの点を兼ね備えています。Microsoft AI の CEO である Mustafa Suleyman 氏が直接アナウンスした今回の発表は、同社が独自の AI モデル開発を本格化させていることを示す重要な一歩です。

MAI-Transcribe-1 ── 音声をテキストに変換する新モデル

「MAI-Transcribe-1」は、音声をテキストに書き起こす(文字起こし)機能に特化したモデルです。世界で多く使われている上位 25 言語に対応しており、業界標準のベンチマーク「FLEURS」において、その 25 言語のうち 11 言語でトップの精度を記録しています。残りの 14 言語でも、OpenAI の Whisper large-v3 を上回るとされています。

処理速度については、既存の Microsoft Azure の高速文字起こしサービスと比較して 2.5 倍の速さを実現しています。騒がしい環境や不明瞭な発音など、実際の利用シーンで起こりがちな状況でも高い精度を維持できるよう設計されており、価格も大手クラウドサービスの中で最も競争力があるとしています。料金は 1 時間あたり $0.36 から利用できます。

MAI-Voice-1 ── 感情豊かな声を生成するモデル

「MAI-Voice-1」は、テキストから自然な音声を生成するモデルです。単に言葉を読み上げるだけでなく、感情の起伏や話し方のニュアンスを表現し、長い内容を話し続けても話者の声の特徴を保ち続けることができます。

今回の発表で特に注目されているのが、ユーザー自身の声を使ったカスタムボイス作成機能です。数秒間の音声サンプルを用意するだけで、Microsoft Foundry 上で安全にオリジナルの声を作れるようになりました。生成速度も非常に速く、60秒分の音声をわずか 1 秒で生成できます。料金は 100 万文字あたり $22 からです。完成した音声は「Copilot Audio Expressions」や Copilot Podcasts でも体験できます。

MAI-Image-2 ── 速くなった画像生成モデル

「MAI-Image-2」は画像生成に特化したモデルで、Arena.ai のリーダーボードで上位 3 モデルに入る実力を持ちます。Foundry および Copilot 上での生成速度は以前の 2 倍以上に向上しており、品質は同等を維持しています。Bing や PowerPoint への段階的な展開も進められています。

写真家やデザイナーを想定した設計で、自然な光の表現、正確な肌の色やテクスチャー、図解やレイアウトで読みやすいテキストの表現など、実務に直結した仕上がりにこだわっています。世界最大級のマーケティンググループである WPP はすでにこのモデルを活用しており、同社の Global Chief Creative Officer である Rob Reilly 氏は創造的な指示に的確に応えるモデルとして高く評価しています。料金はテキスト入力が 100 万トークンあたり $5、画像出力が 100 万トークンあたり $33 からです。

利用方法と今後の展開

これら 3 つのモデルはすべて Microsoft Foundry から利用できます。また、MAI Playground(米国のみ)でも試用が可能です。Foundry のアカウントをお持ちでない方は、専用の申し込みフォームから問い合わせることができます。

Microsoft は今後もさらに多くのモデルを Foundry および自社製品に組み込んでいく方針で、安全性や責任ある AI の開発を前提とした、いわゆる「Humanist AI」の考え方のもと開発が進められています。各モデルのモデルカード(詳細な技術情報書類)も公式サイトから入手できます。

おわりに

今回の発表で、Microsoft の AI モデルは文字起こし・音声生成・画像生成という 3 つの分野でそれぞれ大きく前進しました。たとえば会議の録音を素早くテキスト化したり、プレゼン資料に使う画像を短時間で作ったりといった、日常の仕事や学習に直結する使い方が広がりそうです。

開発者向けのサービスとして提供されているため、すぐに一般の方が直接触れるわけではありませんが、Copilot など Microsoft の身近なサービスを通じて、こうした技術はすでに少しずつ私たちの生活に入り込んできています。今後どのように日常のツールに組み込まれていくか、引き続き注目していきたいところです。

※ ここに掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がございますので、あらかじめご了承ください。

出典: Microsoft

コメント