要旨
Google は 2026年3月26日、音声会話に特化した新しい AI モデル「Gemini 3.1 Flash Live」を発表しました。これまでのモデルと比べて応答の遅れが少なく、より自然な会話ができるよう設計されています。音声と映像(カメラ)を組み合わせたリアルタイム検索機能「検索 Live」も日本を含む 200か国以上に展開が始まり、AI との対話がぐっと身近になってきています。
Gemini 3.1 Flash Live とはどんなモデルか
「Gemini 3.1 Flash Live」は、Google が現時点で最高品質の音声・会話 AI モデルと位置づける新しいモデルです。人と話すような自然なやりとりを AI で実現することを目標に開発されており、前世代の「Gemini 2.5 Flash Native Audio」に比べて応答の速さと精度が大きく向上しています。
このモデルの最大の特徴は「低遅延」です。AI が返答するまでの間 (ま) が短いため、会話が途切れにくくなっています。また 90以上の言語に対応したリアルタイムの多言語会話が可能で、日本語でも利用できます。
音声認識と自然な会話力の向上
Gemini 3.1 Flash Live は、声のトーンや話すスピード、抑揚といった音声の細かなニュアンスをより正確に読み取れるようになりました。さらに、交通の騒音やテレビの音などの生活雑音の中から人の声だけを選別する精度も向上しており、外出先でも快適に使える設計になっています。
会話の流れを長く保持できる点も改善されています。Google によると、Gemini Live では以前のモデルの 2倍の長さの会話を文脈として維持できるようになりました。つまり、少し前に話した内容をもとに続きの会話ができるようになっています。
性能指標(ベンチマーク)でも高い評価が出ており、音声でのステップが複数にわたる複雑な操作を測定する「ComplexFuncBench Audio」では 90.8% のスコアを記録し、前のモデルを上回っています。
「検索 Live」が世界 200か国以上で利用可能に
今回の発表に合わせて、音声とスマートフォンのカメラを使ってリアルタイムに検索できる機能「Search Live(検索 Live)」が、日本を含む 200か国以上に拡大されました。これまで米国のみで提供されていましたが、今回の Gemini 3.1 Flash Live の多言語対応を背景に、世界中の AI Mode 提供地域で利用できるようになっています。
たとえば、組み立て中の家具にカメラを向けながら「次はどうすればいい?」と声で尋ねると、見ている状況を踏まえた手順を教えてくれます。キーボードで文字を打つのが難しい状況でも、話しかけるだけで情報が得られるのが大きな魅力です。
AI 生成音声に「見えない電子透かし」を導入
Gemini 3.1 Flash Live で生成されるすべての音声には、「SynthID」による電子透かし(ウォーターマーク)が埋め込まれています。これは耳には聞こえない形で音声データの中に組み込まれるもので、専用のツールを使えば AI が作った音声かどうかを確認できます。
偽情報の拡散や、本物の人の声に見せかけた AI 音声の悪用を防ぐための取り組みとして、Google はこの技術を全音声出力に標準適用しています。音声 AI が日常に広まる中で、信頼性を担保する仕組みとして注目されます。
おわりに
Gemini 3.1 Flash Live の登場によって、スマートフォンで AI と話すやりとりが一段と自然でスムーズになりました。外出先でも、家事や作業の合間にも、声をかけるだけで調べものや操作の手助けをしてもらえる環境が整いつつあります。
「検索 Live」の世界展開により、日本語でも音声とカメラを使ったリアルタイム検索が利用できるようになりました。キーボードを使わなくてもスマートフォンで情報を引き出せる手軽さは、より多くの人に AI を使う機会をもたらしてくれるでしょう。
※ ここに掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がございますので、あらかじめご了承ください。
出典: GIGAZINE

コメント