PR

Gemini 3 Flash に Agentic Vision 機能が追加 ~ AI が画像を自ら分析する時代へ~

thumbnail_gemini_1920 Google
  1. Gemini 3 Flash に Agentic Vision 機能が追加 ~ AI が画像を自ら分析する時代へ~

要旨

Google が AI モデル Gemini 3 Flash に新機能 Agentic Vision を追加しました。これまでの AI は画像を一度見て判断していましたが、Agentic Vision では AI 自身が画像を拡大したり切り抜いたりしながら、まるで探偵のように詳細を調べていきます。この機能により、小さな文字や遠くの看板など、見逃しやすい情報も正確に読み取れるようになりました。建築図面の検査や医療画像の分析など、細かい確認が必要な業務での活用が期待されています。

画像を見るだけから調べるへの進化

従来の AI は人間と同じように、画像を一瞬見て内容を判断していました。そのため、小さな文字やぼやけた部分があると、正確な情報を得られないことがありました。

今回発表された Agentic Vision は、この問題を解決する画期的な機能です。AI が画像を受け取ると、まず全体を確認し、次にどの部分を詳しく調べるべきか計画を立てます。その後、Python というプログラミング言語を使って画像を拡大したり、特定の部分を切り取ったりしながら、必要な情報を集めていきます。

この仕組みにより、従来の方法と比べて 5-10% 程度性能が向上したとのことです。

3 つのステップで動く仕組み

Agentic Vision は Think、Act、Observe という 3 つの段階を繰り返します。

まず Think の段階では、質問内容と画像を分析して、どのように調べるか計画を立てます。次に Act の段階で、実際に Python コードを書いて実行し、画像を加工したり計算したりします。最後の Observe の段階では、加工した画像を確認して、必要な情報が得られたかチェックします。

この一連の流れを繰り返すことで、最初は見えなかった細かい情報も読み取れるようになります。

実際の使用例

建築図面のチェックを行う PlanCheckSolver.com というサービスでは、Agentic Vision の導入により精度が 5% 向上しました。高解像度の図面データを受け取ると、AI が自動的に屋根の端や建物の各部分を切り取って詳細に検査します。建築基準に適合しているかを確認する作業が、これまでより正確になりました。

また、Gemini アプリでは手の指を数える際に、AI が各指の上に四角い枠と番号を描き込んでから数えるようになりました。これにより、数え間違いが大幅に減少しています。

さらに、複雑な表やグラフの分析も可能になりました。AI が表のデータを読み取り、Python を使って計算やグラフ作成を行います。人間が手作業で行うと間違いやすい計算も、プログラムで処理することで正確な結果が得られます。

今後の展開

Google は Agentic Vision の機能拡張を計画しています。現在は画像の拡大機能が自動で働きますが、回転や数学的な計算については、まだ利用者が指示を出す必要があります。今後のアップデートでは、これらの操作も AI が自動で判断できるようになる予定です。

また、Web 検索や画像の逆引き検索など、さらに多くの機能を追加することも検討されています。現在は Gemini 3 Flash でのみ利用できますが、将来的には他のサイズのモデルにも展開される計画です。

利用開始方法

Agentic Vision は Google AI Studio と Vertex AI で利用できます。Gemini アプリでもモデル選択画面から Thinking を選ぶことで使えるようになっています。

開発者向けには、Google AI Studio でデモアプリが公開されており、実際の動作を確認できます。また、AI Studio Playground の Tools 設定で Code Execution をオンにすることで、この機能を試すことができます。詳しい使い方は開発者向けドキュメントに記載されています。

おわりに

Agentic Vision の登場により、AI による画像分析の精度が大きく向上しました。建築や医療、製造業など、細かい確認が必要な分野では、人間のチェック作業を補助する強力なツールとなります。また、一般の方でも、複雑な図表の理解や書類の確認作業が、より簡単に正確に行えるようになります。AI が単なる道具から、実際に考えて行動するパートナーへと進化していく、大きな一歩といえます。

※ ここに掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がございますので、あらかじめご了承ください。

出典: Google blog

コメント