PR

Microsoft の Fara-7B は PC 上で動く AI エージェント

thumbnail_microsoft_1920 Microsoft

要旨

Microsoft が発表した Fara-7B は、わずか 70 億のパラメータで動作する小型の AI モデルです。このモデルは、クラウドに依存せずユーザーのパソコン上で直接動作し、ウェブサイトの操作を自動化できます。画面を見ながらマウスやキーボードを操作する人間と同じように、Fara-7B は視覚的に画面を認識してクリックや入力といった操作を実行します。従来の大規模モデルよりも小型でありながら、GPT-4o を上回る成果を出している点が注目されています。

人間と同じ方法で画面を操作

Fara-7B は、画面のスクリーンショットから視覚的にウェブページを認識し、クリック、入力、スクロールなどの動作を座標として予測して実行します。特徴的なのは、一般的なブラウザが利用する「アクセシビリティツリー」と呼ばれるコード構造に頼らず、ピクセルレベルの画像データのみで動作する点です。

この方式により、複雑なコードで構成されたウェブサイトでも問題なく操作できます。Microsoft Research のシニアプロジェクトリーダーであるヤシュ・ララ氏は、すべての視覚情報をデバイス上で処理することで真の「ピクセル主権」が実現し、医療情報保護法や金融機関規制といった厳格な規制要件を満たすことができると説明しています。

GPT-4o を上回る性能と効率性

ウェブエージェントの標準的な評価基準である WebVoyager において、Fara-7B は 73.5% のタスク成功率を達成しました。これは同様の用途で使用した場合の GPT-4o の 65.1% や、同じ 70 億パラメータクラスの UI-TARS-1.5-7B の 66.4% を上回る結果です。

効率面でも優れた性能を示しています。Fara-7B は平均約 16 ステップでタスクを完了するのに対し、UI-TARS-1.5-7B モデルは約 41 ステップを要しました。処理が速く、必要な手順が少ないということは、ユーザーの待ち時間が短縮され、コストも抑えられることを意味します。

安全性への配慮と「クリティカルポイント」

AI エージェントが自動的に操作を行う際、最も懸念されるのが誤った操作や意図しない動作です。Microsoft はこの問題に対処するため、Fara-7B に「クリティカルポイント」という概念を導入しました。

クリティカルポイントとは、メールの送信や金融取引の完了など、取り返しのつかない操作を実行する前にユーザーの個人データや同意が必要となる状況を指します。このような場面に達すると、Fara-7B は自動的に一時停止し、続行する前にユーザーの承認を求めるよう設計されています。

ララ氏は、このような安全対策とスムーズなユーザー体験のバランスを取ることが重要だと述べています。Microsoft Research が開発した Magentic-UI という研究用プロトタイプは、こうした人間とエージェントのやり取りを円滑にするために特別に設計されており、Fara-7B はこの UI 上で動作するようになっています。

学習データの生成方法

コンピューター操作エージェントの開発における最大の課題は、高品質な学習データの不足です。人間がウェブを操作する過程を記録してデータ化するには、膨大なコストがかかります。

Microsoft はこの問題を解決するため、Magentic-One というマルチエージェントフレームワーク上に構築された合成データパイプラインを使用しました。この仕組みでは、「オーケストレーター」エージェントが計画を立て、「ウェブサーファー」エージェントにウェブ閲覧を指示することで、14 万 5000 件のタスク軌跡を生成しました。

Fara-7B は Qwen2.5-VL-7B をベースに構築されており、最大 128,000 トークンという長いコンテキストウィンドウと、テキスト指示を画面上の視覚要素に結び付ける優れた能力を理由に選ばれました。複雑なマルチエージェントシステムでデータを生成しながらも、最終的な Fara-7B 自体は単一モデルとして動作するため、小規模なモデルでも高度な動作を効果的に学習できることを示しています。

おわりに

Fara-7B は現在、MIT ライセンスのもと Hugging Face と Microsoft Foundry で公開されています。商用利用も可能ですが、まだ実験段階であることに注意が必要です。ララ氏は、パイロットプロジェクトや概念実証には最適だが、ミッションクリティカルな業務での展開にはまだ至っていないと警告しています。

今後のバージョンアップでは、モデルのサイズを大きくするのではなく、よりスマートで安全なものにすることに重点が置かれます。サンドボックス化された環境での強化学習などの技術も検討されており、モデルがリアルタイムで試行錯誤から学習できるようになる予定です。パソコン上で動作する小型で効率的な AI エージェントの実現に向けて、Fara-7B は重要な一歩を踏み出しました。

※ ここに掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がございますので、あらかじめご了承ください。

出典: VentureBeat

コメント

  1. […] します。” — AI 備忘録 […]