Googleは、わずか2GBのRAMでもオフラインで動作可能な軽量AIモデル「Gemma 3n」をリリースしました。このモデルはマルチモーダル処理能力を備え、音声、動画、画像、テキストに対応し、スマートフォンやエッジデバイス上でクラウドやインターネット接続なしでも高性能なAIを実現します。独自のMatFormerアーキテクチャにより、低リソース環境でも強力なAI性能を持ち、音声認識や動画分析などのリアルタイムユースケースに適しています。
重要なポイント Googleはオフラインでも動作できる軽量なマルチモーダルAIモデル「Gemma 3n」を展開した。 Gemma 3nは、CPUとNPUの両方を利用し、限られたメモリ環境でも高性能な処理を可能にしている。 モデルは、50億から80億のパラメータを持つが、リソース効率の良い設計により低リソース環境でも動作する。 PLE(Per-Layer Embeddings)やKVキャッシュ共有により、長時間の動画・音声処理を高速化している。 音声認識や言語翻訳、動画分析などの機能を持ち、特に英語やスペイン語など多言語に対応。 Gemma 3nはHugging FaceやKaggleでモデルの重みを入手可能で、さまざまなツールやプラットフォームと連携できる。 環境やプライバシーが重視されるユースケースに適し、クラウド不要のローカルAI推論を実現。


コメント