PR

Apple 支援の AI が無音動画から音声と環境音を生成 VSSFlow 登場

thumbnail_apple_1920 Apple

要旨

Apple が支援する AI 技術の研究チームが、無音の動画から音声と環境音を生成できる新しい AI モデル VSSFlow を発表しました。これまで音声生成と環境音生成は別々のシステムが必要でしたが、VSSFlow は 1つのシステムで両方を高品質に作り出すことができます。さらに興味深いのは、音声と環境音を同時に学習させることで、それぞれの性能が向上するという相乗効果が確認されたことです。

従来の課題と新しいアプローチ

これまでの動画から音を生成する AI は、環境音か音声のどちらか片方に特化していました。環境音の生成が得意なモデルでは音声の生成が不得意で、逆に音声合成モデルでは環境音を作れませんでした。また両方の機能を持たせようとすると、それぞれの学習が互いに干渉して性能が下がってしまうという問題がありました。

Apple の研究チームと中国人民大学の研究者たちが共同開発した VSSFlow は、この問題を解決する新しい仕組みを採用しています。動画の映像情報とテキストで書かれた台詞を組み合わせて処理することで、環境音と音声の両方を 1つのシステムで生成できるようになりました。

VSSFlow の仕組み

VSSFlow は 10 層のアーキテクチャを持ち、動画と台詞の情報を直接音声生成のプロセスに統合します。ランダムなノイズから始めて、徐々に目的の音声や環境音を作り出していく「フローマッチング」という技術を使っています。

研究チームは環境音付き動画、台詞付き会話動画、テキスト読み上げデータの 3種類を組み合わせて学習させました。特筆すべきは、音声と環境音を同時に学習させたことで、それぞれ単独で学習させた場合よりも性能が向上したという発見です。これは従来の常識を覆す結果となりました。

ただし、最初の学習段階では背景音と話し声を同時に出力することはできませんでした。この機能を実現するために、音声と環境音を混ぜた合成データで追加学習を行うことで、両方を同時に生成できるようになりました。

生成の流れと性能

VSSFlow で音を生成する際は、動画から毎秒 10 フレームの映像を抽出して環境音の手がかりとし、台詞のテキストを元に正確な音声を作り出します。ランダムなノイズを出発点として、これらの情報を使って少しずつ目的の音に近づけていきます。

既存の専門特化型モデルとの比較テストでは、VSSFlow は環境音と音声の両方において競争力のある結果を示しました。単一のシステムでありながら、複数の重要な指標で優れた性能を発揮しています。

研究チームは Google の Veo3 で生成された動画を含む、多数のデモ動画を公開しています。環境音のみ、音声のみ、そして両方を組み合わせたパターンなど、さまざまな生成結果を確認できます。

オープンソース化と今後の展開

VSSFlow のプログラムコードは GitHub で公開されており、誰でも利用できます。研究チームは学習済みモデルの公開と、実際に試せるデモ環境の提供も準備中です。

研究チームは今後の課題として 2つの点を挙げています。1つ目は、高品質な動画と音声と環境音がセットになったデータの不足です。2つ目は、音声の細かい特徴を保ちながらもデータ量を抑えられる新しい表現方法の開発です。

おわりに

VSSFlow の登場により、動画制作における音声と環境音の追加作業が大幅に簡単になる可能性があります。プロの制作現場だけでなく、個人が作る動画コンテンツでも、映像に合わせた自然な音を簡単に付けられるようになるでしょう。また聴覚障害のある方が動画を理解する際の補助や、古い無声映画に音を付けて楽しむといった用途も考えられます。さらに教育現場では、映像教材に複数の言語で音声を追加したり、分かりやすい効果音を付けたりすることで、学習効果を高められるかもしれません。

※ ここに掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がございますので、あらかじめご了承ください。

出典: 9to5Mac

コメント