Meta、テキストからアニメキャラクターを生成するAIシステム「MoCha」を開発

Meta、テキストからアニメキャラクターを生成するAIシステム「MoCha」を開発

Metaとウォータールー大学の研究者たちは、**MoCha(モチャ)**というAIシステムを開発しました。このシステムは、音声と自然な動きを同期させたキャラクターアニメーションを自動生成することができます。

�� 顔だけでなく全身をアニメーション

従来のモデルは主に顔の動きに焦点を当てていましたが、MoChaは全身の動きを様々なカメラアングルから再現できるのが特徴です。リップシンク、ジェスチャー、複数キャラクター間のインタラクションも含まれており、早期のデモでは、主にクローズアップやセミクローズアップでの上半身の動きとジェスチャーが音声に合わせて自然に再生されました。

技術の中核:30億パラメータのディフュージョントランスフォーマーモデ

MoChaは、30億パラメータを持つディフュージョントランスフォーマーモデルで構築されており、**1秒あたり24フレームのHD動画(約5秒間)**を生成します。これは現在の最先端ビデオ生成モデルに匹敵する性能です。


リップシンク精度の向上:Speech-Video Window Attention

MoChaは、AI動画生成で課題となる以下の2点を解決するために、「Speech-Video Window Attention」という新しい仕組みを導入しました:

  1. 動画は圧縮処理される一方で、音声は高解像度のまま処理されるため、同期がズレる問
  2. 動画のフレームを並列生成する際に、唇の動きが音声と一致しない問

この仕組みでは、各フレームが限られた範囲の音声データにアクセスできるように制限されており、これは人間の会話における口の動きが直前の音に依存しているという点を再現しています。前後にトークンを追加することで、スムーズな遷移とより正確なリップシンクが可能になっています。

データセットと多キャラクター対

MoChaは、300時間分のフィルタリング済み映像データを使用して訓練されています(具体的な出典は非公開)。さらに、テキストベースのビデオシーケンスも追加し、表現力やキャラクター同士のインタラクションの幅を広げました。

複数キャラクターを扱うために、簡潔なプロンプトシステムも開発されており、ユーザーは「Person1」「Person2」といったタグを使ってキャラクターを定義し、繰り返し説明する必要がなくなっています。

 性能と応用の可能

150以上のシナリオにおけるテストでは、MoChaは他の類似システムと比較して、リップシンクの正確さや動きの自然さで優れたパフォーマンスを示しました。第三者の評価者も、リアルなビデオ表現であると高く評価しています。

研究チームによると、MoChaは今後、デジタルアシスタント、バーチャルアバター、広告、教育コンテンツなど、幅広い用途に活用できる可能性があります。なお、Metaはこの技術をオープンソースにするか、研究用プロトタイプとして維持するかは未定としています。

他社との競争:AI動画技術の開発レー

MoChaの登場は、AIによる動画生成技術の競争が激化する中で注目されています。Metaは最近「MovieGen」を発表しており、TikTokの親会社であるByteDanceも、「INFP」「OmniHuman-1」「Goku」などのAIアニメーションシステムを開発しています。

AIシステムカテゴリの最新記事