動画生成AI

動画生成AIについて

動画生成AIは以下の3つの主要カテゴリーに分けることができます。

・動画編集系動画生成AI
・アニメーション系動画生成AI
・アバター系動画生成AI

それぞれ具体的なサービスを例にすると

・動画編集系動画生成AI
┗Clipchampの「AIでビデオを作成する」
→画像や動画クリップを複数アップロードすることで動画生成される(BGM付き)

・アニメーション系動画生成AI
┗Gen-2 by Runway
→テキストプロンプトや画像から短いアニメーションGIF(数秒)を生成

・アバター系動画生成AI
┗D-ID(Creative Reality Studio)
→アバターを喋らせることができる動画生成AI(アバターは既存だけでなくアップロード可)

これら3つの中で、動画編集系動画生成AIとアバター系動画生成AIは、いずれもある程度は確立されたものだとは思います。

しかし、アニメーション系動画生成AIは、まだまだ途上であるように感じられます。

現状のアニメーション系動画生成AIは、率直には初見の際「AIでこんなものまで作れるんだ」という思いはあれど、実際に触ってみると、サービス・ツールによりますが、労力に見合わない・費用対効果が悪いのではないかと感じることもあるのではないかと思います。

この辺は端的に"アニメーション系動画生成AIリテラシー"が関係してくるとも言えますが、何も知らない初心者目線だと例えばAnimateDiffあたりは決して簡単と言えないかと思います。

AnimateDiffとは、簡単にいうとStableDiffusionの拡張機能で、画像(静止画)から短いアニメーションを生成できるというものです。

慣れてしまえば簡単だと言ってしまえばそれまでですが、例えばPixAI.Artのように「動け!」という1クリックでアニメーション系動画が生成されるものもあるとなると、初心者等の間口としては後者に分があるのかなと感じています。

ただ、いずれにしてもアニメーション系の動画生成AIで生成されるのは"数秒程度"の動画です。

その数秒程度のアニメーションを複数生成して、PVやMV、または映画の予告編等も作ることは可能ですが、一貫性の問題という壁がネックにもなってきますし、中にはAI特有とも言われる多少カクカクした動きや"ちらつき"も起こります。

先に触れたようにサービスによっては動画1つ生成されるまでのプロセスが決して簡単ではない場合、「これだけやっても数秒程度のものしかできない」感が生まれるのはおおよそ普通の感情ではないかと思える程です。

アニメーション系の動画生成AIが数秒程度の動画しか生成できない理由としては、AIの学習プロセス、それから技術的な制約によるものとされています。

大量のデータを学習し、モデルを生成するAIですが、その過程において時間的な連続性を維持するのは難しく、特にアニメーションのように時間的な連続性が重要な要素の場合、ある程度長い時間軸での予測は困難になるそうで、AIが過去の情報をどれだけ長く保持出来るか、その情報を未来の予測にどのように活用するかという問題に関連していると言われています。

そして技術的な制約。

AIが生成する各フレームは高い計算コストが必要となり、現状これが長時間の動画生成を難しくしています。

ある程度長い時間を生成すると、その生成過程でのエラーや破たんが累積しやすくなり、結果として品質が低下するケースが見られるのはこのためなのだろうと推測されます。

勿論、動画生成AIの技術も日々進化しているでしょうし、将来的には長い動画の生成も可能になるかもしれません。

一方で、アニメーション系の動画生成AIにおいて"ある程度の尺の動画生成は可能"という見方もあります。

Googleの研究部門であるGoogle researchは、2022年10月に『Phenaki』という動画生成AIを発表しています。

しかし、そのPhenakiは2023年12月現在そのAIモデルやコードは公開されておらず、一般に利用はできないものです。

ただ、気になるのはPhenakiの概要等の説明とともに挙げられていた"2分間の動画"です。(2分間の動画はプロンプトとともにPhenakiのサイトで確認できます

2分間の動画は、古いバージョンのモデルで長文のプロンプトを用いて生成されたとのことですが、細かなクオリティ面はさておき、2分間の動画が生成できることに驚きました。

数秒の動画生成の世界であるアニメーション系の動画生成AIにおいて、2分もある動画とは驚きです。

Phenakiを知って真っ先に気になったことが、そのAIモデルやコードです。

ですが上述の通り、AIモデルやコードは公開されていません。

その理由としては、ツールの誤用・訓練データに含まれる偏見についての懸念、とされているとのことです。

いわゆる社会通念上ということなんでしょうか。

ただ、物理的に、というよりは技術的に2分間の尺の動画が生成可能と知った以上、PhenakiのAIモデルやコードは将来的に公開される可能性がある、というだけでは納得は出来ないというか、腑に落ちないまま時間が過ぎていっています。1年以上も。

単に動画生成という観点で見れば、もちろん動画生成AIそのものの進化は楽しみですし、期待を寄せていますが、ことアニメーション系の動画生成AIにおいてはトータル的なクオリティ、またコスト面でもBlender等のアニメーション制作まで可能なツール・サービスの存在が改めて気になるところです。

主観込みの意見にはなりますが、アニメーション系の動画生成AIはBlenderとかには到底まだまだ勝てないです。

何をもって勝てるというのか?というのもありますが、例えばBlenderは3Dモデリングソフト(3D生成)で、アニメーションまで作れます。

勿論そこに至るまでのプロセスは今あるアニメーション系動画生成AIのどのサービスよりも操作一つ複雑で、BlenderならBlenderの操作を覚えるだけでも個人差はあれど相当な時間を要します。

ただ

アニメーション系の動画生成AIなんて比じゃない、と言っても過言ではない程、そのトータル的なクオリティは高く、"分"単位の尺も可能です。

Blenderを例に触れましたが、Blenderそのものは、基本的な機能はAI技術活用されているわけではありません。

なので、「何処と比べてるの?」と感じる方もいるかもしれません。

ただ、Blenderは拡張機能としてアドオン(ChatGPTでいうプラグイン的な)があり、そのアドオンでAI技術活用のものが幾つかあります。

それを踏まえると、個人的に今思ってるのは、そういったBlenderみたいに完成されたサービス・ツールに、生成AI技術が乗っかっていく感じになっていく形のほうが、アニメーション系動画生成AI単体の進化を待つよりも話が早いのでは?

と感じます。

「生成AIで映像作りたい」

「動画作りたい」

となった時に

Blender等がある現在において

わざわざアニメーション系動画生成AIを使う点は何処にあるのか?

今Blenderを例に触れたように、既存のツールやサービスにAI技術が組み込まれることで、そのツールの可能性が大きく広がるのでは?という観点は非常に重要だと思っています。

生成AI技術が進化することで、画像や動画の生成が容易になり、より多くの人々がクリエイティブな作業を行うことが可能になります。

しかし、その一方で、既存のツールやソフトウェア(Blender等)が提供する機能や操作性、そしてそのツールを使いこなすためのスキルや経験も依然として重要だとも思います。

生成AIを使って映像を作りたい、動画を作りたいと思ったとき、その選択は個々の目的やニーズ、そしてその人がどの程度のコントロールを望むかによるでしょう。

そもそもな話でもありますが生成AIは、手間を省いたり、新たな視点を提供したりすることができます。

一方で、既存のツールは細かなコントロールや、特定のスタイルや技法を用いる能力を提供します。

したがって、生成AIと既存のツールは、互いに補完し合う存在とも言えるのではないかと思っています。

それぞれが持つ長所を理解し、適切に活用することで、より良い結果を得ることが出来るのではないでしょうか。

と、アニメーション系動画生成AIに関して長くなってしまいましたが、当コンテンツで紹介する動画生成AIのサービス・ツールとともに、動画生成AI技術の進化と発展・進捗に期待しましょう。

-2023年12月-