Stability AI、画像生成モデル「Stable Diffusion」をベースにした生成動画モデル「Stable Video Diffusion」を公開　半田貞治郎

こんにちは！半田貞治郎です。

Stability AIは11月21日、同社の生成画像モデル「Stable Diffusion」をベースにした生成動画用の最初の基礎モデル「Stable Video Diffusion」を研究プレビュー用途で公開した。Stable Video Diffusionは、毎秒3～30の可変フレームレートで動く14フレームおよび25フレームの動画を生成できる2つのモデルで構成されており、3フレーム／秒で単純計算すると最長8秒強の動画が生成できることになる。公開されたデモ動画を見ると「Ice dragon in the mountains（山の上のアイスドラゴン）」「Astronaut walking on the moon（月面を歩く宇宙飛行士）」「Two Blue Jays on the top of a building（建物の屋上に2匹の青カケス）」といった自然言語から数秒の動画が見事生成されているのがわかる。一枚の画像から360度ビューを作成することも可能なようだ。競合となる「runaway」「Pika Labs」の基礎モデルとの比較でも優位な結果が出ており、Stable Video Diffusionは研究プレビュー用途ながらモデルおよび、モデルをローカルで実行するためのウェイト（重み）を公開している。ユーザーはウェイティングリストに登録することで、これらすべてを無料で利用できるようになる。要求されるマシンスペックは高そうだが、夢の「Text to Movie」が自分の部屋でも実現できるのだ[1][3][5]。

Citations:
[1] https://stability.ai/news/stable-video-diffusion-open-ai-video-model
[2] https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
[3] https://stability.ai/stable-video
[4] https://huggingface.co/stabilityai/stable-video-diffusion-img2vid
[5] https://techcrunch.com/2023/11/21/stability-ai-gets-into-the-video-generating-game/