ビデオの安定した拡散は、安定性AIの未来のビデオに対する戦略です – Decrypt

※本記事はPRを含みます

「安定した動画拡散(Stable Video Diffusion)は、最新の高解像度のテキストから動画や画像から動画を生成するための潜在的な動画拡散モデルです」と、Stability AIはモデルの研究論文で説明し、公式発表では「画像、言語、音声、3D、コードなど、モーダリティを横断した私たちのポートフォリオは、Stability AIが人間の知性を強化するための決意の証です」と追加しています。この柔軟性とオープンソース技術の組み合わせにより、広告、教育、エンターテイメントなど、さまざまなアプリケーションが可能になります。研究プレビューで提供されているStable Video Diffusionは、研究者によれば、「画像ベースの手法を遥かに上回る性能を、そのコンピュート予算の一部で提供する」能力を持っています。

Stable Video Diffusionの技術的能力は非常に印象的です。「人間の好ましさに関する研究によれば、このモデルは最先端の画像から動画へのモデルよりも優れた性能を発揮していることが明らかになりました」と研究論文で明かされています。Stabilityは、そのモデルが静止画像をダイナミックな動画コンテンツに変換する点で、閉じられたモデルに対してユーザーの好ましさに関する研究で勝利しているという確信を持っています。

Stability AIは、Stable Video Diffusionの枠組みの下で2つのモデル、SVDとSVD-XTを開発しました。SVDモデルは、静止画像を14フレームで576×1024の動画に変換します。一方、SVD-XTは同じアーキテクチャを使用しており、24フレームにまで拡張されています。どちらのモデルも、1秒あたりのフレームレートが3から30フレームまでの範囲で動画の生成を提供し、オープンソースのテキストから動画の技術の最先端に位置しています。

AI動画生成の急速な進化の中で、Stable Video DiffusionはPika LabsやRunway、Metaなどの革新的なモデルと競合しています。Metaが最近発表したEmu Videoもテキストから動画を生成する能力において類似しており、画像編集と動画作成へのユニークなアプローチがあり、ただし現在は512×512ピクセル解像度の動画に制約があります。技術的な成果にもかかわらず、Stability AIは著作権のあるデータをAIの学習に使用する際の倫理的な考慮など、課題に直面しています。

同社は「この段階では実世界や商業的なアプリケーションを意図していない」と強調し、コミュニティのフィードバックや安全面の懸念に基づいてモデルを改善することに焦点を当てています。SD 1.5とSDXの成功を鑑みると、この動画生成シーンへの新しい進出は、想像と現実の境界線がぼやけるだけでなく、美しく書き直される未来を予感させます。

翻訳:Stability AIの研究論文によると、ロッコ・アイズは「高解像度の最新のテキストから動画および画像から動画の生成のための潜在的な動画拡散モデル」です。公式発表では、同社はこれを次のように説明しています。「画像、言語、音声、3D、コードなど、私たちのポートフォリオは、Stability AIが知性を増幅させることへの取り組みの証拠です」と宣言しました。この適応性は、広告、教育、エンターテイメントなど、さまざまな分野での応用の可能性を切り開きます。Stable Video Diffusionは、現在研究プレビューで利用可能であり、研究者によれば、計算予算の一部で画像ベースの手法を上回る能力を持っています。

Stable Video Diffusionの技術的能力は印象的です。「人間の好みに関する研究によれば、このモデルは最先端の画像から動画へのモデルを上回る優れた性能を発揮します」と研究論文が明かしています。Stabilityは、静止画像を動的な動画コンテンツに変換する能力で、ユーザーの好みの研究において閉じられたモデルを打ち負かすと確信しています。

Stability AIは、Stable Video Diffusionの下で2つのモデル、SVDとSVD-XTを開発しました。SVDモデルは、576×1024ピクセルの動画を14フレームで生成できます。一方、SVD-XTは同じアーキテクチャを使用しており、24フレームまで拡張されています。両モデルは、3〜30フレーム/秒のフレームレートで動画生成を提供し、オープンソースのテキストから動画の技術の最先端に位置しています。

AI動画生成の急速な進化において、Stable Video DiffusionはPika Labs、Runway、Metaなどの革新的なモデルと競合しています。Metaの最近発表されたEmu Videoもテキストから動画への機能において類似しており、画像編集と動画作成への独自のアプローチにより、現在は512×512ピクセルの解像度に制約がありますが、大きな可能性を示しています。技術的な成果にもかかわらず、Stability AIは著作権付きデータの使用に関する倫理的な考慮など、さまざまな課題に直面しています。

同社は「この段階では、実世界や商業的なアプリケーションを対象としたものではありません」と強調し、コミュニティのフィードバックと安全上の懸念に基づいてモデルを改善することに集中しています。SD 1.5とSDXを見る限り、この動画生成の新たな試みは、想像と現実の境界線がぼやけるだけでなく、美しく書き換えられる未来を示唆しています。

出典

【最新】仮想通貨をタダでもらう方法
詳細はこちら
【最新】仮想通貨をタダでもらう方法
詳細はこちら
タイトルとURLをコピーしました