【驚異の10万字越え!】AI美女を作成するためのノウハウを大公開
AIツール

Soraの動画生成技術がヤバい!OpenAIがAI動画生成に起こす革命!?

▶︎動画でも話してるので、文章読むのが面倒な方はこちらをみてもらえればと思います。

今回はOpenAIが発表したSoraという動画生成技術について解説します。

OpenAIが発表したSoraという動画生成技術について

※現時点ではSoraは一般ユーザーの私たちが実際に操作画面から動画生成を試すことはできません。

それでも、今のところ生成されたサンプルの動画とプロンプト、つまりその動画を生成するために利用したテキストが公開されています。

そのため、この動画ではこれらの動画やプロンプトを元に解説を進めます。

まずは最初に紹介されているこちらの動画をご覧ください。

サングラスをかけた女性がネオン街を歩いている動画です。

この動画は、こちらのテキストから生成されたものです。

テキストの内容を確認

動画を生成するための指示しているテキストの内容を確認してみましょう。

まず最初に、「温かく光るネオンとアニメーションの街の看板で埋めた東京の通りを、スタイリッシュな女性が歩いている」と指示されています。

次に、「黒のレザージャケットに赤いロングドレス、黒のブーツを履き、黒い財布を持って、サングラスをかけ、赤い口紅を塗っている」と女性の服装に関する記述がされています。

そして最後に、「彼女は地に満ち、さりげなく歩いている。通りは湿っていて、反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている」と、彼女の振る舞いや動画が撮影されている背景の様子などが指示されています。

この指示に従って、約60秒の動画が生成されています。

Soraはテキストからの指示、つまりプロンプトから、このように自然な動画を最大60秒までの長さで生成することができるそうです。

中心に映っている人物だけでなく、背景の部分もリアルな動画になっています。

Soraを使って動画を生成できる日が待ち遠しいですね。

Soraで作成されたサンプル動画

こちらはマンモスが雪の上を歩いている10秒程度の動画です。

この動画もリアルですね。

それでは次に、もう1つ別のサンプル動画を見てみましょう。

こちらは宇宙飛行士の冒険を描いた映画の予告編というプロンプトで生成された動画です。

厳密には、このように人物や背景などの細かい指示も必要ですが、ポイントとなる映画の予告というキーワードに沿った動画になっています。

これらのサンプル動画は、概要欄に貼ってあるSoraの紹介ページで確認することができます。

このように横スクロールの画面を右側に移動させていくと、サンプル動画を確認することができます。

それぞれのサンプル動画の下には、その動画の生成に利用した指示テキスト、つまりプロンプトが記載されています。

これらのサンプル動画を見るだけでも、Soraの動画生成の技術に驚かされます。

Soraは、色々な人物や動き、細かい背景まで含めた複雑な場面を作ることができます。

さらに、動画生成のために指示したことが実際の世界でどのような動きになるかを理解した上で動画を生成します。

Soraの現在の状況

現在、Soraは安全やリスクをチェックする専門家たちに使ってもらっている段階のようです。

そして、この技術をクリエイティブな仕事にどう役立てられるか、アーティストやデザイナー、映画制作者たちからフィードバックを得ています。

さらに、それらの状況をこれからも私たちに共有してくれるそうです。

Soraの凄さ

そして次のページに先ほど説明したSoraは色々な人物や動き細かい背景まで含めた複雑な場面を作れることさらに動画生成のために指示したことが実際の世界でどのような動きになるかを理解した上で動画を生成していることの説明が載っています

そして次のページではSoraはプロンプトを正確に解釈していること指示への理解が深いからこそ指示に沿った感情豊かなキャラクターを作り出せますという説明が記載されています。

さらに、Soraはビデオ内でスタイルを持ちながら複数の場面を作成できるとも説明されています。

これはものすごい技術ですね。

それでもまだ完璧ではないようです。

Soraの改善点

現時点で、Soraは複雑な動きや原因と結果を正しく表現できないそうです。

例えば、クッキーをかじった後にかじった跡が残らないことがあったり、左と右を取り違えたりするそうです。

また、まだ自己対話の指示にはうまく答えられないようです。

このページにはこれらのSoraの苦手分野の結果、失敗してしまっている動画のサンプルも掲載されています。

この動画は、物理的にありえない動きになってしまっている失敗例です。

こちらは、動物の数が正確になっていない例です。

プロンプトでは5匹の灰色の狼と指示していますが、うまく生成されていません。

次の失敗例の動画は、ボールが突然不自然に出現しています。

このように、Soraにはまだまだ改善点があるようです。

それでも、こんなにリアルな動画がテキストから生成されるのは素晴らしいですね。

次に、Soraの製品化に向けての安全性に関する説明が記載されています。

Soraの製品化に向けての安全性

こちらには、Soraをみんなが使えるようにする前に安全を確保するためにいくつかのステップを踏む予定であることが記載されています。

今は、不正情報や不適切な内容に対応する専門家たちと一緒にこの技術を試験しているそうです。

そして、Soraが作った動画を見分けるツールも作っていて、もしもAIの製品でこの技術を使うことになったら、C2PAのメタデータと呼ばれる特別な情報を含める計画もあるそうです。

また、Soraを製品化する時には、現在DALL·Eに搭載されている不適切なリクエストのチェック機能なども含めるそうです。

このように、このセクションには、安全なAIを作るために実施している内容が記載されています。

Soraの技術に関する解説

そして、最後のセクションには、Soraの技術に関する解説が記載されています。

こちらは、より技術者向けの説明です。

簡単に述べた上で要約すると、Soraは最初にノイズの多いビデオから始めて、徐々にクリアなビデオに変える技術だということです。

この手法は、ステーブルディフュージョンで画像を生成するプロセスと同じです。

動画を新しく作ったり、長くしたりでき、画面から消えたものも同じように見えるようにする。

また、GPTのような高度な技術を使い、様々な形やサイズのビデオをより柔軟に作ることができます。

Soraは、以前のDALL·EやGPTの研究を活用しています。

これらの研究は、特に動画をより正確に作るために、詳細な説明を加える技術に使っています。

また、写真から動画を作ることも、動画を改良することも可能です。

これは、実世界をシミュレートする技術の基礎となり、将来的に重要な進歩につながります。

このように、このセクションには、Soraの技術に関する詳細が掲載されています。

なお、この動画の解説はざっくりと理解してもらうために強引に述べた上で要約しています。

例えば、「海にいる生物は全部魚だと思ってください」というぐらい強引なものです。

そのため、正確に理解したい方は画像の原文をご確認ください。

今回の解説は以上です。

 

【悪用厳禁】AIツールを使ってDeepFake(ディープフェイク)画像生成するノウハウを大公開!
【驚異の10万字越え!】AI美女を作成するためのノウハウを大公開