ChatGPTとKlingAIでAI動画を作る方法｜初心者が実践した制作手順

AI動画を作ってみたいと思っても、

「何から始めればいいのか分からない」
「ChatGPTとKlingAIをどう使い分ければいいのか分からない」
「画像から動画を作っても、動きが不自然になってしまう」

と感じる人も多いと思います。

私も最初は、ChatGPTで画像を作ってKlingAIに読み込ませれば、すぐに思い通りの動画が作れると思っていました。

しかし実際にやってみると、テーマ決め、工程の確認、シーン構成、参考画像の準備、画像作成、動きの指定、動画編集まで、順番に考える必要がありました。

特に、長い動画を一度に作ろうとしたり、1つのシーンに動きを詰め込みすぎたりすると、人物や背景が変わってしまったり、動きが不自然になったりすることもありました。

この記事では、AI動画初心者の私が、ChatGPTとKlingAIを使って動画を作った流れを紹介します。

今回は、ファンタジー世界でドワーフが刀を作る動画を例にしていますが、アクセサリー作りや料理動画、動物の変身動画などにも応用できる流れです。

ChatGPTとKlingAIの役割
ChatGPTとKlingAIでAI動画を作る8つの手順
ステップ1｜動画のテーマを考える
ステップ2｜実際の作り方を調べて、動画にするシーンを考える
1. 実際に感じたこと
ステップ3｜ChatGPTで動画全体の構成を作る
1. 実際に感じたこと
ステップ4｜参考画像をアップロードし、画像生成用プロンプトを作る
ステップ5｜ChatGPTで開始画像と終了画像を作る
1. 実際に感じたこと
ステップ6｜ChatGPTでKlingAI用の動きプロンプトを作る
ステップ7｜KlingAIで画像から動画を作る
ステップ8｜CapCutで動画をつなげて1本にする
1. 実際に感じたこと
初心者がChatGPTとKlingAIでAI動画を作るときのコツ
まとめ｜ChatGPTとKlingAIを組み合わせれば初心者でもAI動画は作れる

ChatGPTとKlingAIの役割

まず、私が使った2つのAIの役割を簡単に整理します。

ChatGPTは、動画を直接完成させるためというより、動画制作の準備や設計を進めるために使いました。

具体的には、テーマのアイデア出し、実際の作り方の確認、動画構成の作成、画像生成用プロンプトの作成、KlingAI用の動きプロンプト作成などです。

一方でKlingAIは、作成した画像に動きをつけて、短い動画を生成するために使いました。

私の場合は、長い動画を一度に作るのではなく、数秒ごとの短いシーンに分けて生成し、最後にCapCutでつなげる形にしました。

この方が、失敗した部分だけを修正しやすく、人物や背景の統一感も確認しやすかったです。

ChatGPTとKlingAIでAI動画を作る8つの手順

ここからは、実際に私が行ったAI動画制作の流れを、順番に紹介します。

テーマを考える
実際の作り方を調べて、動画にするシーンを考える
ChatGPTで動画全体の構成を作る
参考画像をアップロードし、画像生成用プロンプトを作る
開始画像と終了画像を作る
ChatGPTでKlingAI用の動きプロンプトを作る
KlingAIで画像から動画を作る
CapCutで動画をつなげて1本にする

ステップ1｜動画のテーマを考える

最初に、どんな動画を作るのかテーマを決めます。

今回私が選んだテーマは、

ファンタジー世界で、山奥に住む老ドワーフが伝説の刀を作る動画

です。

AI動画では、最初から複雑すぎるテーマを選ぶと、思った以上に難しくなります。

たとえば、登場人物が多い動画、場面転換が多い動画、複数の作業を同時に見せる動画などは、人物や背景が途中で変わったり、意図しない動きになったりしやすいと感じました。

そのため、初心者のうちは以下のようなテーマがおすすめです。

ボールが動物に変形する動画
素材が光ってアクセサリーになる動画
職人がハンマーで金属を叩く動画
炎の中から武器が現れる動画
魔法で物の色が変わる動画

私も最初は、刀作りの工程を最初から最後まで細かく見せようとしました。

しかし、工程を増やすほどシーン数も増え、画像作成や動画生成、修正に時間がかかりました。

最初は短くて変化が分かりやすい題材から始めた方が、AI動画作りの流れをつかみやすいと思います。

ステップ2｜実際の作り方を調べて、動画にするシーンを考える

テーマを決めたら、次に完成品がどのように作られるのかを調べます。

私の場合は刀作りの動画を作りたかったため、実際の鍛冶や刀作りの工程を調べました。

調べると、素材を熱する、赤くなった金属を取り出す、ハンマーで叩く、形を整える、磨く、冷やすといった工程があることが分かりました。

ただし、ここで重要なのは、実際の工程をすべて動画に入れようとしないことです。

AI動画では、工程を多く詰め込みすぎると、動画全体が長くなったり、シーン同士がつながりにくくなったりします。

そのため私は、「実際の工程」と「映像として見せたい場面」を分けて考えました。

たとえば刀作り動画では、以下のようなシーンを選びました。

暗い工房の中で、ドワーフが炉の前に立つ
素材を炉に入れる
赤熱した金属を取り出す
金床の上でハンマーを振り下ろす
刀身を磨く
完成した刀を見せる

こうして見ると、実際の工程を完全に再現しているわけではありません。

それでも、「刀が作られている」と感じられる印象的な場面を選ぶことで、短い動画でも世界観を伝えやすくなりました。

実際に感じたこと

最初は、工程を多く入れた方が本格的な動画になると思っていました。

しかし、シーン数が増えるほど、主人公の見た目や背景の雰囲気をそろえる難しさも増えました。

動画として見栄えがする工程を選び、思い切って省略することも大切だと感じました。

ステップ3｜ChatGPTで動画全体の構成を作る

動画に入れたいシーンが決まったら、ChatGPTに動画全体の構成を作ってもらいます。

以下のように相談しながら作っていきましょう。

こういうテーマでAI動画作成したいんだけど、構成作るのに必要な情報ある？

構成を作るときは、テーマだけを伝えるよりも、以下のような情報を一緒に伝えた方が、イメージに近い提案が出やすかったです。

動画のテーマ
完成品
主人公の設定
舞台の設定
入れたい工程
動画全体の長さ
各シーンの秒数
テロップやBGMを入れるかどうか
動画で見せたい雰囲気

私の場合は、山奥の古い鍛冶工房で、白髪の老ドワーフが静かに刀を作る世界観にしました。

構成例としては、以下のような流れです。

工房とドワーフを見せる
素材を炉に入れる
赤熱した金属を取り出す
ハンマーで金属を叩く
刀身を磨く
完成した刀を見せる

ここで意識したのが、「1シーン1アクション」です。

たとえば、「炉から金属を取り出す」「金床まで運ぶ」「ハンマーで叩く」という3つの動きを1つのシーンに入れると、AI動画では不自然になりやすいです。

そのため、

シーン1：炉から金属を取り出す
シーン2：金床に置く
シーン3：ハンマーで叩く

というように、1シーンで見せる動きを1つに絞るようにしました。

実際に感じたこと

最初は長い動画を一度に作ろうとしていました。

しかし、途中で人物の位置が変わったり、意図していない動作が入ったりして、修正が難しかったです。

短いシーンに分けて、1つの動きを確実に見せる方が、結果的に完成度を上げやすいと感じました。

ステップ4｜参考画像をアップロードし、画像生成用プロンプトを作る

動画構成が決まったら、ChatGPTに参考画像をアップロードします。

私の場合は、以下のような参考画像を用意しました。

主人公であるドワーフの見た目
山奥の鍛冶工房の雰囲気
完成品である刀のデザイン
素材の見た目

文章だけで「白髪の老ドワーフ」「古い鍛冶工房」「青白い光を持つ刀」と指定することもできます。

ただ、参考画像を使った方が、主人公の雰囲気や服装、工房の色味、完成品の形などをそろえやすいと感じました。

特に、複数シーンの動画を作る場合は、主人公や背景が毎回大きく変わらないようにすることが重要です。

参考画像をアップロードしたうえで、ChatGPTに各シーンの開始画像と終了画像を作るためのプロンプトを考えてもらいました。

画像生成用プロンプトでは、主に以下の内容を指定しました。

主人公の髪色、服装、体格
工房の雰囲気
炉の光や背景の暗さ
カメラアングル
動作の直前または直後の状態
火花や蒸気などの演出
次のシーンにつながる構図

たとえば、ハンマーで叩くシーンでは、開始画像を「ドワーフがハンマーを振り上げた状態」、終了画像を「ハンマーを振り下ろし、火花が散った状態」にするように考えました。

こうして前後の状態を決めておくと、動画にしたときにどんな動きをさせたいのかが整理しやすくなります。

ステップ5｜ChatGPTで開始画像と終了画像を作る

プロンプトができたら、ChatGPTで開始画像と終了画像を作ります。

ここで大切なのは、画像1枚だけを見て満足しないことです。

画像単体では良く見えても、前後の画像を並べると、服装や背景、カメラの角度が大きく変わっていることがあります。

そのままKlingAIで動画にすると、シーンのつながりに違和感が出やすくなります。

私は開始画像と終了画像を作ったら、次の点を確認するようにしました。

主人公の髪色や服装はそろっているか
工房の背景や光の色は大きく変わっていないか
刀や素材の見た目は統一されているか
カメラの距離や向きが急に変わっていないか
次のシーンにつながりそうな構図になっているか

実際に感じたこと

主人公の見た目や工房の雰囲気を統一するには、参考画像を毎回使うことがかなり大切でした。

また、開始画像と終了画像を並べて確認するだけでも、動画生成前に直した方がよい部分が見つかりました。

この確認をせずに進めると、後から動画をつなげるときに苦労しやすいと思います。

【ここに開始画像・終了画像を並べたスクリーンショットを入れる】

ステップ6｜ChatGPTでKlingAI用の動きプロンプトを作る

開始画像と終了画像ができたら、KlingAIに入力する動き用プロンプトをChatGPTに作ってもらいます。

動き用プロンプトでは、主に以下の内容を指定します。

誰が動くか
どのような動作をするか
動きの速さ
カメラを動かすかどうか
火花や蒸気などの演出
動かしたくない部分

たとえば、ハンマーで金属を叩くシーンでは、以下のような内容になります。

ドワーフがハンマーをゆっくり振り下ろし、赤熱した金属を1回叩く。叩いた瞬間に小さな火花が散る。カメラは固定。主人公や背景のデザインは変えない。

大切なのは、動きを複雑にしすぎないことです。

最初は、細かく指定するほど理想の動画になると思っていました。

しかし、指示を増やしすぎると、関係ない部分まで動いたり、途中で不自然な動きになったりすることがありました。

そのため、1シーンでは「何を見せたいのか」を1つに絞るようにしました。

たとえば、

ハンマーを振り下ろす
素材を炉に入れる
刀身を磨く
完成した刀を持ち上げる

といったように、1シーンでやることを明確にします。

ステップ7｜KlingAIで画像から動画を作る

開始画像、終了画像、動きプロンプトがそろったら、KlingAIで画像から動画を作ります。

私の場合は、1つの長い動画を作るのではなく、数秒ごとの短い動画に分けて生成しました。

KlingAIでは、基本的に以下の流れで進めます。

開始画像をアップロードする
必要に応じて終了画像を設定する
動きプロンプトを入力する
数秒の動画を生成する
不自然な場合は画像やプロンプトを修正して再生成する

長い動画を一度に作ると、途中で人物の見た目が変わったり、背景が大きく変わったり、意図しない動きが入ったりすることがありました。

また、動画の後半だけを直したくても、最初から作り直す必要が出てきます。

短いシーンに分けて作れば、失敗した場面だけを修正できます。

生成回数は増えるかもしれませんが、最終的には管理しやすく、完成動画にもつなげやすいと感じました。

ステップ8｜CapCutで動画をつなげて1本にする

KlingAIで作った短い動画を、CapCutで順番につなげて1本の動画にします。

動画をつなげるときは、前のシーンの最後と、次のシーンの最初が自然につながるかを確認します。

ただし、前後のシーンを無理に直接つなげようとすると、不自然に見えることがありました。

たとえば、人物の立ち位置が変わっていたり、カメラの向きが急に変わったりすると、動画が飛んだように感じます。

そのような場合は、つなぎ用のシーンを入れるのがおすすめです。

私の場合は、以下のような場面をつなぎとして使いやすいと感じました。

炉の炎が揺れる場面
火花が散る場面
手元や金床のアップ
刀身のアップ
完成した刀を映す場面

こうした短いシーンを間に入れると、前後の映像が少し違っていても、違和感を減らしやすくなります。

実際に感じたこと

最初は、前の動画の直後に次の動画をそのまま並べていました。

しかし、人物の位置や構図が変わると、不自然に見えることがありました。

無理につなげようとするより、炎や火花、手元のアップなどを間に入れる方が、動画として自然に見えやすかったです。

初心者がChatGPTとKlingAIでAI動画を作るときのコツ

ここまで実際に作ってみて、初心者が意識した方がよいと感じたポイントをまとめます。

最初から複雑なテーマを選ばない

工程が多い動画や、登場人物が多い動画は難しくなりやすいです。

最初は、短くて変化が分かりやすい動画から始める方が、AI動画作りの流れを理解しやすいと思います。

1シーン1アクションを守る

1つのシーンで見せる動きを1つに絞ると、動画が不自然になりにくくなります。

「何をさせるか」よりも、「そのシーンで一番見せたい動きは何か」を考えるのがおすすめです。

参考画像を先にそろえる

主人公、背景、完成品、素材の参考画像を最初に準備しておくと、画像や動画の統一感を出しやすくなります。

特にシリーズ動画を作りたい場合は、参考画像があるかどうかで印象がかなり変わると感じました。

開始画像と終了画像を並べて確認する

動画生成前に、前後の画像が自然につながりそうかを確認すると、後から修正する手間を減らせます。

画像の段階で違和感がある場合は、動画にしても違和感が残りやすいです。

つながらないときは、つなぎ用シーンを作る

前後のシーンが自然につながらない場合は、無理に直接つなげない方がよいこともあります。

火花、炎、手元、完成品などの短いシーンを間に入れると、動画の流れを整えやすくなります。

まとめ｜ChatGPTとKlingAIを組み合わせれば初心者でもAI動画は作れる

ChatGPTとKlingAIを使ったAI動画制作は、以下の流れで進めました。

テーマを考える
実際の作り方を調べて、動画にするシーンを考える
ChatGPTで動画全体の構成を作る
参考画像をアップロードし、画像生成用プロンプトを作る
開始画像と終了画像を作る
ChatGPTでKlingAI用の動きプロンプトを作る
KlingAIで画像から動画を作る
CapCutで動画をつなげて1本にする

最初は、思った通りに動画が動かなかったり、前後のシーンが不自然につながったりして、何度も修正が必要でした。

それでも、動画を短いシーンに分けて、1シーン1アクションを意識することで、少しずつ完成形に近づけるようになりました。

AI動画は、最初から完璧な作品を作ろうとすると難しく感じるかもしれません。

まずは、短いシーンを1つ作るところから始めて、少しずつ自分なりの作り方を見つけていくのがおすすめです。