はじめに
今回は私が自ら作曲・MV制作した非商用のオリジナルMV「夜明け前」のメイキングについて紹介したいと思います。
VFXとして各種AI・テクノロジーを活用しておりますが、2024年時点における手法である点、ご留意くださいませ。
[STAFF LIST]
– music & video / HIROYUKI SHINODA
– lyrics & vocal / KEISUKE OYAMADA
– dance / KOKI HOSOI
| (1) 制作背景
突然ですが、拙書・私のエッセイ、『となりのアルゴリズム』(光文社、2022)からの一説を紹介したいとおもいます。
下記は私の後輩2人からの会話の引用です。
「31歳の目標はないのか」渡辺くんは小池くんに聞いた。
「そうだな。映像作品をつくることかな」
「それ去年も言っていなかったか」
「ああ、何もやらずに1年たってしまったのか。」
ええ、何を隠そう、上記は後輩たちの会話という体の私自身の心情です。(年齢は異なりますが)
私は学生時代は、有り余る時間をもとに手書きアニメーション、コマドリアニメーション、3DCGアニメーションなど様々な動画を作成していたものですが、
社会人になってからは毎年年始の目標に「映像制作」を掲げながら、忙しさを言い訳になかなか手を付けることができていないのでした。
(学生時代に制作したアニメーションからのキャプチャ)
そして2024年、年始にふと「映像を作りたい、いや、ミュージックビデオを作りたい」と思い立ちます。
ところが周りにミュージシャンの知り合い、作曲ができる知り合いはいません。
それならそれでということで自分自身でcubaseというDTMソフトの使い方を一から勉強して作曲し、その曲でミュージックビデオを作ることにしたのでした。
| (2) 使用ツール・撮影・編集
[作曲に用いた環境・ツール]
– DTMソフト:cubase
– PC:MacBook pro
音楽は幼少期にピアノを習っていた程度ですが、大変楽しく作曲作業を行うことができました。
今回、cubaseというDTMソフトを用いておりますが、すべてPCのクリックでの打ち込みをしており、
電子ピアノやシンセサイザー・サンプラーなどは用いておりません。
今後、継続的に趣味で作曲する気分になれば購入を検討しようと思っています。
さて、曲はできたものの、私は作詞やボーカルまではしたくありません。ミュージックビデオが作りたいのです。
そこで会社の後輩にお願いして作詞・ボーカルをしてもらい、さらに別の後輩にミュージックビデオ用にダンスをしてもらいました。
作詞・ボーカルおよびダンスができる後輩がたまたま近くにいるというのは環境に恵まれていると言わざるをえません。
いやなんなら作曲もできる後輩も探せばいたかもしれません。(作曲は楽しかったからよいのですが)
[映像制作に用いた環境・ツール]
– 撮影:sony α7c
– 編集ソフト:After Effects、premiere、Touch Designer
– PC:MacBook pro、windows(Alienware RTX3090)
| (3) シーンごとのキーテクノロジー
[scene.01] : Stable Diffusion + Touch Designer + Audio Reactive
オープニングはStable DiffusionとTouch DesignerによるAudio Reactiveです。
生成AIを用いて音楽(のボリューム)に合わせて画像を動的に生成しています。
今回は窓ガラスに滴る雨のしずくを音に合わせて変化させるイメージで制作しました。
ベースラインとなるフレームを狙い通りになるまでプロンプトを調整する作業に時間がかかりました。
[scene.02] : Stable Diffusion + Touch Designer + Audio Reactive + Text Motion(AE)
後輩にダンスしてもらったカットをグリーンバックで撮影しAfter Effectsで透過処理しています。
オープニングに続いて背景に傘を指した人が行き交う様子をAudio Reactiveしています。(オープニングよりも少し分かりづらいですが)
テキストモーションがしたかったカットなので、何度も文字の動かし方を作り直していろいろなパターンを試しました。
後輩には1曲通してアドリブで何パターンか踊ってもらい、編集の際にはカットごとに曲の小節とは違う小節のダンスを用いることも稀にありました。
[scene.03] : WHAM + Text Motion(AE)
カットは最初から順番に制作していったのではなく思いついたカットから前後していますが、このカットは最初期に制作したものとなります。
WHAMという単一視点からの動画をもとにモーションキャプチャのような任意視点の3Dモデルを生成できる技術を用いています。
私はデータサイエンティストという職能上、「このテクノロジー・手法を使ってみたい」というモチベーションからカットを着想することが多いです。
[scene.04] : Diffusion Autoencoder
表情変換系の技術は日進月歩のため様々な技術が出てきています。
ここでは、年齢/職業/髪型/表情などをパラメータで変更可能なDiffusion AutoEncoderを用いて
ブロックノイズを入れながら切り替わっていくカットを制作しました。
[scene.05] : Stable Diffusion + OpenPose + ControlNet
ダンスしている後輩の動画をもとにOpenPoseとControlNetを用いて少しレトロフューチャーな雰囲気のアンドロイドがダンスしている動画を制作しました。
色味や背景はイメージ通りに調整できたのですが、もとのダンスを活かしながらアンドロイドらしくすることに苦戦しました。
StableDiffusionを用いるにあたって今回の制作からautomatic1111ではなく、ComfyUIを用いています。
[scene.06] : Touch Designer + Point Cloud
このカットは技術選定や人物合成有り無し含め、様々なパターンを制作しました。
最終的なカットはmidjourneyで作成した魚眼レンズ風の部屋写真に対してTouch DesignerのPoint Cloudで3D的に散らしています。
少し悔いの残るカットで、もっと前後のつながりを感じられるストーリー性のあるカットにできたら、と見返して思います。
[scene.07] : Stable Diffusion + ControlNet
このシーンはアイデアとしてはシンプルで、手の動きに合わせて花の画像を生成しています。
ワンアイデアでさくっと決まるカットは楽です。序盤に制作しました。
[scene.08] : Object Motion (AE) + Stable Diffusion + ControlNet
サビカットはもともと無人の真夜中の電車の中でダンスするシーンでしたが、少しチープなモチーフな気がしたため中盤で変更しました。
本MVはいくつもの没カットがありますが、このカットは3つくらいの没カットをサンプリングすることで制作しており、
それゆえ、サビらしい情報量のカットにはなったと思います。
[scene.09] : 3D Layer (AE) + three.js
After Effectsの3D Layerでカットを複製して並べるだけでもよかったのですが、three.jsで波形を作ったものを合成しています。
このカットは完成を見据えながら制作したというより、レイヤーを重ねながら探っていきました。
[scene.10] : No Effect
今回は全編を通してAIをVFXとしてふんだんに使用していますので、1カットは何もエフェクトを使用しないものを作ろうと思いました。
とはいえ、”No Effect感”を強めるために、コントラスト調整や背景除去などは行っております。
| (4) おわりに
昨今AIの発展もあり、創作のハードルはこれまでと比較して非常に下がっているように思います。
ただし、私は創作する人(したい人)が爆発的に増加するとは思っていません。
一方で、例えば音楽家が小説を書いたり、料理人が映像を制作したり、
もともとなにかの創作をしていた人が垣根を超えて新たな創作を行うことは増えるのではないでしょうか。
私自身本業はデータサイエンティストですが、今後もマイペースに新しい創作にチャレンジしていくことができればと思う次第です。
さて、「夜明け前」は今後様々な場所・機会での上映を企画しております。
もし上映させていただける場がありましたらぜひお気軽にaboutページからお問い合わせくださいませ。