週末なので、少し遊びもかねてGoogle Colabで静止画の画像を機械学習で動かす・踊らせるという事を試してみました。
実際に作成た動画を紹介しておきます。トランプさんにラジオ体操第二をしていただきました。
DeepFake(ディープフェイク:ディープラーニング技術を活用して作成された合成メディア)という可能性もあるので、あまり悪用という事もよろしくないのですが、”技術的には”可能なんだな、もしくは現在の技術の進歩というすごいな、ということを改めて感じました。
試してみた理由
週の中ごろに以下のようなTweetを拝見して、お手軽にできるんだな、、という事で少し週末に勉強してみようと思った次第です。
詳細について
Liquid Warping GAN with Attentionという技術を使っていますが、”一枚の画像”と”もとになる動画”があれば、その画像のデータを動かす事ができるようです。例として挙がっている西郷さん踊っているし、凄すぎでしょ!というのが正直な感想で、そんなに簡単にできるならやってみようというのが動機という事になます。
技術的な側面
私はこのあたり詳しくないので、詳細は上記ブログなどにでている2020年11月に論文発表(https://arxiv.org/abs/2011.09055)などを見ていただくのが良いと思いますが、以前のような体感の骨格モデルから体の動きを作るのではなくSMPLと呼ばれる簡易3次元モデルを使用してのモデルのようです。
”自分の古い知識”的には以下のような関節の位置を想定して、、というものから全然進化してなかったので、現代の画像認識、学習内容、CPU(GPU)のスピードも含めて驚きの一言でした。
https://dspace.jaist.ac.jp/dspace/bitstream/10119/15832/5/paper.pdf準備したファイルと実際の操作
実は、今回はトランプさんの画像をアップロードさせていただきましたが、本当はゲームキャラクターのピクミンを自分の思い通りに動かしたいと思っていました。
自分が好きなゲームのキャラクターでもあり可愛いので、単純に思い通りに動かしてみたいなと思っていました。
教師データとか学習用データという表現になるかと思いますが、参考にさせる動画についてはYouTubeで”ラジオ体操第二”で検索して、その中の20秒程度を切り出して利用させていただきました。
実際に準備したものは上記”ピクミンの画像”と”ラジオ体操第二の動画(20秒)”の2つになります。
”ピクミンの画像”を a.png とし、
”ラジオ体操第二の動画(20秒)”を b.mp4
とした場合、その二つの動画をアップロードしたのち、以下のコマンドで既存の物を置き換えて実行させればよいという事になります。
!cp /content/a.png /content/iPERCore/assets/samples/sources/donald_trump_2/00000.PNG
!cp /content/b.mp4 /content/iPERCore/assets/samples/references/akun_1.mp4
できたこと・できなかったこと
結果から言いますと、ピクミンの画像では作りたかった動画は作成できませんでした。理由は、ピクミンがアニメキャラ的に”体に対して頭があまりに大きい”状態なので、使用している人の形状として認識する重みなどの学習ライブラリがピグミンを正しく”人間”として認識しなかったものと思われます。
次の案として、同じくピクミンブルームで使用しているアバターで同じように画像を差し替えて行ったのですが、これもピクミン同様、頭の比率が大きすぎるようで、正しく動画を作成することができませんでした。
もう少し、このデモの内容、簡易3次元モデル作成に詳しければいろいろ修正やパラメータ値の入力などできるのかもしれませんが、残念ながら私はそこまで詳しくないので、”一枚の画像”についてはデモ用に準備されていたトランプさんの画像で、参考にする動画を自分が準備した”ラジオ体操第二の動画”という事にしました。
実はTVアニメ『SPY×FAMILY』のロイド・フォージャー(Loid Forger)やTVアニメ『呪術廻戦』五条悟、ガンダムでもちょっと作ったりもしました。最初の画像さえちゃんと準備できればある程度結構綺麗に動きます。
より、正面を向いている方が良いという事や、ズボンの黒いところや手が胴体と離れている方が綺麗に動くという知見を得ました。
これも手が胴体と離れている画像があれば、その方が良いです。胸の前で組んだ手が、服の柄として認識されてしまいました。
また、最近ではVTuberをリアルタイムで合成できたりという事もありますので、ますます進化していくのだな、、と思った次第です。
バーチャルYouTuber:Wiki
今すぐVTuberになれる! お手軽ツール37選を徹底紹介
VTuber「にじさんじ」が上場、時価総額1600億円に達したワケ
記事中にもありますが、コロナ禍でのリアルイベントの自粛の中、「バーチャルYoutuber」の検索ボリュームは「欅坂46」を上回っており、その差は徐々に広がっているそうです。
ANYCOLORの上場といい、非常に注目されている業態、成長している分野なのだと思いました。
壱百満天原(ひゃくまんてんばら)サロメ氏が、デビューから14日で100万登録を達成
らしいですわ。。コメントも含め、中毒性の高い「ですわ」の魔力ですわ。。文字だけ見ると、関西のおっさん言葉にしか見えませんわ。(自動変換)
技術面ではあまり目新しいコメントなどできませんが、Google Colaboratoryで簡単に動かせるようになっていますので、興味ある方はShift+Enterで動かしてみるといいかもしれません。
のサイトの「Open in Colab」からGoogleアカウントをお持ちであれば実行できると思います。
参考にさせていただいたブログ
以下のサイトなどを参考にさせていただきました。
—
Pythonに関する記事をご紹介します。
コメント