生成AIでどこまでいけるのか研究
高品質の入力データを用いれば、それなりの結果が得られるようになった。
(利用データが版権物の為公開はできないが)
アニメーションにおける破綻のし難さは、もしかするとプロンプトが少ない方が良い可能性があるかもしれない。
一般的に見受けられるAI解説では、プロンプトを盛れば盛るほど正確になって行くとされているが
入力データに変化があると破綻する傾向が出てくる。
推測になるがこれはプロンプトによるノイズ量が増える為だろう。
検索エンジンやレコメンドシステムには、キーワードとなる文字と関連する単語に対し
重み(数値)を付けて行くアルゴリズムがある。
(複数の単語に近い関係を表す数値を載せる)
これと同じように、AIがプロンプトキーワードに関連している、
別のキーワードに重みを持たせている場合
プロンプトを盛るほど、関連を持たせているが関係が無いキーワードによるノイズが混ざっていくと考えられるからだ。
モノクロから変換を行い、後から色を付ければ色合いが安定するのではないか等、試していた。
勿論失敗ケースばかりが溜まって行く(仕方が無い)
概ね3D化できるもののアニメ塗が強いものは3D化できないらしい。
というよりもこれはAI全般の話なのだろう。
モデルが学習しているデータにどれだけ理解しやすいインプットデータを用意できるかが使いこなすのに必要なのだと思う。
テキストベースの生成で一見高品質になるのは、学習情報が数単語に圧縮されている為と考えれば理解も容易だ。
人間同士でさえ完全な指示を言葉で伝えるのは難しく
概要に補足説明、図面まで用意してどうにかやっとアウトプットに対する理解が深まるのだから。
AIにとっての要件定義はプロンプトに入力データなのでその点では同じような事なのかもしれない。
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
こちらのデモサイトでいくつか使用してみましたが、これはまたえらいもんが出てまいりました。
これも勿論一発生成ではなく2段3段とAIを通しているのだが
中間出力らの画像に対しての手直しを一切行っていないのがポイントである
安定してきたように思えるので、別角度からも試してみよう。
きっと、また上手く行かない沼が待っているはずだ!
→
コマに対してAnimateDiff(AI)を中間で噛ますようにしたら色合いも含め違和感が殆ど無くなったように見える。
(これは修正なしでの出力)
右側の方に髪の毛のチラつきがあるが、
これは現存のキーフレーム自体に髪の毛の欠けが存在しているので
髪の毛のコマへ厳密な出力(件のパーツの出力強化)
もしくは手作業でその一部コマの修正を行えば恐らく実用水準になるような気がする。
いや、もう既になってきているような気もしなくもない。
…事もない事もないのかもしれない(沼への入り口)
→
撮り直し。
良くなった
パラパラ漫画方式の入力をいざ検証。
今回はVRoidを使い、手っ取り早く元となる3Dオブジェクトを用意した。
そして若干上からの視点で歩行をアニメを作った。
こんな具合に変換済みと変換元を組み合わせてAIに食わせる。
入力される画像の色に引っ張られるのでは無いかという発想だ。
変換前変換後
余計なライティングによるチラつきはあるものの
ベースカラーが吹っ飛ぶようなダイナミックな色変化は殆ど発生していないようでかなり良さそうに思える。
髪のハイライト等、チラつきが激しい所は
以前やったガイドデータ入力をすれば恐らく解決できるだろう。
しかし若干上からの視点にしてしまったのが少し失敗だ。
これではAIによる美少女補正がどのくらい効いているのかがわかり難い。
元はブリブリの3D少女(?)であり、あちこちアンバランスさが際立つ謎の谷の住人であるからだ!
まぁミニキャラを動かすなら
実験初期のやり方と組み合わせるだけでも十分かもしれないが。
正面で取り直し(実際の解像度はもっと大きい)
とりあえずこんな感じになりました。
(※見直してみたらこれは上から見た時のプロンプトで実行しているので正しくは無い)
正面プロンプトでの適用(色もブラウンベースにしています)
残念ながら緩やかに色が変化していくという…結果に(笑)
少し前に、スプライトシートによる生成法を試していた。
色破綻が少なくなる傾向と引き換えに、細部のクオリティが劣化するトレードオフであったが
ローテクながら新しい方法思いついた。
ノートの切れ端に書くような、
パラパラ漫画方式で入力してみたらどうだろうか?
アカデミックな所では、AI自体がそうなるように一時記憶をしておく手法があるかもしれないが
もっと単純に(*をAI生成済みデータとして)
[*1,2]→[*2,3]→[*3,4]と参考データ自体も次の入力情報として扱ってしまえば
例によって色破綻の傾向を抑え、解像度クオリティも上がるかもしれない。
これならばプログラムに若干の工夫を加えるだけでバッチ化も可能なはずである。
今回はプログラム領域における現行の生成AIを調べてみました。
こちらの動画が解りやすく対話型(プロンプト)でアプリケーションを完成させようとするものです。
https://www.youtube.com/watch?v=tRgpuON_CsI
動画の通り、都度エラー箇所を指摘し正しい動作へと導いていく必要があります。
根気があれば完成させることもできるようですが、
この生成AIによって生成されたプログラムを元に、人の手によって保守・拡張することはまだまだ難しく
生成されたプログラムのデバッグは、
AIを使用しなかったプログラム以上に解析に時間が掛かるのが現状のようです。
現行のプログラム分野における生成AIも
そのまま使う事は難しいが、アイデアの元になるものは生成できるので
道具としてのAI活用の分野では、検討の余地はあると考える事も出来るでしょう。
--------------
生成AIプロジェクト、3分の1が2025年までに中止か--ガートナー予測
https://japan.zdnet.com/article/35223490/
2025年末までに生成AIプロジェクトの少なくとも30%が概念実証の段階を経て中止されるとしている
例えば、一般公開されているモデルを利用する生成AIのAPIを用いてコーディングを支援するといった低コストのプロジェクトでさえ、
10万〜20万ドル(約1500万〜3000万円)の初期投資と、ユーザー1人あたり年間最大550ドル(約8万円)の追加コストが必要になると、Gartnerは見積もっている。
--------------
なんとなく理解できますね。
この1年強それなりに触っていましたが、欲しい成果に辿り着くまでの道がとにかく長かったですし
これが企業として人を雇うとなると成果が出ない時間が長い上に、上位の機材は値段も恐ろしい程高いのでおいそれと導入・参入するのは難しいと…。
しかし現行の生成AIも、要所で有用であるのは感じているので
そういった部分での導入に落ち着いていくような感じはします。
(漫画やアニメでも3Dモデルの融合が当たり前になりましたし)
生成AIはどこまでいけるのか
3D学習手法から紆余曲折があった。
3Dモデルを描画した画像を学習させ、Loraモデルにした結果は
逆に3Dに寄ってしまうというジレンマに陥る結果になった。
Lora学習自体はキャラクターの特徴をAIが学ぶ為、同一の服装化も起こしやすく細かい所で積極的に利用して行きたい所だが。
(Lora学習用環境の用意等にも時間が掛かってしまっていた)
よって、3D絵学習法はお蔵入りした。
現在は破綻部位に対して、ガイド用データを徹底的に渡す方法を実験中。
これもかなり頑張った方なのだが元のモーションデータが悪く、ポリゴン突き抜けによる破綻が多いためこれで破棄する。
仕方が無いのでこれまでに何度も登場している歩行モーションに頑張っていただくとする。
さて、どのくらい実験したかわからないくらい実験したところ
概ね上手く行く方法を見つけることができた…と、思う
それは元となる3Dモデルの出力に強めのエッジ(アウトライン)を掛けておくと破綻しにくくなるというものだ。
考えてみればアニメ絵は大体アウトラインがあり、部位の境目はクッキリハッキリしているか…。
その他、過去の画像が示す通り元にしている画像の配色も悪さをしていたように思う。
色白なのは結構なのだが、この袖の色と手肌の色が白色で近く
近似色が故に境目がわからなくなるのか、色が近い箇所での破綻が数多く発生していた。
よって新手法を考案
エッジを立て、破綻しやすい箇所も別パーツとして切り出し、それらをガイドデータとして徹底的にAIに投げる。
するとどうだろう
左.元データ
中.配色を濃くし、エッジを立てる
右.AI出力
大きな破綻も少なく、イラストアニメーションっぽくなったような気がしないだろうか
実際ゲームで使うならさらに縮小されるので、破綻箇所は殆ど感じられなくなるのではないだろうか?
結局切り出す手間は掛かるので、これが良いのか悪いのかまではわからない。
わかったことは入力するデータ自体の調整に、AIプロンプトにパラメーターが多数と
AIは底なし沼であるという事だけである。
酒を飲んでいたら閃いた。(忘備録)
今までは3Dモデルのデータ元に2Dに落とし込む処理を頑張って実現しようとしていたが、もしかしたら逆なのかもしれない。
AIに3Dデータを描かせようとすれば、結果的にノイズによって2Dになるのかも。
実際、人が3D絵を描こうとしても描けるものではないですからね…。
ぐいぐい(酒を飲む音)
とりあえずAIモーションについては保留です。
現実として質の高いフリーモーションがネット上に大量に存在し、言ってしまえばそれらを学習したものだろうから…。
これまでの画像生成についてはまだまだ詰めていく余地があったりする。
シナリオ生成も触って見たものの、今のところ何らかの作品を作るつもりが無く活用に至らず。
ゆるゆると生成の精度を上げて行くことにするとしよう。
人物のみならずクリーチャー系の生成やアニメーションなど、まだまだ研究題材は有るのです。
君にとってのソードとは最後に浮くことを意味するのかね。
うん、まぁそういった動きを直接文章で生成するのは難しいような気はしていたよ!
…ところで君も一体何をしているんだい?
モーション生成の為のプロンプト(呪文)もまた、望む形で出力するには研究する必要があるようです…。
ささやき − いのり − えいしょう − ねんじろ!
謎の直立ジャンプが生成されました。
(最後2歩引くのも謎w)
融合研の冒険はまだ始まったばかりだ!(完)
それなりに満足したのでイラスト化はこれにて一旦終了。
元々はAIモーションの実験だったので脱線してしまっている!
色数を減らすテスト
元
643216
32色が一番良さそうに見える
16色は破綻しておる。
新しい方法を思いついたので試す。
これは3D出力そのままの物(前述の修正は入れていない)
あたらしい変換パターンのテスト(服や手足、顔を分離して描かせてみる実験)
(新)
AIは沼であり時間泥棒だ。
わからんわからん。
(新)パーツごとに拡散率を変えることで致命的な破綻を抑える
(旧はカクッとした動きの際にアゴ回りが破綻している)
先の画像まで行けたら、仕上がりは秒読みかと思われたが
これが意外と苦戦する。
なぜならインプット画像に近づける設定にする程に破綻する傾向が見られた為だ。(本来は逆)
恐らくこれは、いびつなモーションよりも3D特有の突き抜け描写が原因だろう。
入力に忠実に表現しようとするほど、突き抜けで発生したポリゴンの意味が解釈不明になるということだろう…。
突き抜け部分を手動で修正すれば、恐らく望ましい結果に近づいていくはずだ。
(学習イラストにはこんな袖は無いので破綻した物になる)
ほか前髪で目が隠れているケースも、同じように破綻が見られた。
別のレタッチロジックを考えてみるとしよう。
適当に文章からモーションを出力して…
(最初と最後に浮くのは何だw)
MMDで読み込み
そのままインポートしても見ての通り結構酷い状態なので、浮いていたり、ふらついている部分の不要なキーを削除する。
試しにこのデータからアニメーションを描かしてみたが
ふらつく姿勢もインプットされてしまい、結局ふらつく歩行アニメが出来てしまった。
3Dの姿勢データに合わせた結果なのである意味正しいのだが、なかなか上手く行かないものだ。
3D側のデータを調整する方向が正解だろうか?
引き続き、MMDで調整し(とりあえず不要キーの削除のみ)
これを自作の謎ツールでスプライト化する
完成したスプライトシ−ト
モデルサイズの違いで若干の差異があるようだが、とりあえず目をつぶる
そして画像生成AIにデータをぶんなげてレタッチする…
上手く行っているようにみえて行っていない。
…まぁそういうもんでしょう。
こうなるとAIの3Dモーションのせいなのか、生成画像側のせいなのか、わからなくなってくる。
同じデータで別の方法で再検証
入力に近い形に優先するパラメーターでの出力のケースでは
画質はやたら荒くなってしまったが、ふらつき含めてマイルドに調整されたか…?
一応流れとしては成功と言っても良いのかもしれないが…
さてどうしたものか。
諸々導入。
まずは一つ目のポイントへ到達した。
ローカルで動作させるためのpythonの環境設定が地味に面倒で、
バージョンの違によってエラーも吐かないが動かない、という原因を追求しにくい症状には特に悩まされた。
最終的にはanacondaを導入し、バージョン管理を丸投げすることにしてようやく達成できたが
本当にAI絡みは恐ろしいほどのストレージ容量を要求されてしまう。
動作できたので適当なサンプルを出力し、MMDへ読み込ませてみた。
やはりというか、AIらしく、それっぽくはあるが、そのままでは使えないような感じのものが生成された。
同じデータだがモデルを割り当てると、その奇妙さを特に感じる事ができる。
…が、ここまでは想定内。
これを画像生成AIの元データとして利用するのが次のステップだからである。
画像生成のインプットには、元々厳密な物が必要ではない為(そして曖昧なものが出力されるw)
これを2Dデータとして使用し、過去の実験のようなそれらしいアニメーションスクリプトが生成できるようになれば成功といえるだろう。
しかし文章からモーションデータを生成することができるだけでも凄い事です。
(そしてこれらが2年前の物だというのにも驚き)
賢い人達は沢山居るもので
思い付きで調べてみたら、やっぱりありましたね。
---------------------------------
OpenPoseのMMDモデル
https://aitool.ai/model/28916
https://civitai.com/models/108114/open-pose-pmx-model-for-mmd-fixed
動画からMMDモーションの抽出
https://qiita.com/miu200521358/items/d50fa3fb3a409d421b35
https://vocafro.hatenablog.com/entry/2019/02/24/211159
文章でMMDの“モーション”を作れるAIツール
https://originalnews.nico/395655
---------------------------------
これらを全て組み合わせてしまえば
ここで研究した生成手法はMMDを経由すれば大体まかなえてしまうかもしれませんね。
いずれ実験してみようと思います
融合研1/2…
融合研なやつら…
(力尽き&供養)
このpinkyちゃんは電気を発する事はできませんが、下記のピカチュウネタは意外と好きです。
https://w.atwiki.jp/aniwotawiki/pages/46378.html
※電気工事士(でんきこうじし)は、日本の国家資格(免許)の一つ。または、その資格を持つ技術者のことを指す。
人外パーツは扱いが難しかった。
単体での出力は概ね画像の通りに変換されるが
所謂、AIの手が苦手現象が人外パーツにも発生する。
そして、肌の違いの色についても同様で、これも単体出力では画像の通り大体上手く行くが
アニメーションとして出力させようとした場合にはどうしても色がロストした。
まぁ、開き直ってペイントツールの色相変換によってどうにかしたが
AIも学習していない事については出来ないので、そういったケースには
やはり人による応用方が介在しなければならないようだ。
尻尾パーツは後付けのハリボテ合成なので、凄腕ドッターのようにはウネウネとしならせる事は出来ない。
これも当然AIによる出力も難しい事だろうと思う。
(そもそも尻尾が正しく出力されず、大体が犬猫型に寄ってしまう)
---------
生成までの道のりはそれなりに長く
ベースとなる3Dモデル出力画像に直接ペイントで魔改造を施す
3Dモデルそのものを改変すればその必要はないが、実験の為上手く行く保証も無ければ
モデル改造も手間なので強引な手法で押し通す(笑)
AIに食わせるポーズデータを作成する。これは完全な人力。
何故ならAIによる抽出では全然上手く行かない為。
主に足の交差データが取れない為で、明示的に右足・左足の区別が無い場合
右足と左足の前後が不規則に描画されてしまい、これが致命的なアニメーションとなってしまう。
(手前に来る足が定まらずランダムになる)
そしてエッジの抽出。
これで下準備が完了する。
これまででも、トライアンドエラーの回数も多くそれなりの作業量になるので
正直描ける人ならとっとと描いてしまった方が早い気もしてくる。
パラメーターを調整しての出力、調整を経て前文の成果物へ進んでいく。
このあたりの調整時間も考えると、animatedな一枚絵出力からのSpineが一番合理的かもしれない。
(pinkyちゃんのパターン)
まったくもって簡単には行かないが、可能性は感じる。
そんなラインにあるのが生成AIだとは感じます。
背景オブジェクトの生成テスト
まずは"a wood"とか適当な構文でガチャ出力する
良さげな感じの出力が出たが、全体では無いので
画像加工ソフトで欲しい部分を適当に描き足し、再度AIに投げる
中々良さげになったので…
適当に色調整や透過抜き
ここまでで大体20〜30分
一発目の実験にしてはそこそこの結果が得られたように思える
恐らくこれを繰り返して精度を上げて行けば大体の物が作れそう。
MSがChatGPTを組み込んだプログラミングソフトを発表、誰でもアプリ開発が可能に
ttp://blog.livedoor.jp/itsoku/archives/60303283.html
※駄文です
一応生成AIでの画像出力と加工を触ってきた感覚から、AIプログラミングも似た感じになって行くのかなと想像。
綺麗な一枚絵の出力は誰でも簡単に上手く行くが、統一された連続的な出力が苦手であったように
AIによるプログラミングもまた学習されている動作の構築は早いが、細かい部分の制御が恐らく課題になり
AIアニメーションで感じたような問題が同様に含まれていくと予想。
例えば、RPGで言うなら戦闘パート・移動パート・装備パート等
内部的には全て繋がっているはずのものが異なる機能同士で完結してしまい
実は繋がっていない等、融合部分に破綻が含まれて行くのでは無いかと思う。
これはまぁ、生成画像AIでも調整プロンプトを大量に入れて制御するなり
何段階かに分解して出力して使える部分を組み込めむなりすれば良いので
いずれにしても、高速な構築の足がかりになるでしょう。(触っていないのであくまで推測ですが)
しかし、生成画像では出力された画像を直接加工する事で精度を上げられますが(絵に精通する必要がある)
これがプログラムを出力するのであれば、プログラムを直接加工していく必要があり
その知識が求められる為、敷居が高くなります。
そうなると言語出力よりも
ブループリントやCFのような形のほうが間口は広く生産性が高い為
理想的にはCFのエクステンションのようなモジュール化した物をAI出力できるようになれば
アプリケーション開発もまたアイデア部分に注力することができるようになりそうですが…
まぁ例えこれが言語出力であったとしてもモジュールとしてエクステンション化すれば融合が可能なので
それはそれで活用していく事はできそうですね。
つぎはマップチップとかの出力についても研究してみよう…
まだ途中ではあるものの以前のLive2D化に比べると、これまでの処理で相当楽になったように感じます。
LayerDividerについても、素材というよりも範囲選択用のマスクとして機能させることによりこれはこれで融合していると言えますね…。
うーん、LayerDividerは分けられたパーツのエッジを立たせてしまっていて
そのまま使うには少し困ったことになってしまうようだ…。
(メモ&自分用忘備録)
話は変わりますがVRoidというアバター生成ツールを使えば
案外アニメーション元にする3Dのベースデータは作りやすいのかもしれません。(とはいえまだ未調査ですが)
ttps://hub.vroid.com/characters/4360437289416622387/models/568471957004588181
ttps://note.com/fukitanuki/n/ne3b96b416fce
今のところAIによるアニメーション書き出しの問題点は服装です。
少し下にある横ステップピンキーちゃんの帯がそうですが
書き出しに使用したモデルデータにはこれの元になるデータが無い為、全てがAIによって新規に書き出されているのでチラつきの原因になってしまっています。
(Live2DやSpine化すればこの問題点は解決されるが)
では3Dモデルを楽に用意できるのかというのが課題でしたが
こういった設定で3Dモデルを書き出せるようなツールを利用できれば、さらなる融合力のアップに期待できるかもしれません。
3Dモデル→AIイラスト化→ゲーム用素材
前回の物で既に、かなり楽になっていると言えますが
楽をする為の苦労は厭わないという事で、LayerDividerというAIのエクステンションを利用してパーツ切り分けもAIにお願いする。
あとは出力をを重ね合わせ、おかしい所を微調整していけば…。
次期転生用skeltal animateなpinkyちゃんを進めつつありますが
各パーツをもっと効率良く切り出す方法は無いだろうかと思案中…
(だいぶ原作絵に近づいたと思う)
なんだかんだと生成AIも半年くらい弄ってきていますが、
ある一定のパラメーター調整方向を理解してから一気に安定した感じがします。
それまではAIの仕組みへの理解が追い付かず出力結果が運任せな所がありましたが
非常に地味ではありますが1つ1つのパラメーターを少しづつ変化させ、
どのような変化が在るのか、その結果を見比べるような事をやり続けた結果(時間泥棒)
どう弄れば安定した出力になるのかの想像がある程度働くようになってきました…。
※融合研では綺麗な1枚絵より連続したアニメーションに適用できるような生成を研究しています。
よく考えたらSpineのextensionを販売しているのでSpineを贔屓しなければなりませんね
まずはネットより拾ってきた参考となるLive2D完成図。
(著作物の為モザイク処理を施しています)
これは所謂人体パーツも含め全てバラバラに展開された図ですが
残念ながらAIにはバラバラにされた画像を学習した専用データでも無い限り、この出力を行うことはまず不可能です。
無理にでも出力するならば見たくもないような猟奇的な画像が出力されてしまうことでしょう。(出力されました)
ではどうするか。
Live2Dのインポート機能には、レイヤー分けされている画像を
それぞれのパーツとして取り込む機能が備わっていますが、ここを着想の基点として考えてみます。
レイヤー分けという根底の理屈はアニメーションの構造と同じであるからです。
今回の実験では今までのアニメーション生成実験の応用として
あえて同一のポーズで同一の出力を行い、アニメーションとしての服装等の変化差分を入れてみれば
レイヤー構造としての体を成した形で、良いところまで行けるのではないかという脳内仮説の検証をしてみます。
(Live2D等で必要な加筆部分をアニメーション差分で出力できれば成功)
さて、検証の結果ですが…
あぁ、これはかなりやばい感じがしますね…。
(色々とまずいので縮小&ボカシをいれています)
次はLive2Dらのモデル出力の足がかりになるような出力実験をしてみよう。
これまでの実験から、ぼんやりとした構想があるがはたして
だいぶ調整方法がわかってきた(気がする)
存在しない服を書いてもらっているのでチラつきは発生してしまっているが
服のシルエットが在る3Dモデルベースであれば恐らくかなり低減される。
でかいキャラは難しい。
書き出し解像度の問題があり、またAIアニメーション特有のチラつきが発生する。
(なんとなくピンキーちゃん仕様)
まだまだ調整&調査不足
やれるだけやってみることにする。
https://economylife.net/best-gpu-for-image-ai/#toc7
ガチ勢(?)によるベンチマークを参考に、現在のビデオボードの価格を通販サイトらで見る限り
10万円以内の費用であれば4070あたりが現実的な乗り換え路線のようだ。
現在3060を使用しているので4070に乗り換えるだけでスコア上、倍くらいの生成速度になることが予測される。
欲しいとは思うが、これを商売にしている訳でもないので趣味に費やす値段として考えると中々悩ませる。
(それよりも不具合のある給湯器を直さねばw)
まぁ今なら1回の生成あたり風来のシレンを3フロアくらい移動できるので
PCが使用できない状態でも大したストレスにならないことが救いになっていたりするが。
個人的には十分な研究成果に辿り着けたので、ここで一旦休憩。
AIによるアニメーションイラストの生成方法のコツをだいぶ掴んできました。
しかしアニメーションを滑らかにしようとしてコマ数を増やす場合
修正箇所の手間と生成時間が増える上に、適用する際にはアプリ容量の肥大化が付きまとう訳ですから
ここをさらにもう一歩踏み込んで
動作作成済みSpineデータとかにテクスチャごとゴッソリ入れ替えるだけで
汎用的に使えるようにできないだろうか。
つまり、バラバラな人体パーツらが
画像の決まった位置にAI出力させるのが最適解になるということ。
服装などを微調し…
透過処理の為のトリミングを行い、CFにセット
正面動作が若干ふらついている感じがするが、これなら十分実用レベルになったのではないだろうか?
(細部は縮小によって潰れてしまう為、ごまかしが効く)
ドット絵からでは特徴点としてのOpenPoseを抽出することができない。
AIへの入力情報として、抽出した輪郭線のみでは上手い出力に辿り着くことができなかったので
泥作業ではあったがOpenPoseの姿勢情報を手入力で作成。
するとどうだろう…。
姿勢制御は概ね正常化するようだ。
3Dモデルベースからの生成はそれなりに掴んできた(?)が
ドット絵ベースだとまだまだですね…細部が大体破綻する
可能な限り一発生成に近い所を目指したいが、なかなか上手くはいきませんね。
ふと思い出したので、いつぞやのAI補完でアニメーション数を2倍に増量
これはぬるぬるですね。
生成パラメーターを替えセットを替え何度も何度もテストを繰り返す。
ドット絵からここまで起こせるのは凄く、可能性を感じるが…まだまだ。もう一段階ほしいところ。
ドット絵→キャラ絵→修正絵→・・・
と何段階か踏む必要があるかも。
こちらは上手く行っているように見える別バージョン
未調整なので破綻箇所は多いが3パターンアニメーションとして動作を見るなら
一応みれなくは無いような気もする。
ぴぽやさんのキャラクターなんとか機ベースの8方向ドット絵を雑に適用してみたところ。
案外行けそうな感じもある…。
が、"行ける"にならないのが生成AI。
詰めた答えには到達しない地獄の入り口だったりするのです。
2型による歩行生成テスト(真横)
一気に難しくなったが、服以外ではまだ上手く行っているのかもしれない。
真横生成になったら(今までの方法では)途端に安定しなくなりました。
AIにとって何が気に入らないのかわからない謎。
2型による歩行生成テスト(斜め左下)
描くも地獄、AI修正も地獄ね(修正の方法になれてきた感じはする。高火力マシンであれば多分最高)
草履が無くなったけどまぁいいや…。
とりあえず8方向を作ってみよう
そして3型はコマ数を減らそう!
2型による正面歩行生成テスト
少し調整。
顔と服を後から合成するやり方でやっているので少し遠回り。
でも使えそうな感じにはなってきている
最初に使う3Dデータに服装のデータがあればもう少し楽ができそうな感じはあります
(3Dデータの用意が楽ではないオチ)
2型による正面歩行生成テスト
若干ブルッているが、未調整でこの出力精度ならば期待できそうです。
(ただ生成には本当に時間が掛かる…というかコマ数が多いというのもある)
とりあえず2型が完成(縮小すれば細かい粗は潰れてくれるはず)
代り映えし無さそうに見えますが結構時間かかっています。
AIにここを修正しろと指示を出しては再生成を繰り返す。(これがまた時間が掛かる)
問題はこれをベースに別のモーションを適用をさせる時だ。
別アングルからでも汎用的に使えるような生成方法を試してみたつもりでしたが
やはりシルエットが安定しませんね。(服の長さとか)
修正の方向性はうっすらとわかっているのですが、トライアンドエラーに必要な生成時間もありなかなか思うようには進みません。
ベースにしている3Dモデルに服のシルエットを追加するか(Blenderを覚え直さなければ)
2Dシルエットデータに対して直に手を入れていくか。
まだまだアプローチ方法を考えていく必要がありそうです。
関係ない人とってはどうでも良い調査です。
Google Colabを借りて生成AIを利用する場合などの料金試算です。
ある意味従量制ですので注意が必要です。
ttps://hirohitorigoto.com/stable-diffusion-web-ui-google-colaboratory-precautions-when-building/
■課金した場合
Colab Pro・・・1ヶ月あたり1,179円(100コンピューティングユニット)
Colab Pro+・・・1ヶ月あたり5,767円(500コンピューティングユニット)
Google Colab でGPUを使用すると、コンピューティング ユニットが消費されます。
A100:1時間・・・15.04
V100:1時間・・・7.32
T4:1時間・・・1.96
単純計算すると、有料プランのColabPro/100コンピューティングユニットの場合は、A100で約6.6時間、V100で約13.7時間、T4で約52.6時間使用できます。
高価なPCを購入しなくてもGoogleColabでStable Diffusion Web UIが使えることはとても便利なんですが、それなりに費用が発生するということと同時に注意が必要です。
----------
GoogleはGoogle ColabでSTABLE DIFFUSIONを使用して生成された画像を監視しています。
ただしGoogleはすべての画像を監視できるわけではないため、一部のセンシティブな画像が生成される可能性があります。
Googleはセンシティブな画像の生成を防ぐためにさまざまな対策を講じていますが、完全に排除することはできません。
GoogleはユーザーがGoogle Colabを使用してセンシティブな画像を生成することを禁止しています。
またGoogleは、センシティブな画像を生成したユーザーに対してアカウントの停止などの措置を講じています。
----------
■AIが動かせるリーズナブルなビデオカードの価格帯(参考)
RTX 4090 239,800円〜 453,800円〜 2022/10/12
RTX 4080 157,480円〜 358,800円〜 2022/11/16
RTX 4070 Ti 109,800円〜 314,800円〜 2023/01/05
RTX 3090 Ti 184,800円〜 - 2022/03/29
RTX 3090 189,800円〜 - 2020/09/24
RTX 3080 Ti 145,800円〜 - 2021/06/03
RTX 3080 12GB 132,470円〜 - 2022/01/11
RTX 3080 99,800円〜 299,979円〜 2020/09/17
□適当に調べた最先端ビデオカードの値段(そして売り切れ)
A100 3,850,000円 ttps://item.rakuten.co.jp/compmoto-r/4537694315265/
A100 80GB 6,964,210円 ttps://univpc.com/cstm/p/60dbbc5291783
A100 80GB 4,600,530円 ttps://nttxstore.jp/_II_8116381372
V100 1,314,500円 ttps://nttxstore.jp/_II_NV15868018
V100 レンタルサーバー ttps://www.sakura.ad.jp/koukaryoku/specification/
月額 107,690円
初期費用 878,900円
--------------
後半は割とネタ半分で調べていますが
要所要所で使って行くにもまだまだ非常に厳しい環境ですね。
ColabProの100ユニット A100約6.6時間で追加課金が必要になるという事です。
最新にせずとも、V100,T4を使ったにしても、トライアンドエラーの中では直ぐに頭打ちでしょう。(T4で約52.6時間)
湯水のごとく経費にできるならまだしも、個人では研究費用の回収も難しいことが想像できますね。
結局のところリーズナブルビデオカード環境で、研究していくのが現実的であると言えます。
(どちらかというと最先端の環境は、AI利用ではなくAIモデルを作る為の環境です)
整合性が無いからチェンジ またリセット!
(ピノキオピー - 転生林檎 feat. 初音ミク / Reincarnation Apple)
融合研では各種クリエイターを応援しています。
ちなみに今回のやり方では整合性が取れない部分が見られたのでベースとなるモデルが変更されます。
(何度目の転生だろう)
若干の破綻と若干の別人化現象を許容すれば、今の水準で使えなくもないですね。