生成AIでどこまでいけるのか研究


背景オブジェクトの生成テスト まずは"a wood"とか適当な構文でガチャ出力する 良さげな感じの出力が出たが、全体では無いので 画像加工ソフトで欲しい部分を適当に描き足し、再度AIに投げる 中々良さげになったので… 適当に色調整や透過抜き ここまでで大体20〜30分 一発目の実験にしてはそこそこの結果が得られたように思える 恐らくこれを繰り返して精度を上げて行けば大体の物が作れそう。
MSがChatGPTを組み込んだプログラミングソフトを発表、誰でもアプリ開発が可能に ttp://blog.livedoor.jp/itsoku/archives/60303283.html ※駄文です 一応生成AIでの画像出力と加工を触ってきた感覚から、AIプログラミングも似た感じになって行くのかなと想像。 綺麗な一枚絵の出力は誰でも簡単に上手く行くが、統一された連続的な出力が苦手であったように AIによるプログラミングもまた学習されている動作の構築は早いが、細かい部分の制御が恐らく課題になり AIアニメーションで感じたような問題が同様に含まれていくと予想。 例えば、RPGで言うなら戦闘パート・移動パート・装備パート等 内部的には全て繋がっているはずのものが異なる機能同士で完結してしまい 実は繋がっていない等、融合部分に破綻が含まれて行くのでは無いかと思う。 これはまぁ、生成画像AIでも調整プロンプトを大量に入れて制御するなり 何段階かに分解して出力して使える部分を組み込めむなりすれば良いので いずれにしても、高速な構築の足がかりになるでしょう。(触っていないのであくまで推測ですが) しかし、生成画像では出力された画像を直接加工する事で精度を上げられますが(絵に精通する必要がある) これがプログラムを出力するのであれば、プログラムを直接加工していく必要があり その知識が求められる為、敷居が高くなります。 そうなると言語出力よりも ブループリントやCFのような形のほうが間口は広く生産性が高い為 理想的にはCFのエクステンションのようなモジュール化した物をAI出力できるようになれば アプリケーション開発もまたアイデア部分に注力することができるようになりそうですが… まぁ例えこれが言語出力であったとしてもモジュールとしてエクステンション化すれば融合が可能なので それはそれで活用していく事はできそうですね。
つぎはマップチップとかの出力についても研究してみよう…
まだ途中ではあるものの以前のLive2D化に比べると、これまでの処理で相当楽になったように感じます。 LayerDividerについても、素材というよりも範囲選択用のマスクとして機能させることによりこれはこれで融合していると言えますね…。
うーん、LayerDividerは分けられたパーツのエッジを立たせてしまっていて そのまま使うには少し困ったことになってしまうようだ…。
(メモ&自分用忘備録) 話は変わりますがVRoidというアバター生成ツールを使えば 案外アニメーション元にする3Dのベースデータは作りやすいのかもしれません。(とはいえまだ未調査ですが) ttps://hub.vroid.com/characters/4360437289416622387/models/568471957004588181 ttps://note.com/fukitanuki/n/ne3b96b416fce 今のところAIによるアニメーション書き出しの問題点は服装です。 少し下にある横ステップピンキーちゃんの帯がそうですが 書き出しに使用したモデルデータにはこれの元になるデータが無い為、全てがAIによって新規に書き出されているのでチラつきの原因になってしまっています。 (Live2DやSpine化すればこの問題点は解決されるが) では3Dモデルを楽に用意できるのかというのが課題でしたが こういった設定で3Dモデルを書き出せるようなツールを利用できれば、さらなる融合力のアップに期待できるかもしれません。 3Dモデル→AIイラスト化→ゲーム用素材
前回の物で既に、かなり楽になっていると言えますが 楽をする為の苦労は厭わないという事で、LayerDividerというAIのエクステンションを利用してパーツ切り分けもAIにお願いする。 あとは出力をを重ね合わせ、おかしい所を微調整していけば…。
次期転生用skeltal animateなpinkyちゃんを進めつつありますが 各パーツをもっと効率良く切り出す方法は無いだろうかと思案中… (だいぶ原作絵に近づいたと思う) なんだかんだと生成AIも半年くらい弄ってきていますが、 ある一定のパラメーター調整方向を理解してから一気に安定した感じがします。 それまではAIの仕組みへの理解が追い付かず出力結果が運任せな所がありましたが 非常に地味ではありますが1つ1つのパラメーターを少しづつ変化させ、 どのような変化が在るのか、その結果を見比べるような事をやり続けた結果(時間泥棒) どう弄れば安定した出力になるのかの想像がある程度働くようになってきました…。 ※融合研では綺麗な1枚絵より連続したアニメーションに適用できるような生成を研究しています。
よく考えたらSpineのextensionを販売しているのでSpineを贔屓しなければなりませんね
まずはネットより拾ってきた参考となるLive2D完成図。 (著作物の為モザイク処理を施しています) これは所謂人体パーツも含め全てバラバラに展開された図ですが 残念ながらAIにはバラバラにされた画像を学習した専用データでも無い限り、この出力を行うことはまず不可能です。 無理にでも出力するならば見たくもないような猟奇的な画像が出力されてしまうことでしょう。(出力されました) ではどうするか。 Live2Dのインポート機能には、レイヤー分けされている画像を それぞれのパーツとして取り込む機能が備わっていますが、ここを着想の基点として考えてみます。 レイヤー分けという根底の理屈はアニメーションの構造と同じであるからです。 今回の実験では今までのアニメーション生成実験の応用として あえて同一のポーズで同一の出力を行い、アニメーションとしての服装等の変化差分を入れてみれば レイヤー構造としての体を成した形で、良いところまで行けるのではないかという脳内仮説の検証をしてみます。 (Live2D等で必要な加筆部分をアニメーション差分で出力できれば成功) さて、検証の結果ですが… あぁ、これはかなりやばい感じがしますね…。 (色々とまずいので縮小&ボカシをいれています)
次はLive2Dらのモデル出力の足がかりになるような出力実験をしてみよう。 これまでの実験から、ぼんやりとした構想があるがはたして
だいぶ調整方法がわかってきた(気がする) 存在しない服を書いてもらっているのでチラつきは発生してしまっているが 服のシルエットが在る3Dモデルベースであれば恐らくかなり低減される。
でかいキャラは難しい。 書き出し解像度の問題があり、またAIアニメーション特有のチラつきが発生する。 (なんとなくピンキーちゃん仕様) まだまだ調整&調査不足 やれるだけやってみることにする。
https://economylife.net/best-gpu-for-image-ai/#toc7 ガチ勢(?)によるベンチマークを参考に、現在のビデオボードの価格を通販サイトらで見る限り 10万円以内の費用であれば4070あたりが現実的な乗り換え路線のようだ。 現在3060を使用しているので4070に乗り換えるだけでスコア上、倍くらいの生成速度になることが予測される。 欲しいとは思うが、これを商売にしている訳でもないので趣味に費やす値段として考えると中々悩ませる。 (それよりも不具合のある給湯器を直さねばw) まぁ今なら1回の生成あたり風来のシレンを3フロアくらい移動できるので PCが使用できない状態でも大したストレスにならないことが救いになっていたりするが。
個人的には十分な研究成果に辿り着けたので、ここで一旦休憩。 AIによるアニメーションイラストの生成方法のコツをだいぶ掴んできました。 しかしアニメーションを滑らかにしようとしてコマ数を増やす場合 修正箇所の手間と生成時間が増える上に、適用する際にはアプリ容量の肥大化が付きまとう訳ですから ここをさらにもう一歩踏み込んで 動作作成済みSpineデータとかにテクスチャごとゴッソリ入れ替えるだけで 汎用的に使えるようにできないだろうか。 つまり、バラバラな人体パーツらが 画像の決まった位置にAI出力させるのが最適解になるということ。
服装などを微調し… 透過処理の為のトリミングを行い、CFにセット 正面動作が若干ふらついている感じがするが、これなら十分実用レベルになったのではないだろうか? (細部は縮小によって潰れてしまう為、ごまかしが効く)
ドット絵からでは特徴点としてのOpenPoseを抽出することができない。 AIへの入力情報として、抽出した輪郭線のみでは上手い出力に辿り着くことができなかったので 泥作業ではあったがOpenPoseの姿勢情報を手入力で作成。 するとどうだろう…。 姿勢制御は概ね正常化するようだ。
3Dモデルベースからの生成はそれなりに掴んできた(?)が ドット絵ベースだとまだまだですね…細部が大体破綻する 可能な限り一発生成に近い所を目指したいが、なかなか上手くはいきませんね。
ふと思い出したので、いつぞやのAI補完でアニメーション数を2倍に増量 これはぬるぬるですね。
生成パラメーターを替えセットを替え何度も何度もテストを繰り返す。 ドット絵からここまで起こせるのは凄く、可能性を感じるが…まだまだ。もう一段階ほしいところ。 ドット絵→キャラ絵→修正絵→・・・ と何段階か踏む必要があるかも。 こちらは上手く行っているように見える別バージョン 未調整なので破綻箇所は多いが3パターンアニメーションとして動作を見るなら 一応みれなくは無いような気もする。
ぴぽやさんのキャラクターなんとか機ベースの8方向ドット絵を雑に適用してみたところ。 案外行けそうな感じもある…。 が、"行ける"にならないのが生成AI。 詰めた答えには到達しない地獄の入り口だったりするのです。
2型による歩行生成テスト(真横) 一気に難しくなったが、服以外ではまだ上手く行っているのかもしれない。
真横生成になったら(今までの方法では)途端に安定しなくなりました。 AIにとって何が気に入らないのかわからない謎。
2型による歩行生成テスト(斜め左下) 描くも地獄、AI修正も地獄ね(修正の方法になれてきた感じはする。高火力マシンであれば多分最高) 草履が無くなったけどまぁいいや…。 とりあえず8方向を作ってみよう そして3型はコマ数を減らそう!
2型による正面歩行生成テスト 少し調整。 顔と服を後から合成するやり方でやっているので少し遠回り。 でも使えそうな感じにはなってきている 最初に使う3Dデータに服装のデータがあればもう少し楽ができそうな感じはあります (3Dデータの用意が楽ではないオチ)
2型による正面歩行生成テスト 若干ブルッているが、未調整でこの出力精度ならば期待できそうです。 (ただ生成には本当に時間が掛かる…というかコマ数が多いというのもある)
とりあえず2型が完成(縮小すれば細かい粗は潰れてくれるはず) 代り映えし無さそうに見えますが結構時間かかっています。 AIにここを修正しろと指示を出しては再生成を繰り返す。(これがまた時間が掛かる) 問題はこれをベースに別のモーションを適用をさせる時だ。
別アングルからでも汎用的に使えるような生成方法を試してみたつもりでしたが やはりシルエットが安定しませんね。(服の長さとか) 修正の方向性はうっすらとわかっているのですが、トライアンドエラーに必要な生成時間もありなかなか思うようには進みません。 ベースにしている3Dモデルに服のシルエットを追加するか(Blenderを覚え直さなければ) 2Dシルエットデータに対して直に手を入れていくか。 まだまだアプローチ方法を考えていく必要がありそうです。
関係ない人とってはどうでも良い調査です。 Google Colabを借りて生成AIを利用する場合などの料金試算です。 ある意味従量制ですので注意が必要です。 ttps://hirohitorigoto.com/stable-diffusion-web-ui-google-colaboratory-precautions-when-building/ ■課金した場合 Colab Pro・・・1ヶ月あたり1,179円(100コンピューティングユニット) Colab Pro+・・・1ヶ月あたり5,767円(500コンピューティングユニット) Google Colab でGPUを使用すると、コンピューティング ユニットが消費されます。 A100:1時間・・・15.04 V100:1時間・・・7.32 T4:1時間・・・1.96 単純計算すると、有料プランのColabPro/100コンピューティングユニットの場合は、A100で約6.6時間、V100で約13.7時間、T4で約52.6時間使用できます。 高価なPCを購入しなくてもGoogleColabでStable Diffusion Web UIが使えることはとても便利なんですが、それなりに費用が発生するということと同時に注意が必要です。 ---------- GoogleはGoogle ColabでSTABLE DIFFUSIONを使用して生成された画像を監視しています。 ただしGoogleはすべての画像を監視できるわけではないため、一部のセンシティブな画像が生成される可能性があります。 Googleはセンシティブな画像の生成を防ぐためにさまざまな対策を講じていますが、完全に排除することはできません。 GoogleはユーザーがGoogle Colabを使用してセンシティブな画像を生成することを禁止しています。 またGoogleは、センシティブな画像を生成したユーザーに対してアカウントの停止などの措置を講じています。 ---------- ■AIが動かせるリーズナブルなビデオカードの価格帯(参考) RTX 4090 239,800円〜 453,800円〜 2022/10/12 RTX 4080 157,480円〜 358,800円〜 2022/11/16 RTX 4070 Ti 109,800円〜 314,800円〜 2023/01/05 RTX 3090 Ti 184,800円〜 - 2022/03/29 RTX 3090 189,800円〜 - 2020/09/24 RTX 3080 Ti 145,800円〜 - 2021/06/03 RTX 3080 12GB 132,470円〜 - 2022/01/11 RTX 3080 99,800円〜 299,979円〜 2020/09/17 □適当に調べた最先端ビデオカードの値段(そして売り切れ) A100 3,850,000円 ttps://item.rakuten.co.jp/compmoto-r/4537694315265/ A100 80GB 6,964,210円 ttps://univpc.com/cstm/p/60dbbc5291783 A100 80GB 4,600,530円 ttps://nttxstore.jp/_II_8116381372 V100 1,314,500円 ttps://nttxstore.jp/_II_NV15868018 V100 レンタルサーバー ttps://www.sakura.ad.jp/koukaryoku/specification/ 月額 107,690円 初期費用 878,900円 -------------- 後半は割とネタ半分で調べていますが 要所要所で使って行くにもまだまだ非常に厳しい環境ですね。 ColabProの100ユニット A100約6.6時間で追加課金が必要になるという事です。 最新にせずとも、V100,T4を使ったにしても、トライアンドエラーの中では直ぐに頭打ちでしょう。(T4で約52.6時間) 湯水のごとく経費にできるならまだしも、個人では研究費用の回収も難しいことが想像できますね。 結局のところリーズナブルビデオカード環境で、研究していくのが現実的であると言えます。 (どちらかというと最先端の環境は、AI利用ではなくAIモデルを作る為の環境です)
整合性が無いからチェンジ またリセット! (ピノキオピー - 転生林檎 feat. 初音ミク / Reincarnation Apple) 融合研では各種クリエイターを応援しています。 ちなみに今回のやり方では整合性が取れない部分が見られたのでベースとなるモデルが変更されます。 (何度目の転生だろう) 若干の破綻と若干の別人化現象を許容すれば、今の水準で使えなくもないですね。