12/6 旧タイトル(11/19投稿)は「画像生成AI、すべて”理解”した」というタイトルでしたが、全然すべてわかってませんでした。
あと走り書きすぎて文章が何書いてあるかもわからん有り様だったので、全修正しました
あからさまに間違っていたところは取り消し線です……
なぜ描いたイラストへのInpaintはうまくいかないのか?
- 画像生成AIは、学習素材の特徴を把握することで画像を学習します。特徴とは、例えば画像内の細かいテクスチャや形状、色彩などを指します。
こうした特徴を繰り返し学ばせることで、細かいパターンをAIが覚えていくことになります。
ただし、このAIが学習する特徴は非常に詳細で、一般的な人間の目では捉えられないほど微細なものです。
画像内の線形や非線形の境界、微細な色の変化などの様々な要素に基づき学習されます。
生成イラストには、一見ランダムだったり、目には見えないノイズだったりで付与される情報(?)もある。
(生成イラストには紫外線のように見えない色があって、人間にはわからないと考えるのがわかりやすいかも)- → 訂正: AIは人間とは異なり、画像全体から特徴を学習しています。「角がある」や「曲線である」といったわかりやすい特徴ではなく、統計的な傾向による目に見えない全体的なパターンで把握しているため、人間が直感的に捉える特徴とAIが認識する特徴は異なります。
- i2i、Inpaint等にて既存の画像を扱う際、AIが学習した特徴やパターンを持つ画像であればあるほど、自然な描き足しや補完が実現できます。
逆に、デッサンが正確なイラストであっても、AIの学習データとは異なるパターンが多い場合、描き足しや補完が困難になります。
- 生成イラストはAIが学習した特徴やパターンが多く反映されるため、同じモデルを使用して描き足しすると、AIがパターンを理解できており自然な仕上がりになりやすくなります。
しかし、既存画像にあてはめるとき、AIがどこまで特徴を把握できているかは人間からではわからないため、生成イラストと比べると既存画像へのinpaintは不安定になりやすくなるのです。
つまり?生成イラストと、既存の画像データは別物とみなしたほうがいい表面上同じに見えるだけでノイズでできた別物
訂正→別物は言い過ぎ。
生成イラストと既存の画像データは、ノイズでできた別物というわけではなく、AIが特徴を把握しやすい点では生成イラストに利点があるという話。
しかし、安定した描き足しを得やすい生成イラストと既存の画像データは異なる性質を持つと言える、かもしれません。
補足:
画像生成AIには「何もないことを示すノイズ」と「イラスト中の表現としてのノイズ」があり、この2つはまったく別物
「何もないことを示すノイズ」を絵の中央に置くとノイズ部分を補完するような動き方をする。
訂正: 間違ってはいないが合ってもいない
既存画像のうえに完全ランダム生成されたノイズがあると、ランダムノイズのほうがアップスケーリング時の自由度(?)が高いため補完するような動きになる
「イラスト中の表現としてのノイズ」ではアップスケーリング時用のノイズの代用にならない(何かしらの特徴をすでに備えている)
これを理解するとどんなことができるかについては今度まとめます。
おまけ:chatGPTからの回答 全修正したから補足は必要なくなったけどもったいないので載せときます
データの一貫性とi2i(Image-to-Image)の効果
データの一貫性とは、入力データとモデルが学習したデータの特徴やパターンが一致している状態を指します。画像生成AIが生成したイラスト(以下、生成イラスト)は、そのモデルが学習したデータの統計的な特徴を強く反映しています。この一貫性が高いほど、モデルは入力画像をより正確に理解し、効果的な変換や生成を行うことができます。
1. モデルと入力データの統計的特徴の一致
- 特徴の共有: 生成イラストは、モデルが学習時に取り込んだ色彩、テクスチャ、形状などの統計的特徴を持っています。これは、モデルがそれらのイラストを入力として受け取った際、既知のパターンを容易に認識できることを意味します。
ノイズパターンの一致: 生成イラストには、モデル特有の微細なノイズパターンが含まれています。このノイズは、モデルの生成プロセスによって生じるものであり、入力画像とモデル内部の表現との間に共通点を生み出します。訂正 →そんなことないです。ノイズ関係なく特徴があるかどうかです。
2. モデル内部表現との相互作用
- 効率的な特徴抽出: モデルは入力画像から特徴を抽出する際、学習したパターンを活用します。生成イラストでは、これらのパターンが明確に存在するため、特徴抽出が効率的に行われます。
- データ分布の類似性: 生成イラストのデータ分布は、モデルが学習したデータセットの分布と非常に近いです。この類似性により、モデルは入力データを処理する際に高い精度を発揮します。