Figure 1: “An astronaut riding a horse” (軽いモデルを使って生成した画像)
Figure 2: U-net のアーキテクチャーのイメージ(Ronneberger, Fischer, and Brox 2015)
Diffusion 系のモデルは基本的に
Figure 3: U-net のニューラルネットワークは Noisy な画像のノイズを予測している
Figure 4: U-net のインプットは、画像さえ持ってれば簡単に作れる
Figure 5: VAE の構造
Figure 6: Latent Diffusion の全体図 (Rombach et al. 2022)
Figure 7: プロンプト:Happy sea turtle on beach in the style of Paul Signac
もちろんノイズだけじゃなくても、sketch とかをベースにして作成する こともできる
Figure 8: Before: My masterful turtle at the beach sketch
Figure 9: After: “Turtle chilling at the beach in the style of Keith Haring”.