宇宙人の夢: アートシーンの出現

By Charlie Snell

ここ数ヶ月 AI によるアートシーンはちょっとした爆発的な盛り上がりを見せています。

OpenAI が CLIP モデルの訓練済み重みとコードを公開して以来，さまざまなハッカー，アーティスト，研究者，ディープラーニング愛好家が CLIP をさまざまな生成モデルの効果的な「自然言語のハンドル」として活用する方法を考え出しました。これにより，アーティストは，テキスト (キャプション，詩，歌詞，単語) をこれらのモデルの 1 つに入力するだけで，あらゆる種類の興味深いビジュアルアートを作成することができます。

例えば「夜の街並み」と入力すると，抽象的でクールな街明かりの描写が表示されます。

( source: @ RiversHaveWings on Twitter)

夕日の画像を求めると，この面白いミニマリストのようなものが返ってきたり。

(source: @Advadnoun on Twitter)

「小さなお城に支配された惑星の抽象画」をお願いしたところ，このような満足感のあるトリッピーな作品が出来上がりました。

(source: @RiversHaveWings on Twitter)

T.S.エリオットの詩荒地の一部をシステムに送り込むと，この崇高で落ち着きのある作品が出来上がります。

(source: @Advadnoun on Twitter)

また，特定の文化的背景を提示することも可能で，その場合，ほぼ正確な結果が得られます。「スタジオジブリの風景」と入力すると，それなりに説得力のある結果が得られます。

(source: @ak92501 on Twitter)

これと同じ方法で，ちょっとしたアニメーションを作ることもできます。試しに「星降る夜」をリクエストしてみたら，こんな素敵な GIF が出来上がりました。

言葉を入力すると，その言葉をシステムが精一杯，抽象的なスタイルで表現してくれるのです。本当に楽しくて，驚きの連続です。何が出てくるかわからない，トリッピーな擬似写実主義の風景かもしれないし，もっと抽象的でミニマルなものかもしれません。

また，実際に画像を生成する作業の大半をモデルが行っているにもかかわらず，モデルとの作業ではクリエイティブな気分，つまりアーティストのような気分でいられます。モデルに何を指示するかということに，クリエイティブな要素があるのです。自然言語入力は，完全にオープンなサンドボックスであり，モデルの好みに合わせて言葉を操ることができれば，ほとんど何でも作ることができるのです。

コンセプトとしては，テキストの記述から画像を生成するこのアイデアは，オープン AI の DALL-E モデルに驚くほど似ています (私の以前のブログ，投稿をご覧になった方は DALL-E の技術的内情と哲学的アイデアの両方を詳細にカバーしています)。しかし，実は，この方法は全く違います。 DALL-E は言語から直接高品質な画像を生成することだけを目的に，エンドツーエンドで訓練されていますが，この CLIP 法は，既存の無条件画像生成モデルを操作するために言語を使うための，美しくハックされたトリックのようなものなのです。

- DALL-E のエンドツーエンドのテキストから画像への変換がどのように行われるかをハイレベルに描写しています。
訳注: DALL-E の画像生成方法: 「アボガドの形をした座椅子」といったテキスト文を入力すると，一枚の画像をエンドツーエンドで出力するように訓練されている。

CLIP がどのようにアートを生成するのかを高いレベルで描いています。

DALL-E のウェイトはまだ公開されていませんので，この CLIP 作品は DALL-E の約束事を再現するためのハッカー的な試みと見ることができます。

CLIP を使ったアプローチは，もう少しハチャメチャなので，DALL-E で実証されたような高品質で正確な出力は得られません。その代わり，これらのシステムから生み出される映像は，奇妙で，トリッピーで，抽象的です。出力は確かに私たちの世界に根ざしているのですが，まるでちょっと違うものを見ている宇宙人が作ったような感じなのです。

その奇妙さこそが CLIP を使った作品を独特の芸術的な美しさにしているのだと思います。見慣れたものを異星人の視点で見るというのは，何か特別な感じがします。

(注: 厳密には DALL-E は CLIP を使って出力を再ランク付けしていますが，ここで CLIP を使った手法と言った場合 DALL-E のことではありません)

ここ数ヶ月，私の Twitter のタイムラインは，この CLIP で生成されたアートで占拠されています。アーティスト，研究者，ハッカーのコミュニティは，これらのモデルで実験し，その成果を共有しています。また，生成された画像の品質や芸術的なスタイルを変更するためのコードやさまざまなトリック/方法も共有されています。これは，まるで新興のアートシーンのようです。

このアートシーンが 1 年の間に発展し，進化していくのを見るのはとても楽しかったのです。私にとってはとてもクールなことなので，ブログ記事を書こうと思いました。

このシステムがどのようにアートを生成するのか，技術的な詳細について深く説明するつもりはありません。その代わり，このアートシーンの思いがけない起源と進化を記録し，その過程で私自身の考えやクールなアートワークも紹介するつもりです。

もちろん，一回のブログでこのアートシーンのあらゆる側面をカバーすることはできません。もし，私が見逃しているかもしれない重要なことがあれば，下のコメント欄やツィートでお気軽にお知らせください。

CLIP: 思わぬ起源の物語

2021 年 1 月 5 日，OpenAI は CLIP のモデル重みとコードを公開しました。このモデルは，与えられた画像に最も合う脚注を脚注の集合の中から決めるために学習させたモデルです。この方法で何億もの画像から学習した後 CLIP は与えられた画像に最適な脚注を選ぶことに非常に熟達しただけでなく，視覚に関する驚くほど抽象的で一般的な表現も学習しました (Goh et al. on Distill のマルチモーダルニューロンを参照)。

例えば CLIP はスパイダーマンに関する画像や概念に特異的に活性化するニューロンを表現するように学習しました。他にも，感情や地理的な場所，あるいは有名な人物に関連するイメージに対して活性化するニューロンもある (これらのニューロンの活性化は OpenAIの顕微鏡ツールで自分で調べることができます)。

このような抽象度の高い画像表現は，この種のものとしては，何やら初めてのものでした。さらに，このモデルは，これまでのどの研究よりも優れた分類の頑健性も実証していました。

ですから，研究の観点からは CLIP は非常にエキサイティングで強力なモデルでした。しかし，それがアートを生み出すのに役立つということを明確に示唆するものはここにはありません。

それでも，様々なハッカー，研究者，アーティスト (特に Twitter の @advadnoun と @quasimondo)) が CLIP を使えば既存の画像生成モデル ( GAN, 自己符号化器, SIREN のような非明示的なニューラルネットワークによる画像表象 (Implicit Neural Representation) が与えられた脚注に合ったオリジナルの画像を生成できることを理解するのにほんの 1 日しかかからなかったのです。

この方法では CLIP は生成モデルに対する「自然言語のハンドル」のような役割を果たします。 CLIP は基本的に，与えられた生成モデルの潜在空間を検索して，与えられた語句の列に合う画像に対応する潜在を見つけるようガイドします。

この技術を使った初期の結果は奇妙なものでしたが，それでも驚きと期待が持てました。

( source: @quasimondo on Twitter); right – (source: @advadnoun on Twitter)

ビッグスリープ謙虚な始まり

ほんの 2 週間ほどで，画期的なことが起こりました。ビッグスリープのコードは Big GAN を生成モデルとして使用した CLIP ベースのテキストから画像への変換技術として公開されました。

(source: @advadnoun on Twitter)

ビッグスリープは，独自の方法で，テキストから画像への変換の期待に応えました。言葉にできるものなら，何でもおおよそレンダリングできる。「夕焼け」「M.C.エッシャーの絵のような顔」「風が吹くとき」「3D のグランドキャニオン」。

もちろん「ビッグスリープ」からの出力は，誰もが好むものではないかもしれません。奇妙で抽象的で，通常はグローバルに首尾一貫しているのだが，時にはあまり意味をなさないこともあります。ビッグスリープの作品には，確かに独特のスタイルがあり，個人的には美的感覚に優れていると感じています。

「日没」ビッグスリープによる “a sunset” according to The Big Sleep source: @advadnoun on Twitter)

「エッシャーが描いたような顔」ビッグスリープ "a face like an M.C. Escher drawing" from The Big Sleep ([source](https://twitter.com/advadnoun/status/1359723192890269696): [@advadnoun](https://twitter.com/advadnoun) on Twitter)

「風が吹くとき」ビッグスリープ “when the wind blows” from ThBig Sleep (source: @advadnoun on Twitter)

しかし，私が「ビッグスリープ」から受ける主な驚きと魅力は，必ずしもその美学から来るものではなく，むしろもう少しメタ的なものです。ビッグスリープが画像を生成する際の最適化の目的は GAN 潜在空間において CLIP の下で与えられた単語の列に最大に対応する点を見つけることです。つまりビッグスリープの出力を見ると，文字通り CLIP が言葉をどう解釈し，それが私たちの視覚世界にどう対応していると「考えて」いるかがわかります。

これを本当に理解するためには CLIP を統計的なものと考えるか，あるいは宇宙人のようなものと考えるかです。私は後者の方が好きです。 CLIP は「ビッグスリープ」のような技術を使って，私たちが鍵を開けて覗き込むことができる宇宙人の脳のようなものだと考えたいのです。ニューラルネットワークは人間の脳とは大きく異なるので CLIP を宇宙人の脳のようなものと考えても，実はそれほどおかしくはありません。もちろん CLIP が本当に「知的」なわけでありませんが，それでも「別の」ものの見方を見せてくれているわけで，その考え方はとても魅力的だと思います。

CLIP の別の視点・哲学は，もう少し統計的で冷徹なものです。 CLIP の出力は，インターネット上に存在する言語と視覚の相関関係を計算した結果であり，単なる統計的平均値の産物であると考えることができます。このように考えると CLIP の出力は，時代の流れ (少なくとも CLIP の学習データがかき集められた時点の時代の流れ) を覗き見して「インターネットの統計的平均」のようなものを見ているようなものです (もちろん，これはデータの真の分布に対する近似誤差が最小であることを前提としており，おそらく無理な仮定です)。

CLIP の出力はとても奇妙なので，宇宙人の視点の方がずっと理にかなっていると思います。統計的ザイジストの視点は GPT-3 のように近似誤差がかなり小さいと推測される場合に適用されるのでしょう。

「すべての終わり，崩れ落ちる建物と空を貫く武器と」ビッグスリープより “At the end of everything, crumbling buildings and a weapon to pierce the sky” fr The Big Sleep (source: @advadnoun on Twitter)

3 次元グランドキャニオン “the grand canyon in 3d” according to The Big Sleep

振り返ってみるとビッグスリープは，ニューラルネットワークの「心」を覗き込むような不思議な感覚を捉えた最初の AI アート手法ではありませんが，その感覚は，これまでのどの手法よりも間違いなくよく捉えています。

だからといって，旧来の AI アートの手法が無関係であるとか，面白みがないと言っているわけではありません。実際ビッグスリープは，ある意味で過ぎ去った時代の最も人気のあるニューラルネットワークのアートテクニックの 1 つから影響を受けているようです。ディープドリーム(DeepDream) です。

ビッグスリープの作者である @advadnoun によれば:

ビッグスリープの名前はディープドリームとシュールレアリスムのフィルムノワール The Big Sleep からの引用です。2 つ目の言及は，その奇妙で夢のような質感によるものです。(引用元).

今思えばディープドリーム (DeepDream) とビッグスリープ (The Big Sleep) は精神的なつながりがあるのでディープドリームに因んでビッグスリープと名付けたのは面白いですね。

DeepDream は，一世代前 (2015年) に非常に人気のあった AI アートの手法でした。この技法は基本的に，画像を取り込み，その画像が画像を分類するために訓練されたニューラルネットワークの特定のニューロンを最大限に活性化するように，わずかに (あるいは劇的に) 修正するものです。その結果は通常，下の画像のように非常にサイケデリックでトリッピーなものになります。

ディープドリームによって生成された画像例 (source).

ディープドリームとビッグスリープは美学的に全く異なりますが，これらの技術はどちらも同じようなビジョンを持っています: どちらも，必ずしも芸術を生み出すことを意図していないニューラルネットワークから芸術を引き出すことを目的としています。両者ともネットワークの内部に潜り込み，美しい画像を引き出します。これらのアート技術は，ディープラーニングの解釈可能性ツールが，途中で偶然にアートを生成したように感じられます。

ですから，ある意味ビッグスリープはディープドリームの続編のようなものです。しかし，この場合，続編は間違いなくオリジナルよりも優れています。ディープドリームが生成する宇宙観は，それ自体が時代を超えたものですが，CLIP の知識を自然言語で探っていけるというのは，本当にパワフルなことだと思います。言葉にすれば何でも，エイリアンドリームのようなレンズを通して表現してくれます。これは，とても魅力的な作品づくりです。

VQ-GAN: 新しい生成のスーパーパワー

2020年12月17日，ハイデルベルク大学の研究者 Esserらが論文高解像度な画像生成を行うトランスフォーマーを使いこなす (Taming Transformers for High-Resolution Image Synthesis) を Arxiv に投稿しました。彼らは VQ-GAN と呼ばれる新しい GAN アーキテクチャを発表しました。これは畳み込みネットワークの局所的な推論バイアスとトランスフォーマーの大域的な注意の両方を最適に利用する方法で，畳み込みニューラルネットワークとトランスフォーマーを組み合わせ，特に強い生成モデルを実現するものです。

その結果、スタイルが大きく変化しました。

「チューブのつながり」”A Series Of Tubes” from VQ-GAN+CLIP (出典: @RiversHaveWings on Twitter)

「窓ガラスに銃口をこすりつける黄色い煙」”The Yellow Smoke That Rubs Its Muzzle On The Window-Panes”
from VQ-GAN+CLIP (出典: @RiversHaveWings on Twitter)

「遊星都市 C」”Planetary City C” from VQ-GAN+CLIP (出典: @RiversHaveWings on Twitter)

「月光舞踏」”Dancing in the moonlight” from VQ-GAN+CLIP (出典: @advadnoun on Twitter)

「メカニック願望」”Mechanic Desire” from VQ-GAN+CLIP (出典: @RiversHaveWings on Twitter)

「メカニック願望」”Mechanic Desire” from VQ-GAN+CLIP (source: @RiversHaveWings on Twitter)

「武器化した木」”a tree with weaping branches” from VQ-GAN+CLIP (source: @advadnoun on Twitter)

VQ-GAN+CLIP の出力はビッグスリープよりもペイントが少なく，彫刻のように見える傾向があります。抽象的で現実的でないイメージであっても，そこに写っているものが手仕事で作られたものであるかのような質感があります。ニューラルネットワークを覗き込んで，その視点で物事を見ているようなオーラは，この作品でも健在です。

生成モデルを Big-GAN から VQ-GAN に置き換えるだけで，独自のスタイルと視点を持った新しいアーティストを得たようなもので，CLIP の目を通して世界を見るための新しいレンズを手に入れたようなものです。このことは，CLIP ベースのシステムの汎用性を浮き彫りにしています。新しい潜在生成モデルが出たときに，それを CLIP に差し込めば，突然新しいスタイルやフォルムのアートを生成することができるのです。 DALL-E の dVAE 重みが公開されてから 8 時間も経たないうちに @advadnoun が dVAE+CLIP で作ったアートをツイートしています。

プロンプト・プログラミングの楽しみ。アンリアルエンジンの魔法 Unreal Engine Trick

生成モデルを切り替えることで CLIP の出力のスタイルをそれほど苦労せずに劇的に変更できることを見てきましたが，これを行うにはもっと簡単なトリックがあることがわかりました。

プロンプトに，希望する画像のスタイルについて何かを示す特定のキーワードを追加するだけで CLIP はその出力を「理解」してそれに応じて変更するために最善を尽くします。たとえばプロンプトに「マインクラフト風」とか「マンガ風」とか「ディープドリーム風」とかを追加すれば，ほとんどの場合 CLIP は実際にそのスタイルにほぼ一致するものを出力してくれます。

実際，ある特定のプロンプトの魔法がかなり人気を集めています。それは「アンリアルエンジンの魔法 unreal engine trick」として知られるようになりました。

@arankomatsuzaki on Twitter)

訳注: スクリーンショット中のツィートには以下のように書かれている:
VQGAN+CLIP を使って画像を生成するときプロンプトに「アンリアルエンジン」と入力するだけで劇的に画質が改善する。
これは「非現実エンジンの魔法」と呼ばれるようになった(笑)
例: 『空気の天使。アンリアルエンジン "the angel of air.unreal engine"』

ほんの数週間前に，ツィッターアカウント @jbustter EleutherAI の Discord が発見したことですが，「アンリアルエンジンで塗りつぶせ “rendered in unreaedl engine”」とプロンプトに入力するだけで出力画像はより写実的になります。

(出典: the #art channel in [EleutherAI](https://www.eleuther.ai)'s Discord)

訳注: スクリーンショット中のツィートには以下のように書かれている: "3d render" がうまくいくなら，非現実エンジン "unreal engine" ってヤバイ

アンリアルエンジン Unreal Engine とは Epic Games 社制の人気の 3D ビデオゲームエンジンです。 CLIP は (訳注:訓練中に) 「Unreal Engine でレンダリング」という脚注が付いたビデオゲームの画像をたくさん目にしたことでしょう。そこで，このプロンプトを追加することで，これらのアンリアルエンジン Unreal Engine の画像の外観を再現するよう，モデルに効果的に働きかけているのです。

これは非常に効果的です。下の例を観てください。

魔法の妖精の家，アンリアルエンジン “a magic fairy house, unreal engine”
from VQ-GAN+CLIP(出典: @arankomatsuzaki on Twitter)

虚無次元，アンリアルエンジンで塗りつぶせ “A Void Dimension Rendered in Unreal Engine”
from VQ-GAN+CLIP (出典: @arankomatsuzaki on Twitter)

“アンリアルエンジンで描かれた明晰な悪夢 “A Lucid Nightmare Rendered in Unreal Engine” from VQ-GAN+CLIP (source: @arankomatsuzaki on Twitter)

CLIP でモデルから望ましい振る舞いを引き出すためには，プロンプトにそのことを入力するだけでよいという，十分に一般的な表現を学習しました。もちろん，最適な出力を得るために適切な言葉を見つけることは非常に困難です。結局，アンリアルエンジンの魔法を発見するのに数ヶ月を要しました。

ある意味，アンリアル・エンジンの魔法はブレイクスルーでした。プロンプトにキーワードを追加することがいかに効果的であるかを人々に認識させたのです。そしてここ数週間 CLIP から最高品質の出力を引き出すことを目的とした，複雑なプロンプトが使われるようになってきています。

例えば VQ-GAN+CLIP で「山頂付近の吹雪の中の小さな小屋，夕暮れ時に明かりが 1 つ灯る|アンリアルエンジン” とプロンプに入れて出力させると，次のように超リアルな出力が得られます。

(出典: @ak92501 on Twitter)

また「山頂からの眺め。眼下には夜の集落が見える|アートステーション|vray “view from on the top of mountain that can see a village below with lights on landscape painting trending on artstation | vray”」とモデルに問い合わせると，このような感動的な景色が表示されるのです。

(出典: @ak92501 on Twitter)

あるいは「真夜中の丘の上にある小さな蛍が飛び交う家をスタジオジブリ風に描いたマットペイント｜アートステーション｜アンリアルエンジン」といったものです。

(出典: @ak92501 on Twitter)

どの画像も前節で見た VQ-GAN+CLIP のアートとは似ても似つかないものでした。出力はまだシュールな感じで，部分的にまとまりがないところもあります。ですが，全体的にポップで，編集された写真やゲームのシーンのような印象です。「アートステーション artstation のトレンド」「アンリアル Unreal Engine」「vray」といったキーワードが、これらの作品のユニークなスタイルを決定付ける上で重要な役割を担っているのでしょう。

このように，モデルに対して望ましい振る舞いを促す一般的なパラダイムは「プロンプト・プログラミング」と呼ばれるようになりました。ですが，これは非常に高度な技術なのです。どのようなプロンプトが効果的なのか直感的に理解するためには，モデルがどのように「考え」，学習中にどのような種類のデータを「見た」のかについて，何らかの手がかりが必要です。そうでなければ，プロンプトは運任せになってしまいます。しかし，将来的にモデルがより大きく，より強力になれば，このようなことも少しは容易になることでしょう。

これは始まりに過ぎない

このブログ記事では CLIP ベースの生成芸術の進化における初期のマイルストーンをいくつか紹介しました。しかし，これは決して CLIP を使って人々が作ることができたアートを広範囲にカバーしたものではありません。超クールな StyleGAN+CLIPで行われた仕事や，本当に面白いCLIPDraw 作品，さらには実験のサガ DALL-E の dVAE+CLIP で行ったの話まではしていないんですよ[https://twitter.com/RiversHaveWings/status/1409600293172432899?s=20]。このように CLIP を使った新しい作品制作の方法は，毎週増えています。まだまだ改良の余地がありそうだし，創造的な発見もたくさんありそうです。

もし，あなたがこのようなことに興味を持ち，CLIP ベースのアートシステムの仕組みについてもっと知りたいなら，あるいは，この分野で最も革新的なアーティストたちの動向を知りたいなら，あるいは，あなた自身がアートを生み出すことに挑戦したいのなら，ぜひ，以下のリソースをチェックしてみてください。

参考文献，ノートブック，関連 Twitter アカウント

参考文献

(参考文献は各作品の下にある脚注を参照，参考文献のない画像はすべて私が作成した作品です)

Colab ノート

以下の Colab ノートブックは，プロンプトを入力するだけで CLIP ベースのアートを作ることができます。それぞれ微妙に違う技法を使っています。楽しんでください

(注: Google Colabに慣れていない場合はこのチュートリアルをお勧めします)

宇宙人の夢: アートシーンの出現

CLIP: 思わぬ起源の物語

ビッグスリープ 謙虚な始まり

VQ-GAN: 新しい生成のスーパーパワー

プロンプト・プログラミングの楽しみ。アンリアルエンジンの魔法 Unreal Engine Trick

これは始まりに過ぎない

参考文献，ノートブック，関連 Twitter アカウント

参考文献

Colab ノート

関連するツイッターアカウント

ビッグスリープ謙虚な始まり