こんにちは。前回のブログでは伝統のある朝日焼の窯元で、400年に遡る作品群を蔵から出してデータ収集したことをご報告しました。NeuCraftチームではそれ以来約2ヶ月、このデータを使って様々なAIモデルのプロトタイプを構築し、多くのことを学ぶことができましたので、今回のブログ記事ではその一部をご報告したいと思います。
朝日焼さんの蔵から取り出した作品群は、その色、柄、形など実に多様な作品が含まれます。茶碗型の作品が相対的には多い傾向にもありますが、中には具体的な形を持った置物なども含まれます。また蛍光色にも近いような鮮やかな色合の作品も存在することに驚きました。下記にその一部をランダムに選んで並べてみました。
今回撮影した写真は、どれも極めて近い条件で、影などをコントロールして撮影されており、AIの学習の用途のためには背景の除去などの前処理を行わずにすぐに使える状態であるため、私達はまず正面から撮った1000枚の写真を使って、生成AIモデルの学習を開始しました。
StyleGANを使った撮影画像の学習と生成
まず最初に私達が使い始めたのはNVIDIA社が開発し、特に人間の顔の生成の品質の高さで知られるStyleGANの最新版、StyleGAN3です。学習の経過とともにそのモデルからの生成結果を表示した下のビデオを見てみると、最初はぼんやりした出力から始まり、学習ステップを重ねていくことで、だんだん輪郭のはっきりした焼物らしき物体の生成に成功しました。
しかしよく見ると、その表面の柄は下の左の写真のようなガラス玉のような柄の繰り返しになっていて、いくら学習してもこのアーティファクト(本物にはない特徴をAIが作り出してしまうこと)を取り除くことができませんでした。アーティファクトは生成AIにおいてはよく発生する問題で、例えば人間の顔を生成するケースでも、耳の形がどうしても現実離れした形になってしまう問題などがよく知られています。StyleGANはバージョンを重ねるごとにこのような問題を潰して生成クオリティーを上げてきましたが、すべての生成対象物に万能に機能するわけではありません。
顔以外の生成課題にStyleGANを応用したときのこのような問題は焼き物の以外の用途においても報告されているケースが見つかりましたが、これを引き起こしている原因はStyleGAN3に内在しているようで、今回は一つ前のStyleGAN2を使うことで解決することができました(右の写真)。
StyleGAN2を使って、約5日間GPUで学習したモデルの生成結果を見てみると、一見すると学習用に使った元データに迫るような高いクオリティーの生成結果を得ることができました。特に茶碗型の生成物に関しては安定した生成結果が得られています。
一方で、花瓶型のものやオブジェクト型のものに関しては、よく見ると部分的に切れていたり、不気味でへんてこな形の物があったりということも散見されます。また、更に様々な生成結果を見ていくと、本来ならば手のついていないはずのデザインの作品に手がついているような、一風変わった「中間的な」デザインのものも現れたことは興味深い結果です。このようなデザインは多くの場合は非現実的であったり非実用的であると考えられますが、中には新しい発想のインスピレーションになるものもあるかもしれません。
生成モデルのクリエイティビティーをコントロールする
これらの結果を窯元の松林さんにもお見せして、生成モデルの今後の使い方について議論しました。そこで出てきた重要な感想としては、モデルの学習が進み、内部評価が高くなればなるほど本物に見間違えるような結果が出てくることはある意味素晴らしいのですが、一方で本物にそっくりなものを生成したところで、新しい発想の創発にはつながらないということです。だからといって学習があまり進んでいない未熟なモデルが面白いかというと、今度はあまり説得力がない。実際のところこのような「リアルなAIほどクリエイティビティーに乏しい」と考えられる事例は私達の過去のプロジェクトにおいても経験のあることで、過去の事例から学ぶ機械学習のアプローチに内在する課題とも言えます。
そのような状況を解決するために、いくつかの試みをはじめました。生成モデルから実際に画像を生成する際には、その種となるランダムな値を与えることで異なる結果を得ることができるのですが、そのランダムな値の振れ幅をpsiというパラメーターを変更することで大きくしたり、逆に小さくしたりすることができます。このpsiを0.1という極小の値から、1というデフォルト値、2という大きな値に変更した結果が下記になります。



psiの値が極小だと、どの生成物も同じような色形をしています。一見つまらない結果ですがいわばこれは「平均的な朝日焼」の姿として興味深いところです。psiがデフォルト値をとっているときは、生成物のばらつきは学習データのばらつきに近いと感じられる広がりを持っていますが、これが更に大きな値になると、色も形も現実以上に鮮やかだったり奇抜だったりする結果を生み出すことができます。ここには必ずしも焼き物として成立しているとはいい難いものも含まれますが、少し「ワイルドな」発想の刺激としては機能しそうです。
統計モデルからさらなる新規性を生み出すには
機械学習のような、統計理論に基づく学習技術は、どうしても過去の前例に習った学習・生成を行うことを基礎としているので、そもそも新しい発想を生み出すには向いていないのではないかという考え方もあります。このような課題はクリエイティビティーに限らず、例えばAIを使って新物質を見つけようとする研究開発等においても直面する課題です。実際には、上記の例のように、うまく過去の例から逸脱するような結果を出させることで着想を得ることができるなどの解決方法も有効ですが、何よりも効果があるのは学習データの拡張です。
ここまでは朝日焼の撮影データだけを見てきましたが、世界には朝日焼以外にも様々な陶芸品が存在しています。日本だけを見てもその幅はかなり広いと言えます。そのように、これまで見てきた学習データの外側にある情報と、今回の学習データを組み合わせることで、今までの朝日焼に閉じてきたAIモデルには「想像」し得なかったような出力を得ることが可能になるでしょう。朝日焼と別の窯元の作品の中間に位置するような発想や、複数の窯元の作品が少しずつ影響を与えたような作品、更にそれらを上記の方法で逸脱させたような結果など、ちょっと想像もつかないような結果を得る方法は実はまだまだあると考えています。
次回のブログでは生成AIモデルの、更にクリエイティブになった姿をお見せできればと思います。
コメントを残す