AIよる「新しい」音楽表現を実現するために — 前編: AIと創造性

Nao Tokui
12 min readSep 8, 2018
AI DJ Project — 撮影:谷康弘 写真提供:山口情報芸術センター[YCAM]

数ヶ月前に最新のディープラーニングによる音楽生成の事例についてまとめた記事を書いたところ、たいへん好評をいただきました。日々さまざまな研究事例がアップデートされており、ある程度説得力のある音楽がAIによって生成できるようになってきているという内容の記事でした。その一方で、「過去の音楽をいくら学習したところで、本当に新しい、創造性に富んだ音楽を生成することができるのか」という自分なりの疑問を投げかけたつもりです。

Computational Creativity(=創造性があると人がみなすであろう振る舞いをする計算システム)を研究テーマにしており、音楽活動も続けている自分としては、過去の音楽にはなかった創造的な新しい音楽とはどういった音楽なのか、そしてそれをAIによって生成することができるのか、できるとしたらどういった手順が必要なのかといった問いは、自分の興味関心の中心ともいえる領域です。(2018後期は東京大学の教養課程で「Computational Creaitivy概論」という授業を担当することになりました。) 前回のまとめを書いてからの数ヶ月の間に日々の制作、活動の中で考えてきたことを、最新の研究論文、自分の実践を通してまとめてみたいと思います。

まず、新しい音楽とは何かというところから入りましょう。それこそ毎日、世界中で新しい楽曲、新譜が音楽配信やCDとしてリリースされています。もちろん楽曲を制作してリリースするということ自体は非常に創造的な行為ですが、私がここで言っている「新しい音楽」とはこういった「新譜」全般のことを指しているわけではありません。特に商業的なポップスの世界では、ヒット曲を作るための「方程式」が存在し、Big Dataを使ってヒットする確率を最大化することを目指す会社も存在します。

創造性の研究の中では、既存のジャンル(アルゴリズム的にいうならば探索空間)の中で新規な表現(解)を求めるような創造性と、その結果としてジャンルの枠組み自体が拡張される、あるいはその解を表現するために新しい記述体系が必要になるような創造性は区別されています。前者がCombinatorial Creativity=組み合わせの創造性(あるいはCombinatoric emmergence)、後者はEmmergent Creativity=創発的創造性 (Creative emmergence) といった呼ばれ方をしています。(以下の本を参照)

  • Combinatorial Creativity — 既存の要素の組み合わせによる創造性
  • Emergent Creativity — 要素そのものを作り出す創造性

ここで私がいう「新しい」音楽とは、後者の創発的創造性を必要とするような音楽、いままでのジャンルには当てはまらない、あるいはその音楽を評論するのに新しい言葉が必要になるような音楽のことです。もちろん、この定義に当てはまるのは実験的な音楽だけではありません。ポプュラー音楽の世界でも世界的に大ヒットするような音楽には、なにかしら既存のジャンルを壊すような要素が含まれていることが多いとも言えます(当時のビートルズしかり、Michael Jacksonしかり、Kendrick Lamarしかり…)。新しい音楽とそうでない音楽の二元論で考えるのは適切ではなく、上記のような新しさ、新規性(novelty)をどのくらい含んでいるのかを問うのが妥当だともいえるでしょう。

一方で、Big Dataによってヒット確率をあげるような音楽の作り方は、前者の「組み合わせの創造性」にあたります。ディープラーニングで過去の音楽を学習し、たとえばバッハのような、あるいはビートルズのような「新譜」を生成する場合も同様で、ここでいう新奇性は存在しないでしょう。では、この新奇性を含む表現を実現するにはどういった枠組みが必要になるのでしょうか。

Wundt Curve

新奇性全般が人に与える心理的な影響については様々な角度から研究がなされていますが、有名なのはWundt Curveと呼ばれる左のグラフです。

人は新奇性が強いほど心を惹かれるのですが(報酬=rewardが高くなる)、あまりに新しいものに対しては拒否反応を示します(ペナルティ=penaltyが高い)。ある一点を越えると新奇性による報酬よりもペナルティの方が強くなり、忌避反応を示すようになる、平たくいうと「適度な新奇性が望ましい」ということを言っているわけです。

一方、創作活動と新奇性についての研究では、Collin Marindaleの研究が知られています。
簡単にまとめると次のようになります。アーティストは常に、(自分も含めた)鑑賞者に知的な興奮を与えるポテンシャルを高める方向で、マンネリを抜け出そうと制作を進める。一方で、あまりに、あまりに新しすぎる作品は見る人に受け入れられにくいので、変化は小さくしたい。刺激を求める力とマンネリに留まろうとする力が拮抗する中で、刺激を高める方向に向かう力がわずかに強いことによって、アートをはじめとする人間の創作活動は前進してきた、というものです。やはり適度な新奇性が望ましいということが言われているわけです。

http://createwith.ai/paper/20170629/839

私はここにこそAIを使って創作活動を行う意味のエッセンスがつまっているように思います。

人はこれまでさまざまな外部のプロセス(たとえばジャクソン・ポロックの場合は絵の具にかかる重力などの物理法則、モーツアルトやケージはさいころの偶然性)を創作の過程に取り込むことで、新しい表現を切り開いて来ました。プログラミングを使った生成的(Generative)な表現に関してもこの流れに位置付けることができるでしょう。プログラミングによって、プロセスの結果生み出される新奇性を、適度なレベルにコントロールすることができる(どのくらいランダムにするか)ようになったわけです(Generative Artに関しては、最近のこの記事 “Why Love Generative Art?”が非常にまとまっています. 必読!)。

さらにAIを使うことでなにが変わるか… AIをつかった制作が過去のアルゴリムベースのものと大きく違うのは、人間がその作品に触れたときに感じるであろう定性的な印象(良し悪し、ジャンルの判断)などを、ある程度予測できるようになったということです。

Tom White — Perception Engines

これまでアルゴリズムによって絵や音楽を生成することはできても、それを評価するのはあくまで人間でした。それがAIによって評価の部分も機械に(限定的ではありますが)任せることができるようになったというわけです(画像認識のモデルを使って抽象画を書くTom Whiteの作品や後述するCreative Adversarial Networkの研究を参照)。

新奇性を定量化できるとすれば、上で述べたような適度な新奇性というのをAIでねらいうちすることも可能になるはず… ですが、ちょっと待ってください。

AIが過去の作品を学習した上で制作する作品は、人間のパターンを踏襲する限りにおいては、上記のマンネリの状態にあたるはずです。たとえAIがうまく新奇性を評価できるとして、どうやったら新奇性を含んだ作品を生成することができるのでしょうか。冒頭の疑問に立ち戻ってしまうわけですね。

この疑問に対する答えは三つほど考えられると思います。

まずは、学習が完璧ではないことによる新奇性です(novelty by failureとでも名付けましょうか)。データが足りなかったり、学習に用いるアルゴリズムが完璧でなかったり、そもそもの問題設定が人とは異なる/限定的であることによって、AIが人が思いもつかなかったような答え — 人のこれまでの評価基準では「間違い」とされるが、評価基準を変えることで新奇性のある「答え」になりうる — を返すことがあります。評価関数や解空間そのものを変えるような創造性を創発的創造性と呼ぶと紹介しましたが、ここで創発的創造性を発揮している主体は、AIの間違いをうけて自らの評価軸を変えた人間の側にもあると言えます。

現状、AIをつかった作品を面白がる視線の多くは、このカテゴリーに属するといっていいかと思います。こうしたAIの「間違い」をうまく取り入れていくことで、発想の幅を広げていくという姿勢が AIとの付き合い方として重要になるというのは、私も(そして他の人も)これまで何度も述べて来ました。Alien Intelligence, Alternative Intelligenceをいう言葉を使って記事も書いています。

余談ですが、以前、Brian Enoさんと仕事をさせていただいたときに、「自分はArtificial Intelligenceには興味がない。興味があるのはArtificial Stupidity(愚かさ)だ」と話していたことをよく思い出します。補足するならば、彼がいう愚かさは本当にデタラメな愚かさではなく、人工的に作られた(artificialな)、コントロール可能な(適度な)愚かさのことを指しているのだろうと思います。

Brian Eno’s The Ship

二つ目のシナリオは学習が非常にうまくいくことで、人間がまだ理解していなかったレベルでの一般化がなされる可能性です。(notelty by generalization) 人の真似をさせるために過去の人間の作品を学習させたところ、人が気づいていなかったようなより普遍的なルールが学習される、という可能性はゼロではありません。たとえば、人が気づいていなかったより普遍的な音楽理論のようなものが、学習から浮かび上がるといったことが、もしかしたらあるのかもしれません。これは、AlphaGoなどの囲碁や将棋のAIが、AI同士の勝負を重ねることで、人間が気づかなかった勝つためのパターンを見つけ出したといった話によく似通っています。

現実的にそういった学習が特に表現の領域で可能なのかは不明です。通常の教師あり学習で、こういった一般化が起きることは考えにくいでしょう。もしかしたらAlphaGo等と同様に強化学習を使うことで実現できるかもしれません。ただし、表現の良し悪しを決める絶対的なルールは存在しないという点で、囲碁や将棋の場合とは大きく異なるという点には留意する必要があります。前述のように人間がその表現に触れた時の印象を限定的には予測できるようになっているとはいえ、ゲームの世界のように、明快な評価を与えることはできません。最終的な評価はどこまでいっても人に依存するため、強化学習によるシミュレーションはゲームに比べると格段に難しいと言えます。

三つ目は、新奇性がうまれる仕組みを学習の枠組みのなかに組み込んでしまうという考え方です(novelty by architecture)。たとえば、Creative Adversarial Networksと呼ばれるアーキテクチャで絵画を生成する研究では、通常のGANの識別器に加えて生成された絵のジャンル(ロマン派 etc)を推定する識別器を用意し、どのジャンルとも判断がつかない絵ほど高く評価するという方法で、新奇性のある表現を生成しようとしています。ただし、ここではジャンルの判断がつかないという曖昧さを新奇性として捉えており、あくまでも新奇性の一断面を考慮しているに過ぎないということに注意が必要です。

Creative Adversarial Network

と、AIで新しい表現を実現するために考えられるシナリオを3つ述べました。お分かりのように、これらは音楽に限った話ではありません。

後編では、本題の音楽の生成にフォーカスを絞って話を進めたいと思います。

--

--