この記事はこちらのPDFを参考文献として執筆されました。
この記事の要約
現代音楽のフロンティアを行く作曲家、ロバート・レイドロー氏の画期的な探求。人工知能(AI)を単なるツールとしてではなく、創造性の本質、音楽的時間、真贋といった根源的な問いを掘り下げる存在として創作プロセスに統合した彼の道のりを追います。初期の実験から大規模オーケストラ作品に至るまで、AIとの対話から生まれた独自の技法や美学を詳解し、人間とAIが共創する未来の音楽の可能性に迫る記事です。目次
なぜ今、AIと音楽なのか? – 探求の背景
レイドロー氏の音楽的背景には、ジャズ演奏家としての経験と、科学者との共同作業を通じた数学や物理学への深い関心があります。原子核物理学や天文学といった分野とのコラボレーションから生まれた過去の作品は、すでに異分野の概念を音楽に翻訳する試みを含んでいました。AIへのアプローチも同様に、プログラミングや統計学の専門家としてではなく、この分野が自身の作曲に何をもたらすかを好奇心を持って探求する姿勢から始まりました。 彼の探求の中心にあったのは、現代音楽におけるテクノロジーとの関係、そして音楽のフォームや時間に対する問いです。ベートーヴェンのソナタ形式から現代作曲家アンドリュー・ノーマンの作品まで、彼は音楽形式を操作・発展させる対象として捉えてきました。また、時間そのものを空間的な現象として再文脈化するクララ・イアノッタやジョン・ルーサー・アダムズといった作曲家からも影響を受けています。 さらに、AIとの協業は「AIは作曲家と言えるのか?」「AIの書いた部分はどこか?」といった、創造性や作者性に関する根源的な問いを突きつけました。レイドロー氏は、AIを「人間中心(human-centred)」なツールとして捉え、完成された音楽ではなく、創造プロセスを支援する「不完全な鏡」として利用することを模索します。これは、AIが生み出す予期せぬ結果や「バグ」さえも、作曲の素材として積極的に受け入れるという姿勢に繋がります。ミュージカル・ストラクチャリズム(Musical Structuralism)とは
構造主義哲学のアイデアを音楽に適用する考え方の一つ。AIのデータ拡張という技術から着想を得て、音高やリズムなどの個別の要素そのものよりも、それらの要素間の「関係性」や「構造」を重視する考え方を指します。音を転調したり楽器を変えたりしても、その関係性が保たれていれば本質的に同じと見なせる、というような視点です。アルゴリズム時間(Algorithmic Time)とは
アルゴリズムがその処理ステップを進めることで経過する時間のこと。私たちが普段感じる時計の針が進む「実際の時間」とは異なり、アルゴリズムの内部的な進行によって定義されます。AIが音楽を生成する際など、その過程自体に時間的な構造を見出す考え方です。AIを「ツール」として使う初期実験 – 様々なアルゴリズムとの対話から生まれた作品群
レイドロー氏の初期の実験は、様々な種類の生成AIアルゴリズムを試し、その特性を理解することに焦点が置かれました。彼は「Clara」という比較的シンプルなLSTM-RNNモデルから始め、「MuseNet」や「GPT-2」といったより高度なトランスフォーマー・アーキテクチャに基づくモデルへと移行します。これらのシンボリック生成AIは、楽譜やMIDIデータ、あるいはテキストといった「記号」を扱います。一方、「WaveNet」や「SampleRNN」といったオーディオ生成AIは、直接「音」のデータを扱います。生成AIアルゴリズム(Generative AI Algorithm)とは
テキスト、画像、音楽、音声といった新しいデータを作り出すことができるAIのこと。既存のデータを分析・分類することとは対照的です。シンボリック生成AI(Symbolic-Generative AI)とは
楽譜データ(MIDIなど)やテキストといった、音楽を記号的に表現したデータを生成するAI。対照的なのはオーディオ生成AIです。オーディオ生成AI(Audio-Generative AI)とは
音のデータ(WAVやMP3ファイルなど)を直接生成するAI。音楽や話し声など、様々な種類のオーディオを作り出せます。トランスフォーマー(Transformer)とは
近年、テキストや音楽生成の分野で広く使われているAIのモデル構造の一つ。長期的なパターンや文脈を捉えるのが得意で、LSTM-RNNなどの以前の構造よりも優れた結果を出すことが多いです。- Turing Test // Prelude (2019): バッハのソロ鍵盤曲の途中にAI(Clara/MuseNet)が生成した部分を挿入し、聴衆がバッハかAIかを聞き分けるチューリング・テスト形式の作品。AIが楽器の特性を理解しないことから生じる「unidiomatic」(非慣用的な)な音楽に着目。
- Three Entistatios (2019): 機械学習の異なる訓練段階にあるAI(Clara, MuseNet)を用いて作曲。各楽章が異なる手法(Collaging, Interlocking, Hidden Layers)をプロトタイプ的に探求。特に、AIの「忘れっぽさ」や「繰り返し」の癖から着想を得た隠しレイヤーを用いた。
- Alter (2019): メゾソプラノ、アンサンブル、エレクトロニクスのための作品。19世紀の数学者エイダ・ラブレースの Analytical Engine に関する考察から着想を得て、AI(MuseNet, WaveNet, GPT-2, カスタムText-RNN)が自己認識を高めていく物語を描く。人間と電子声部間の「垂直方向の Interlocking」や、Text-RNNとGPT-2を連携させたテキスト生成、WaveNetによる音声生成などを試みた。特に、AIが生成するテキストの奇妙な「偏極」が作品の雰囲気に影響を与えている。
- Rose Green (2021): 固定メディアのオーディオ・ビジュアル作品。新たなAIモデルを訓練せず、「拾ってきた」既存のAI(LakhNES, Synth1GAN, FakeYou, 強化学習AI)を用いることで、AI訓練のエネルギーコストとノスタルジアをテーマにする。LakhNESによる8ビット音楽生成、FakeYouによるAI生成テキストの朗読、ゲームを学習する強化学習AIの映像などをコラージュ的に組み合わせ、AIとノスタルジア、気候変動といったテーマを探求。オーディオ生成AIをコラージュする試みを行った。
- Disc Fragments (2021): テノールとシンセサイザーのための作品。パンデミックに関する歴史的テキストをAI(fine-tuned GPT-2)に生成させ、それを元に作曲。テノール声部はisorhythmicなパターンを繰り返し、シンセサイザー(Omar Peracha開発のAIアルゴリズムを使用)はコラージュ的な聖歌風のフレーズを生成。GPT-2がテキスト生成を突然中断する性質から着想を得た構造を採用。第4楽章では、シューベルトの「冬の旅」で訓練したSampleRNNによる音声生成をテノールが模倣する「Imitation」を探求した。
音楽構造主義と時間 – AIから得た新たな視点、その深化
初期の実験を経て、レイドロー氏の関心はAIが示唆する音楽構造主義と時間の概念へと深まっていきました。AI、特にシンボリック生成AIの学習方法、例えばデータセット拡張の手法は、彼に音楽の本質について深く考えさせました。データセット拡張では、音楽の音高やリズムの「関係性」を保ったまま、調性を移調したり、楽器を変えたり、リズムを引き伸ばしたりといった操作を行います。これは、音楽が個別の音そのものというより、それらの間の関係性から「創発(emergent)」するという考え方を暗示しているようにレイドロー氏には映りました。 この音楽構造主義的な視点は、彼の作品「Chromodynamics」「Gravity」「Warp」に色濃く反映されています。「Chromodynamics」では、粒子物理学の概念(時間の経過が粒子の質量によって異なる)から着想を得て、同じ音楽的イベントが時間のスケールを変えて何度も現れるアルゴリズム時間の構造を探求しました。一つのイベントを異なる速度の「参照フレーム」で繰り返すことで、時間の感覚を操作しています。これまでの作品での反省を活かし、各参照フレーム内で十分な音楽的ヴァリエーションを持たせることで、単なる反復ではなく加速・変形していく感覚を強めました。 「Gravity」では、アイザック・ニュートンの万有引力論からアルベルト・アインシュタインの一般相対性理論へと、重力に関する科学的説明の歴史を辿るように音楽が展開します。ここでは、18世紀の音楽理論家トーマス・サーモンが提案した独自の調律システム(ニュートンの理論に触発されたとされる)を借用し、「Salmon-scale」と名付けた固定の音律を導入しました。この音律は特定の調(Ddur)に引き寄せられる性質を持ち、無限に移調可能なはずの音楽素材に内在的な引力を持たせることで、音楽構造主義的なアプローチを具現化しています。さらに、彼は「チューニング(音律)」「ティンバー(音色)」「テクスチャ(密度)」「タイム(時間)」の四つの「配列(arrays)」を設定し、それぞれの配列の極限(「ゼロ」や「最大」)を探ることで、一般相対性理論が極限スケールで破綻するという物理学の課題を音楽に翻訳する試みも行いました。最終楽章の静寂は、これら四つの配列全てが極限に達した状態、つまり「音楽的時間」が停止した状態として描かれています。 「Warp」では、アインシュタインの場の方程式の解(光速を超えるワープドライブの可能性)を音楽で表現することを試みました。ここでは、「Gravity」で探求した「配列」の概念を拡張し、オーケストラの楽器ごとに異なるティンバー配列と速度配列を設定しました。ワープする宇宙船をソロピアノ、時空の織物をオーケストラに見立て、音色と速度の配列上を旅するオーケストラの音響的なジャーニーを描きます。特定の楽器に固有の拡張奏法を配列の極限に配置することで、音楽構造主義的な無限の移調可能性に対する、楽器の「エッセンス」に基づいた音楽のあり方を対比させています。ピアノとオーケストラは互いに異なる論理で進行し、最後になって統一されます。データセット拡張(Dataset Augmentation)とは
機械学習で使う訓練データが少ない場合に、既存のデータに変換(例:音楽の移調、速度変更)を加えて新しいデータを人工的に増やし、学習効果を高める手法です。配列(Array)とは
レイドロー氏が作品「Gravity」や「Warp」で用いた作曲上の概念。音色、リズム、テクスチャなど、ある音楽的パラメータにおける複数の可能な状態やポジションをリストアップしたものです。作品の中でこれらの配列上のポジションを移動したり組み合わせたりすることで、音楽の構造や変化を設計しました。真贋とシステムの二面性 – 作品「Silicon」の中心テーマ
レイドロー氏の探求は、AIが持つ真贋(オーセンティシティ)という側面へと移ります。近年、AIは人間が作成したものと見分けがつかない偽物(フェイクニュース、ディープフェイク動画など)を生成する能力を高めています。これは、情報の真贋を問うことがこれまで以上に重要になる社会状況を生み出しています。芸術の世界でも同様に、AIがモーツァルト風の音楽を生成できたとしても、それが真にオーセンティックな音楽であるかどうかは主観的な問題として残ります。 オーケストラという場は、まさにこの真贋について考える格好の場でした。オーケストラの演奏家は、何世紀も前の音楽を演奏する際に、その時代の演奏習慣や解釈について深く議論します。AIが生成した音楽を「本物の」人間である演奏家が演奏するとき、それはどのようなオーセンティシティを持つのでしょうか?そして、AIが普及した時代に、オーケストラという存在の秘密、つまりなぜ人々が実際に会場に足を運び、人間が音を奏でるのを見たいと思うのか、という問いが浮かび上がります。 大規模作品「Silicon」(2020-2022)は、これらの問いを包括的に探求する作品です。全三楽章からなり、「Mind(精神)」「Body(身体)」「Soul(魂)」というテーマが、AIが持つ「未来と過去」「フェイクとリアル」「システムと秘密」という三つのデュアリティ(二面性)に対応しています。
スタイル転送(Style Transfer)とは
あるデータ(Source)の内容を、別のデータ(Target)のスタイルで再構築する技術。画像分野でよく使われ、写真の内容を有名な画家のスタイルで描く、といったことが可能です。音楽や音声の分野にも応用され、ある音源の音色(Targetのスタイル)を使って別の音源(Sourceの内容)を鳴らす、といったことができます。DDSP(Differentiable Digital Signal Processing)とは
Google Magentaが開発したAIベースの音源変換ツール。音のスペクトルやハーモニーといった内容を保ったまま、音色(ティンバー)を別のものに変換したり、新しい音色を生成したりできます。SampleRNNとは
音の波形データをサンプル単位で生成するオーディオ生成AIの一つ。与えられたオーディオデータセットから音響のパターンを学習し、新しい音声を生成します。ドッペルゲンガー(Doppelgänger)とは
ドイツ語で「二重の歩く者」を意味し、自分とそっくり同じ姿の分身のこと。ここでは、BBCフィルハーモニックの音を学習して生成されたAIを、オーケストラ自身の音響的な分身として比喩的に用いています。AIは創造プロセスにおける何なのか? – 結論と今後の展望
博士論文の結論で、レイドロー氏はAIを「ツール」「コラボレーター」「エージェント」「アイデア」と様々な言葉で表現した自身の考えの変遷を振り返ります。ハンマーのような単なるツールとは異なり、AIは自ら学習し、予期せぬ結果を生み出します。完全に人間のようなコラボレーターにはまだ達していませんが、「エージェント」として、学習したルールに基づき独自の「決定」を下し、創造プロセスに影響を与える存在である、という捉え方が現時点では最も的確だと述べています。
