前回AIについて書いたので、今回は関連する別の話を書こうと思っていたのだが、AIについては考えることが多すぎて、また続編を書くことになった。今回も最後の方まで音楽が出て来ない話になるが、しばらくご辛抱の上お付き合いいただきたい。
ここ少しの間にChatGPTのほかにBingAIとかBardとか、いろいろな生成AIが登場して、ますますこの種の話題がにぎやかになってくるとともに、生成AIというモノに対する一般的な理解もやや落ち着いてきているように思われる。以前はあらゆることを理解していて何でも教えてくれる賢者のような扱いだったが、さすがに人間が何かを「理解している」というのとの差ははっきり認識されてきたようだ。文章生成AIというものが日常語による入力を柔軟に処理し、また出力の形式をきちんと整えることのできるよく作られたインターフェースであって、それ以上でもそれ以下でもないということは、いまさら言うまでもないだろう。
再度繰り返すが、ChatGPTの回答が常識的で誤りも多くたいしたものでないという意見に対しては、私はごく素直にChatGPTの機能をすごいと思っている。私も情報に飢えている人間なので、毎日検索エンジンの窓にいろいろなワードを入れて、何か関連情報が出て来ないかと期待するのだが、これはというサイトがヒットすることは意外に少ない。入力する情報が少ないからかと思ってワードの数を増やすと、今度は「該当情報がありません」とすぐ投げ出すとか、一部のワードを無視するとか、なかなか本当に知りたい情報にアクセスできないことが多い。それから言えば、「もっともらしい結果」を即時に出してくれるGPTは得難いものである。GPT-4はまだ使ってみたことがないが多分GPT-3でも、想像もつかないほど巨大な、たがいに関係付けられたデータベースがその背後に存在するのだろうと思う。
生成AIはそもそも常識を出力するのが仕事なのだし、ChatGPT並みの常識もない人間の方が多いことは言うまでもない。また今は嘘八百の回答も多いが、対象データベースの拡大によりそれらはしだいに洗練されていき、チューリングテストに合格しないのは「全く過ちを犯さないのが怪しい」という理由になるという未来もありうると思っている。そもそもAIというのは人間と比べて仕事が早くて疲れないというのが存在理由なので、「検索」や「整理」という、人間にとって面倒で実りのない仕事を早くやってくれるのであれば使わない理由はないだろう。「検索」「整理」以上のことを機械に求めるのはそもそも間違っているし、我々の日常の仕事は残念ながらほとんどが既存のパターンの並べ替えなので、それで失業する人間が出てきてもそれは歴史が教える通りどうしようもないことである。
創作の分野でも、我々は決して常に独創的であるわけではない。前回のブログでも述べたように多くの創作は既存のフレーズの組み合わせであり、特に「即興演奏」という分野においては一部の天才のパフォーマンス以外はほとんどがそのようなモノであろうと考えられる。人間はそういう既存のフレーズに何らかの独創を加えることによって新奇なものを生み出すわけだが、大多数の作品における真に独創的な部分というものはごく限られていると思われる。(⇒「定型の効用」)
いずれにせよ、AIは典型的な「機械」であることには変わりない。「理解し、考える」のはどこまで行っても人間で、AIはそれを整理するのが仕事なのだ。人間がその都度考える代わりに、過去の人間の作業を蓄積してデータベースを作り、必要に応じてそれを即時に取り出すのがAIの役目である。常識がないと馬鹿にされそうだが、私には以前から検索エンジンの動作が早すぎるという疑問があった。何かキーワードをGoogleとかBingとかの検索エンジンに入れてEnterを押すと、ほとんど1秒以内に何らかの検索結果が出てくる(冒頭に書いたように不満な結果も多々あるのだが)。しかも数万件のサイトがヒットするケースなどがあるので、どうやってこれらの検索エンジンがそれだけのサイトを瞬時にチェックしたのかという疑問が当然出るのだが、専門家の義兄に訊くと、それはAIが常に様々な質問を通じてインデックスを作成している、すなわち過去の質問と似たような質問が来た時にすぐに答えられるように、データ同士を関連付けて準備しているからだ、ということのようである。
つまり、AIは過去の経験から「そういう質問がありうる」ことを学んでいるわけであり、現在もなお我々が質問する度に、そのような質問・回答群を整理し蓄積し続けているわけだ(アクセスしているデータベースの更新は完全にリアルタイムではないらしいが)。だから検索エンジンと比較すれば、ChatGPTの回答のスピードも驚くほどではないのかもしれない。
よく登録サイトにログインしたいときに、操作しているのがコンピューターでなく人間であることをチェックするためにジグソーパズルを完成させられることがある。以前から、なぜこれで操作しているのが人間であるか分かるのが不思議でしょうがなかったのだが、実はパズルが完成すればいいという訳ではなく、ポイントはパズルを完成させる前の操作、どのようにパズルの断片を動かすかを相手がモニターしているのだという。すなわち、我々はパソコンやスマホから情報を取り出していると思っている瞬間も、実は逆に相手にいろいろな情報を与えているわけだ。ECサイトは様々な商品をチェックしているとそれを見てこちらが買いそうな商品をお勧めしてくるし、迂闊にR18サイトなどチラ見すればその手の広告でパソコンの画面が埋め尽くされてしまう。YouTubeで音楽を検索していると、先方が過去に検索したものと類似の音楽をお勧めしてくるのだが、たまに孫たちが来てドラえもんやウルトラマンの音楽をYouTubeでかけてやると、しばらくその手の音楽が「お勧め」の定番になる。
すなわち今の世界はフーコー的なパノプティコン(監視装置)が実装されていて、我々の行動は常に監視される一方、そのような形で接することになる情報によって我々の精神は形成されるようになっている。それは世論がモーニングショーで形成されるというのと同様の効果であって、「AIが自律的に世界を支配する」というような話とはまた別である。本当かどうか知らないが「香港が中国に統合されたことは残念だ」という英文を中国でGoogle翻訳にかけると「香港が中国に統合されたことは喜ばしい」という中国語文が出力されるという伝説がある。同様の操作をChatGPTでやろうとすれば、大量の誤情報をChatGPTのデータベースに混入させればいいということになろう。すなわち、世界を支配するものはAIではなく情報ネットワークの浸透であるということが言える。幸い私に関して言えば、まだドラえもんやウルトラマンの音楽をメインに鑑賞したいというところまでは洗脳されていない。
話がそれたが、現在のAIがやっていることは、要は巨大な相互関連付けられたデータベースへのアクセスと整理された出力であって、囲碁や将棋のように話が単純で機械同士で強化学習ができるもの以外は、人間が今まで理解し考えた情報の蓄積である。前回のブログで、AIによる音楽の作成の最初の実験である「イリアック組曲」が音の連続のマルコフ性を前提にして作られたという話をしたが、どうも最近テレビなどでChatGPTの説明を聞くと、根本的発想はほとんど変わっていないことが分かる。「日本の首都は」に続くのは「京都」「大阪」よりも「東京」の確率が高いというような膨大なデータの蓄積によって、ChatGPTは正解の可能性が高いものを出力するというのだが、これほどもっともらしい文章が単なるマルコフ過程だけで作成できるというのは驚くべきことであるとともに、逆に普通の人間の思考はどうなのか?AIは確かに何も考えていないかもしれないが、人間は日常的にどこまで考えているのか?という疑問すら生じてくる。
当然、文章の生成能力が高いと言うことは、ある程度の規模の「意味の塊」をAIが取り扱えるようになっていることを意味する。私はSIRIのような返事をしてくれるロボットをほとんど使ったことがなかったので、ロボットのしゃべり方が長足の進歩を遂げていることに最近まで全く気が付かなかった。昔はロボットの話し方は完全に棒読みで、抑揚も何もなかったものだが、今は全く新しい文字情報を読み込んでも、人間らしい話し方ができるようになっている。ということは、今のロボットは文字情報でも音声情報でもそれをきちんと分節して意味のある塊(すなわち「単語」や「文」)として捉えているということである。マルコフ過程によって文章を構築するということは、なんらかの「塊」を入力された文章から切り出し辞書と照合するというワープロ的作業に加えて、それに対応するデータベースにある大量の単語や文から適切なものを選択しなければならない。まさに気が遠くなるほどの数の関係性・確率が設定されているわけである。
もちろん、AIのアクセスするデータベースの限界から(人間であっても全く同じだが)AIが過ちを犯すと、それを人間がチェックしてその誤りを正すという過程(いわゆる「強化学習」)も必須である。いまやChatGPTのユーザーは世界に1億人を超えると言われているが、この人々が片っ端から文章の評価を行えば(もちろん正しくない評価も多々あるだろうが)世界の人々が平均的に認める「常識」が次第に確立されていくということになる。先に述べたように、自分で意識せずに評価などの情報をデータベースに与えている可能性や「正しくない評価」を組織的に行う危険性もあるのだが、どういう方式で評価がシステムに反映されるのかが興味深い(多数決なのか?)。
以上いまや常識となっている話ばかりしてきたが、やっと言語の問題から離れて、当ブログ本来の「音楽の問題」である。言語の場合は20世紀半ば以来の研究の積み重ねがあって、初期のワープロなど「できるだけ短い単語を優先して選択する」などという単純そのもののルールによって奇妙奇天烈な漢字変換が行われたりしたものだが、いまは相当前後の情況を考えた変換が行えるようになっている。しかし音楽の場合難しいのは「分節のあり方」である。言語は「世界を分節する」という機能から「意味」による分節が明確に規定されていて、「辞書」や「文法」が存在する。しかし音楽の場合はそういう明確なものがない。これが音楽をマルコフ過程で構築するときに生じる最大の課題であると思われる。
近代西洋音楽においては、明確な分節性を持つ「楽音」という概念(私はこれを「個人」「個物」等と並べて「個音」と呼んでいる)があり、これを構築することによって音楽が作られる。言語では音素と単語の二重分節性があり、音素を単語に構築するための辞書が存在する。しかし音楽の場合どのような個音の組み合わせを分節と考えるかはほとんど自由に委ねられていて、それが音楽の豊かさを形成している。しかも一旦形成された分節を後の分節が解体してしまうことすらある(偽終止とか転調とか、そういう例は枚挙にいとまがない)。これに比べれば、まだAIで具象画を作るなどの方が「顔」や「手足」などの分節認識ができる分容易であると言えよう。
逆に文章と異なり、AIで音楽を創ることには「正解」がないという面もある。「強化学習」はあくまで出力の結果を人間が好むか否かのみになる。従って、AIによる音楽がいかにももっともらしく感じられるためには、既存の「名曲」のフレーズを参照して、だれもが「音楽らしい」と感じるものを作るように仕立てることが必要であるということだ。すなわち、現代音楽っぽい、音がランダムに存在するように聞こえる様式のものをAIに作らせても、機械がそういう「訳の分からない」ものを作るのは当たり前すぎて誰も感心しないということになるだろう。
したがって、AIに作曲をさせるためには、既存の名曲を単語のような細かいフレーズに切り分け、AIに与えてその関係性を記憶させ曲に発展させるか、もっと大局的な構造(例えばコード進行とか音楽形式とか)を事前に設定して上から抑えるか、いずれにせよAIが扱いやすいように人間が工夫してやる必要があるだろう。その結果、前者の手法主体だと全体は何となくミニマルっぽい変化の乏しいものになる可能性があり、後者の手法主体だとどこかで聞いたことのある展開が聞こえてきて、どちらもまさに言語の場合と同様常識的だが刺激的ではないというBGMなどに最適のものが生まれてくるような気がする。(※AIによる作曲技法について書かれた本もあるが、正直素人が理解するにはかなりハードルが高くて内容をつかめないので、上記は単なる想像で書いている。実態と異るかもしれないのであらかじめお断わりしておく。)
また、言語と異なる大きな問題は「過学習」である。言語の場合、AIは常に新しい問いかけと評価によって更新されるので、マンネリに陥る危険性は比較的少ないが、音楽の場合「『エリーゼのために』のような曲を創れ」とAIに指示した場合、最高に成功したAIが出力するのは『エリーゼのために』そのものである(ボルヘスの小説に出てくる、最も精細な地図が原寸大になってしまう寓話を思い出す)。音楽生成に要求されるような新しいものを作るためには、手法を抽象化するなど関係性を緩めて、なんらかのランダム性を導入することが必要だが、それがうまくいくかどうかはやはり人間が耳で聞くしかないのだろう。
さらに、AIが単語の「意味」を全く理解していないように、フレーズなど音楽の要素についての「意味」も現状理解できないことは間違いない。AIにとって個別のフレーズの「意味」とは、そのフレーズがどのフレーズとつながりやすいかである。しかし人間にとっては各フレーズに「表象」が存在して、その表象によってフレーズ同士が構築されると我々は考えている。逆に、構築された音の中で、特定の表象を与える部分をフレーズとして記憶している(いわゆる「ゲシュタルト」として記憶する)ということも言える。こういうAIの受け取り方と人間の受け取り方は、ひょっとすると同根のものであるのかもしれないが、その間のギャップは非常に大きいと思われ、現状ではAIの作る音楽と人間の作る音楽の間には根本的な超えがたい溝があるように感じる。
以上、AIについて全く無知な人間が現時点で考えられることを綴ってみたが、決して否定的な結論を述べたつもりはない。AIに作曲を行わせることは、実用面はもちろんのこと、ある意味音楽というモノの成り立ちの根本を考えることであって、音楽学を真の(認知)科学に昇格させるきっかけとなるかもしれない。とは言え、私の様な日曜作曲家からすると、折角音楽の作り方を長年かけて学び、作曲の過程に喜びを感じるような趣味は、AIを起動するだけで音楽が鳴るというのとは全く異なる楽しみ方であるということになるのだが。
コメントをお書きください
中村有陽 (月曜日, 29 5月 2023 00:24)
基本的には作曲することは、普通の子供たちが文字の書き方を習ってそれらを使って身の回りのものから書き表すことを覚えて、いろいろな出来事からストーリーを知る様になり、それらを書き表せる様になる・・と同じ様に思います。
作曲する人は様々な出来事に出会ったときに起こる心の動きから出てくる音楽を捉えて、音符を使って書き留めている。・・と思います。
多分AIには難しいでしょうね。様々な出来事はネット社会から情報としてAIに蓄積され、なんらかの法則はAIが発見していくでしょう。
ですから、AIに音楽を学習させれば和声理論などはメロディーに対して素晴らしく綺麗な和声進行を作ることもできるでしょう。またオーケストレーションもコンデンススコアがあれば一瞬のでやってのけるでしょう。
でも今のところAIには物事に対してどう感じているかがありません。あったとしてもビックデーターから、・・なんらかの物事が起こると人々は何かを感じている、するととこの言葉を使って表す・・をデーター化し、そこから推し測ってAIはコメントを出すでしょう。またそのコメント自体もどの様な表現をすれば常識的に捉えられるかを推し測って作るでしょう。
しかし、生き物であり発達した頭脳をもつ人間はそれらを直感で処理し、出てきた自分のコメントは芸術家であるならば自分の芸術活動に結びつけていきます。それは個々の人間に与えられた自由です。
・・・それが芸術の面白さかと思います。
MUSICOLO爺 (月曜日, 29 5月 2023 21:53)
コメント有難うございます。AIに何ができるか、何ができないかを考えることは、音楽の本質を考えるうえで非常に参考になることだと思います。
「感じる」ことがなければ音楽は創造できない。機械に「感じる」ことはできない。この2点は全く同感です。人間は(多分、生物はすべて)情報を単に受取るだけでなく、「感じる」ことによって「感じたもの」すなわち表象を蓄積(記憶)し、それに対する対応を取ることができます。これに対して機械は情報処理の方法を自ら創造することは基本的にないので、「感じる」という手続も存在しません。これは機械自身に自己保存や自己産生という目的がないためです。(話すと長くなるので、以上結論だけお伝えします。)
音楽についてもAIが自発的に表象を保持運用することはありません。そういう必要性があるのは生物の中でも特に人間で、人間は音楽のような文化活動を精神の機能保全のために積極的に利用します。機械にそのような必然性はなく、AIが自ら音楽を創造しないのは当然のことであると言えます。
但し、作曲が作者の体験した出来事に対する心の動きから生じるというご意見は、若干注釈を要すると思います。悲劇的な状況に陥らなければ悲劇が作れないのなら、シェークスピアの人生は悲惨だったに違いないでしょう。しかし人間は「共感」という能力を持っているので、「特定の形式に対して特定の感覚が生まれる」という認識さえあれば、それを他人にも伝えることができるような作品を作ることができます。私も作曲の真似事をしますが、その過程を説明することは現実には難しく、「自分の頭の中に曲が浮かんだ」という理屈抜きの「体験」がすべてであるような気がします。
説明をかなり端折りましたが、拙著にやや詳しい説明を記載しておりますので、もしご興味があればご覧ください。
https://www.amazon.co.jp/%E9%9F%B3%E6%A5%BD%E5%8F%B2%E3%81%AE%E3%83%91%E3%83%BC%E3%82%B9%E3%83%9A%E3%82%AF%E3%83%86%E3%82%A3%E3%83%96-%E9%9F%B3%E6%A5%BD%E5%AD%A6%E7%B5%B1%E5%90%88%E3%81%AE%E8%A9%A6%E3%81%BF-%E3%82%A8%E3%83%83%E3%82%BB%E3%82%A4-%E6%9C%89%E5%B1%B1-%E6%99%83%E4%B8%80-ebook/dp/B08FHQTWH3/ref=sr_1_1?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&dchild=1&keywords=%E9%9F%B3%E6%A5%BD%E5%8F%B2%E3%81%AE%E3%83%91%E3%83%BC%E3%82%B9%E3%83%9A%E3%82%AF%E3%83%86%E3%82%A3%E3%83%96&qid=1600052609&sr=8-1