AI vs 音楽　ー人のハーモニーは機械に負けるのか！ー

f:id:kinoko1629:20200424013250j:plain

どうもブラザーです。先日、かくたあおい（勝手にあおいちゃんと呼んでます）による「5Gって、遠隔で音楽セッションができるの？」と題してYOUTUBEで講座が開かれました。めちゃくちゃ勉強になりました。

普段、仕事柄「テクノロジー分野」について触れることから非常に興味があったんですが、最近ニュースなどでも取り上げられる「AI」について、「AIが与える音楽業界への影響」そして「アカペラ界隈への影響」について様々な資料や動画を元に考察をしたので書きたいと思います。

いや、私は文系だから「AI」なんてわからないよ・・・・

お気持ちはわかります。ただ、一つ今回学んでわかったことがあります。

「AIを知らないと、やばいです。本当にやばいです」ということです。

そもそもAIってなに？
- AIの革命、ディープラーニング登場
- IoT、ビッグデータ・AI、ロボティクスについて
AIが音楽に参入。本当に作曲はできるのか・・・
- ディープラーニングが得意とする「ポップス」
- ボカロ界の革命「NEUTRINO」（AIシンガー）の登場
AIにも弱点がある。人間だからできること。
- 論理・確率・統計、AIは計算しかできない機械である
- 音楽・アカペラにとってAIはどのような存在になってくるのか
最後に

そもそもAIってなに？

AIは「artificial intelligence」の略です。「artificial」は「人工的な」、「intelligence」は「知性」と訳されます。「人工知能」という言葉を聞いたことはないでしょうか。そもそもAIはいつから考えられてきたのでしょうか。2000年くらいから？いいえ、歴史はもっと古いんです。

1950年ー1960年　第一次AIブーム　

推論と探索

1980年ー1990年　第二次AIブーム　

エキスパートシステム

2000年ー　　　　第三次AIブーム　

ディープラーニング

え？1950年！って思いましたか。1950年頃の日本は、「三種の神器」「街頭テレビ」などが注目された時代ですよ。社会で習いましたよね！この頃のAIのテーマは、「推論と探索」が課題でした。

いや、もう難しい。

簡単に言えば、ゲームをした時にレベル１の弱小コンピュータープレイヤーを作っているようなものです。1980年頃のテーマ「エキスパートシステム」では、将棋や囲碁といったその道のプロたちの能力を叩き込んだ、めちゃくちゃ強いコンピュータープレイヤーを作ることができるようになりました。

それって人工知能じゃないじゃん

いえ、この頃のAIというのは「人間が教えて学習をする」というレベルだったんです。だからこそ、AIは流行りませんでした。そこからAIブームは少し衰退をして、2000年に再びAIブームがやってきました！そして、2012年にAIの世界大会が開催され、そこでは画像をどれだけ読み込んで覚えさせるかを競っていました。この大会でカナダの大学が圧倒的な力の差を見せたのです。まぁ、例えるならサッカーの試合で「7-8」「6-5」とかの試合をしている中で「800-3」みたいな結果を叩き出した感じですね。当然響めきが起こりますよね。

「えーーwwwなにそれーー！どうやってんねーん！」みたいな。

ここで登場したのがディープラーニングです。

AIの革命、ディープラーニング登場

ディープラーニングとは「機械学習」と呼ばれています。なんか聞いたことありますよね。

f:id:kinoko1629:20200423231433p:plain

ちょっと難しい画像ですが説明します。　　

まず、人がものを覚える仕組みは、丸い印の「ニューロン（神経細胞）」と、線で表している「シナプス」の繋がりから生まれます。

ここを情報が伝達することによって、情報が蓄積をされるわけです。また、ここを往復する回数が多いほど記憶が蓄積されます。

つまりアカペラでいう「音とり」は、一度サーっと音楽を聞いて、次に細かく聞いて、楽譜をみて覚えて・・・みたいに「繰り返し」を何回かした方が覚えやすいということ。

それらを含め人間の脳みそは、右のような多層構造によって形成されており、ここをグルングルン伝達して情報を処理しています。これが「ディープラーニング」というものです。

ところで、よく前日に徹夜で音とりをしたのに忘れることってないですか。前に書いてある理論を踏まえると、丸暗記は記憶の蓄積において一番効率が悪いです。何故なら、考えなくても答えを覚えればいいから。だから、記憶に残りにくい。

ディープラーニングも同じような現象がありました。そこで「ドロップアウト」という方法で、わざと覚えにくくして自身で学習するタイミングを作ってあげることを行いました。

例えるならば、「ゾウを見分けなさい」という問題で「鼻が長いからゾウ！」と答えらえれるようにしました。ただ、絵が下手くそでやたら鼻が短いけど耳はゾウっぽいなぁっていう時に、僕らなら「ゾウ」って答えられますが、融通が聞かないAIは「ゾウではありません」と言います。ここで、「鼻が長い」＝「ゾウ」という認識をシャットアウトしてあげることで、他の要素で調べるようになります。これが「ドロップアウト」という方法です。奥が深いねぇ〜

こうしてディープラーニングが形成されていったわけです。

IoT、ビッグデータ・AI、ロボティクスについて

いやいや、またよくわからない単語が出てきたよー・・・

それぞれ、ニュースでなんとなく聞く言葉。これらはAIを知る上で非常に重要です。

f:id:kinoko1629:20200423234409j:plain

これらはバラバラなようで繋がっています。例えば、Siriがそうですよね。「美味しいラーメン屋教えてー」と聞くと音声を認識したSiriが、ラーメン屋のデータを解析して地図で教えてくれます。

この「識別」「予測・解析」「制御」の一連の動作こそ人工知能によって生み出される技術なのです。他にもマッチングアプリや、Google翻訳などもそうですね。

AIは、ディープラーニングという革命が起こったことでより技術が進歩し、人が求めるものをたくさんのデータから抽出して解析し、そして伝達を行うという技術なのです。

AIが音楽に参入。本当に作曲はできるのか・・・

上記で、だいたいAIのことがわかったと思います。つまりAIは、たくさんのデータを元に学習を行い、データとして出力をする技術（機械）なのです。ここが、すごく大事なポイントです。

さて、AIが初めて音楽と関わりを持ったのはいつでしょうか。上記の話を聞くと、なんか2000年以降な感じと思いますが、、、

はっはっは

実は、1959年「弦楽四重奏のためのイタアック組曲」というのが最初です。いやいや、ディープラーニングがなかった時代じゃないですか・・・と私も思いました。

最初でも紹介した「推論・探索」がテーマだった頃のため、もちろん楽曲データなんてなく、作られたのは楽譜だけでした。そして、人が「こういう風に作るんだよー」とコンピューターに教えていました。第1、2章に関しては”対立法”と”音価・音高”について、第３章では”音量（抑揚の表現）”第4章では”ランダムメロディーの導入”をアルゴリズムによって組み込まれ、一つの楽譜にたくさんの技術が盛り込まれました。

それでもビックニュースだったんですけどね。

ディープラーニングが得意とする「ポップス」

ポップ・ミュージックの発展と共に、クラシックとは違う独自の発展を遂げた実用的な和声理論（コード理論）は、経験則の蓄積が重要となってきます。単純なアルゴリズムでは解決できませんが、ここでビッグデータを用いたディープラーニングによってAIでも作曲ができるようになりました。

先にも書きましたが、たくさんのデータを分析することでデータとして出力できるAIは、このようなデータ解析がめっちゃ好き且つ得意です。SONYのFlow Machinesは、クラシックだけでなくジャズスタンダードやポップ・ミュージックのデータを活用して、学習能力を向上させました。

www.sonycsl.co.jp

お笑い芸人のマキタスポーツさんが、「全てのJ-POPはパクリである〜現代ポップス論考」で披露している解説があります。カノン進行をはじめ、POPSで使われるような曲の展開や作詞については、まさにAIにとって容易いデータ解析なわけです。

こうしてAIを活用した、AI作曲家・作詞家が登場をしてきました。

Break Free - Song Composed with AI | Taryn Southern (Official Music Video)

ボカロ界の革命「NEUTRINO」（AIシンガー）の登場

最近Twitterで目にするAIシンガー（きりたん）。元はNEUTRINOを開発したSHACHIさんの歌声合成ソフトによるものです。これまで、日本マイクロソフトの「りんな」やヤマハが技術協力した「AIひばり」などに比べ、より簡単に人の声で演奏ができることが特徴です。

【AIきりたん】Bad Apple!!【NEUTRINOカバー】

また、NEUTRINOの凄さは、「しゃくりあげ」や「ビブラート」といった表現もできる点です。そして面白いのは、これまでのボーカロイドは人間離れした点「肺活量が無限」という特徴だったが、人間に近づけたことで「肺活量」というものが生まれた。機械なのに呼吸がもたないんですって笑

AIシンガーには「肺活量」という概念がある。#AIシンガーきりたんも、息継ぎができないボカロ曲を歌わせると、だんだん息が足りなくなってかわいそうなことになります。 pic.twitter.com/Og1uBzS1Rd
— くろ州＝N種の歌声合成で○○ (@kM4osM_96s) 2020年2月22日

1950年代、初めてAIで作られた曲は楽譜だけでした。そこから音声認識や、自然言語処理、文章学習能力などを蓄積したビッグデータを活用したディープラーニングによって曲を作るということが可能になり、そして歌い方のデータにより音声合成技術が可能となりました。

では、アカペラ界はどうなっていくんでしょう。そして、AIは人間を超えていくのでしょうか・・・・

AIにも弱点がある。人間だからできること。

以前、このような曲がTwitterで流れていました。

【アカペラ多重録音】
A CAPPELLA ARRANGE（仮）

作詞：みやけん（@aichil1164）
作曲・編曲：Tassyさん（@Compose_Arrange）

ここまでアカペラアレンジのあるあるを的確に歌詞にしたみやけんと、それがよく伝わる素晴らしい作編曲をされたTassyさんに、最大限の敬意を込めて歌ってみました。 pic.twitter.com/veeSZl4uYH
— 齋藤龍（Ryu Saito） (@drash5296) 2019年11月25日

「アカペラアレンジあるある」を作詞・作曲した曲ということで、「あーめっちゃわかるわー」と共感をしました。AIとは違いますが、これも様々なアカペラアレンジあるあるをまとめ、それらを反映させて作られた曲ですよね。

上記でも述べたように、AIは様々なビッグデータを解析してデータを出力していきます。ただ、そんなAIにも弱点はあります。

論理・確率・統計、AIは計算しかできない機械である

2019年ビジネス書大賞の「AI vs 教科書が読めない子どもたち」。この著者である新井先生は、東京工業大学の博士卒であり、数理論理学の専門家で且つAIの第一人者です。

そんな著者がいっています

みなさんが思っているAIは違う。AIは計算しかできない機械である

「AIは自分で調べ、自分では学習できない」と述べています。

えーーー！！ディープラーニングとか散々言ってたやん！！

ここまで読んだ意味はなんだったのー！！

実は、この先生は東大受験合格を目指すロボット「東ロボくんプロジェクト」に携わっていました。試験結果はどうだったかというと・・・・落ちました。そう、AIを活用しても東大には合格できなかったんです。

【日本ニュース】「東ロボくん」成績限界で東大合格諦める

ただ「社会」「数学」「物理」は合格ライン。ダメだったのは「英語」「国語」だったんです。東京大学の試験は記述式の問題も多く、社会は過去の”データ・統計”、数学はデータ解析によって解けますが、英語や国語は解けませんでした。ただ、選択式は解けます。

なぜか

振り返ってみましょう

「AIは、情報を読み込み、たくさんのデータ（ビッグデータ）を元に解析し、データを出力」します。

ここには、数学の根本である下記の3つがベースとなってます。

論理：

例えば、A=BでB=CならばA=Cである　

確率：

サイコロを降って次に出るのは1/6である

統計：

ラーメン屋さんの来店者数によって１位はここだ

わかりにくいですかね。率直にいうと

「AIは”意味”を知らないんです。ただ、情報をもとに検索してるだけなんです。」

例えば、「山田くんは、佐藤さんのことが好きです。」という文章について、私達ならこの文章の意味はわかりますよね。ただ、AIからすれば「わからないんです」

だって、”山田くんが佐藤さんを好きという意味がわからないから”

好きという単語はわかっても、山田さんが佐藤さんを好きということはわからない。

Google翻訳もAIの技術ですが、あれ信頼してますか？まぁ最近はだいぶマシになりましたが、よくわけのわからない文章が出ますよね。AIは、単語を訳して並べてるだけなんです。だから、単語の意味はわかっても、会話の意味はわからないんです！

でも、Siriに遊び半分で「結婚しよう」とかいうと「友達のままでいましょう」とか、なんか洒落た答え帰ってくるやーん。と思いますが、あれは裏で文章を打ち込んで読み込ませているからです。つまり、データがあるからです。

だから、AIは自身で情報を収集して学習なんてできないんです。「コミュニケーション能力」と「読解力」がありません。そこが、AIにできない且つ弱点と著者は話しています。

音楽・アカペラにとってAIはどのような存在になってくるのか

上記にあるAIによって作曲された作品も、人の手によって一部は導かれています。また、NHKで紹介をされた「AI・美空ひばり」でも、最初にデータ解析を元に作られた美空ひばりさんの歌声は、長年応援をしてきたファンの耳には響きませんでした。その後、ファンの意見を参考に音声解析をし、「高次倍音」という技術が美空ひばりさんにはあると気づき、そのデータを読み込ませたことで感動する作品になったわけです。

NHKスペシャル「AIでよみがえる美空ひばり」新曲「あれから」

ちなみに、この「あれから」という曲は、作詞家である秋本康さんによって作られ、作曲は佐藤嘉風、編曲野中”まさ”雄一さんによって作られました。AIの技術は映像と音声合成に組み込まれています。

人を感動させることは難しいです。限られたデータ量と、AI技術者の力では断片的な音楽を生み出すことしかできないとのことです。音楽には「聴き手」がおり、その聴き手がなぜ感動するのかは、単純なデータではなかなか測れないということですね。売れるか売れないかについては、過去の統計データで解析できるかもしれませんが。アカペラにおいては、ハモリというのはAIでも可能ですし、アカペラ曲だってデータさえあれば作ることができます。もう楽譜さえあれば、上記のきりたんのように歌ってくれますしね。

ただ、私たちは練習の時にコミュニケーションを図ることで、より人を感動させるにはどうすればいいかを考えています。AIにとっては、どうすればいいかを技術者に頼るしかなく、コミュニケーションというものが欠乏しています。またデータ入力に時間もかかります。演奏時にも、聴き手のその時々の環境での表情や情景を理解し、物語感を作れるのが人間ができることだと思います。

また、アカペラのいいところは、楽器とは違いより感情を乗せたハーモニーを届けられる点です。100%毎回同じピッチで演奏したことある人はプロでもいないんじゃないですかね。そうなってきたときに、AIでは理解ができないライブ感がまた生まれるわけです。

f:id:kinoko1629:20190114145156j:plain

最後に

今回、AIに特化した題材で記載をしました。改めて、AIの技術力には日々の進化に驚かされます。ただ、AIにも弱点があるということは理解するべきだと思います。その弱点が、私たちにとっては武器であり、また改めて大切にしなくてはならないことだと思います。皆さんは、練習の時に”表現”を確認できてるでしょうか。また、バンドメンバーと”コミュニケーション”をとっているでしょうか。AIがこの領域にくるのは、私たちが生きている間はあり得ないと新井先生はお話していますが、演奏を行う身として大切にしていきたいことですね。

ところで、「読解力」ってありますか