登場者プロフィール
光藤 祐基(みつふじ ゆうき)
その他 : ソニーAIアメリカ リードリサーチサイエンティスト理工学部 卒業理工学研究科 卒業塾員(2002 理工、2004理工修)。ニューヨーク大学客員教授。情報理工学博士。Stanford/ElsevierのWorld's Top 2% Scientistsに選出。
光藤 祐基(みつふじ ゆうき)
その他 : ソニーAIアメリカ リードリサーチサイエンティスト理工学部 卒業理工学研究科 卒業塾員(2002 理工、2004理工修)。ニューヨーク大学客員教授。情報理工学博士。Stanford/ElsevierのWorld's Top 2% Scientistsに選出。
インタビュアー 斎藤 英雄(さいとう ひでお)
理工学部 情報工学科教授インタビュアー 斎藤 英雄(さいとう ひでお)
理工学部 情報工学科教授
矢上賞を受賞して
──このたびは「矢上賞」の受賞おめでとうございます。まず受賞の感想はいかがですか?
もう卒業してから20年以上になりますね。小沢慎治先生・斎藤先生の研究室は画像中心だったと思いますが、割と音楽系の研究をさせていただくことができました。少し外れた活動も許されて研究ができたことに感謝しています。
大学時代は音楽活動に夢中だったので、そういった研究テーマを選んだのですが、会社に入る時も、やはりエンターテインメントとして音楽を扱っている企業を考えてソニーを選びました。入社後も、比較的自分のやりたい方向のものをやることができ、音楽とAIのことを研究してきました。
パフォーマンスをする側のアーティスト、クリエーター、コンテンツを作る側の人などと試行錯誤しながら、いくつかの作品をこの世に出すことができました。その中で、今回の矢上賞受賞につながった「音源分離」という技術がだんだんと認知されるようになり、その研究について斎藤先生にお話ししたところ、「もしかしたら受賞するよ」ということで矢上賞に応募させていただき、非常によい結果をいただくことができて嬉しく思っています。
──授賞式で再会できて私も嬉しかったです。
授賞式の場にいらしていただき、また小沢先生も足を運んでくださったので、一瞬自分が20年前に戻ったかのような感覚がありました。斎藤先生とは年齢も比較的近く、僕の音楽のライブなどを見にこられたり、寄り添っていただいて感謝しています。
──卒業されてからソニーに入ったことは知っていましたが、ウェブの記事などで、博士を取られて研究者として非常に活躍されていて、驚いた記憶があります。慶應のAIセンターが2024年に立ち上がり、その際、協力関係があるソニー側のグループリーダーに光藤さんがなられて、慶應との関係においてもつながりができたことも非常に嬉しく思っています。
音源分離技術とは?
──光藤さんが今までずっと関わってこられた音源分離技術とはどういうものなのでしょうか。なぜ必要となるのか。音をなぜ分離しなければならないのでしょうか。
音源分離技術は1990年代からあります。よくカクテルパーティー効果という言葉が用いられますが、パーティーでざわざわしている中で声をかけられた時、その声が周りと同じくらいのボリュームなのに、なぜか人間は気づくことができます。これは人間にはできますがマシンはできないのです。これを実現するための技術として音源分離がスタートします。
この技術は、いろいろな楽器が混合している音楽から特定の楽器やボーカルだけを抜き出すことにも応用できるのでは、と期待されてきたのですが、技術的なハードルがありました。
例えば人の声を別の声に変えるような技術は、今では生成AIで割と広まりましたが、少し前は実現できませんでした。人の声というのは何かしらノイズが入っているので、人Aと人Bの特徴を上手く学習させたりマッチさせたりすることができなかった。そこで、特定の欲しい音だけを取り出せたらどれだけいいかと、皆思っていました。
声以外にも、空間音響と言って、ヘッドホンでの2チャンネル再生ではなく、セットアップを豪華にし、後ろにも上にもスピーカーを付けたい時にどうするか。元の音源がCDだとステレオでしかないので、その左チャンネルと右チャンネルをいくらいろいろなスピーカーから出しても、結局その2つの音を聞いているだけになってしまう。
この時に特定の楽器を抽出し、ギターは右から、ピアノは左から、ボーカルはちょっと前から、ドラムはちょっと上から流すと、それぞれ違う楽器に囲まれたような形になりますよね。でも、それを実現するための音楽のソースは作られてきませんでした。なぜなら空間音響に見合ったレコーディングはされてこなかったからです。
──そこで音源分離が必要になるわけですね。
はい。これは非常に重要なテーマだと思いました。音源分離の課題が解決されたら、その後に使えるアプリケーションは数多くあるぞと。
それで、2011年にフランス国立音響音楽研究所(IRCAM=イルカム)という施設に留学し、音源分離を研究しました。その後、研究者として論文を書き、2013年にICASSP(アイキャスプ)という学会に行ったのです。トロント大学のジェフリー・ヒントンさんという、ノーベル賞も受賞されたAIのゴットファザーと呼ばれている方のキーノートトークでした。そのお話は、オブジェクト認識と音声認識の2つの分野で深層学習、今で言うAIを導入することで、ものすごく性能を上げることができたということでした。
これは何か新しいことが起きる瞬間に出くわしているのではないかと思い、帰国後、これを応用することを考え、音源分離の技術に深層学習を導入することを試みました。
AIを導入して成功
──そこからAIを導入し始めたということですね。
そうですね。チームとしては何か上手くいったらいいよね、くらいの気持ちで始めたのですが、実際にやってみたところ、ものすごい性能が出てしまいました。そこで、2015年開催の国際コンペティションに出ると、深層学習を音源分離に使うことを考えていたのはわれわれしかいなくて、僕らのスコアだけ抜群に良かったんです。その場にいた人たちも衝撃を受け、僕たち自身も、自分たちの立ち位置を変える、運命を変えるような瞬間だったと思います。
その後、音源分離の技術の性能がアップしていきましたので、アーティストやスタジオにでき上がったものを持っていきました。でも、2018年時点では全く実用のレベルには達せず、アーティストやスタジオの方々から「使いものになりません」というフィードバックを何度もいただきました。
しかし、何度も繰り返していくうちにだんだん性能が良くなってきました。ある時、グレン・グールドとのパフォーマンスにナレーションがかぶっている古いレコードのナレーションの部分を、石丸幹二さんが日本語で作って世の中に出したいという話がありました。もう亡くなっているグールドと共演するためにはグールド単体の音がなくてはいけない。1960年代の音源なので、楽器を分けてとるような機械はなく、全部混ざった状態でした。僕らの技術がちょうどいいレベルでそこに登場し、それを実現することができました。2020年のことです。
──そこで実用化されたと。
また映画も古いものはモノラルで1チャンネルです。セリフ、音楽、さらに残りのサウンドエフェクトやアンビエントと呼ばれる周囲の音が全部ミックスされているわけです。なのでこれを5.1チャンネルとか新しいフォーマットに変えたいと思ってもやりようがなかったわけです。
ちょうど2020年頃、過去の名作を4Kリマスターする動きがありました。音のほうはドルビーアトモスといって、音源がスピーカーの配置によって、機器の中でミックスダウンされて立体的に鳴るようなフォーマットなのですが、それをやるためには分離した音源がなくてはいけない。
バイクの音や馬が走っていく音を抽出してほしいと言われ、最初に「アラビアのロレンス」と「ガンジー」という過去のアカデミー賞受賞作の音源分離を行いスタジオに手渡し、スタジオ側がアトモス形式にミックスして世の中に出ていきました。
──素晴らしいですね。
音源分離はこのようにしてスタジオとアーティストと共にあるべき形に進化していき、アカデミックな分野でも認められるようになりました。
また、今は電子機器にまで使える最適化が上手く進められるようになりました。ソフトをコンパクトにする技術を開発し、モバイル機器などで周囲の雑音を消しながら録音ができるような技術を実現することができました。
──その技術はソニーの製品にも活用されているんですよね。いわゆる古典的なノイズ除去ではノイズだけをきれいに取り除くなんて魔法みたいな話でした。今の音源分離は、元の音声や音楽はきれいに残したまま、ノイズだけを取り除くことができるようになったということですね。
そうです。音源分離の難しさを語るのに僕がいつも使ってきた例は、ミックスジュースを後から分離するぐらい難しい問題ですと。リンゴジュースとオレンジジュースを混ぜた後に、オレンジジュースだけ取り出すのは大変ですよね、と。それが今AIの力を使ってできるようになりました。
生成AI時代に対応すべきこと
──さらに様々なところでエンターテインメント分野などへの応用を考えられていると思いますが、今後どのように技術が応用され広がっていくのか。それにどのように光藤さんご自身が関わっていきたいですか。
大学時代は音楽を本格的にやっていて、自分で作曲してライブハウスで活動し、ゆくゆくはデビューしたいと思っていました。しかし、僕はボーカルだったんですが、人より際立つ何かがないなと気付き、どうしようかと迷っていたところ、親族の音楽業界のエンジニアの人から、「今自分の持っているものを生かしながら音楽にも関わっていくのはどう?」と助言をいただき、企業で研究者になる道を選んだのですね。
だから、僕は、どういう気持ちでアーティストが活動しているかも多少はわかっているつもりです。例えば今、生成AIが音楽活動の領域でも人にとって代わるのではという話が出てきた時、どのように彼らが感じているかがわかるんですね。
そこで、自分たちが大事にしていたものが、新しいパラダイムの生成AIで同じように作られる世の中になっても、彼らがどうやってスムーズにその時代に移行できるかを考えています。
──具体的にはどういうことを考えられていますか。
今考えているのは、生成AIから出てきたものがアーティストの楽曲に酷似しているのであれば、そのアーティストにきちんとマネタイズするような仕組みです。そうすれば、そのアーティストがそれで職を失うようなことはない。
また、生成AIを積極的にアーティストが使うことによって、新しい分野を切り開くこともできると思います。これは強力なツールになると思っていて、今までにないようなジャンルができるかもしれません。
音楽の分野は、70年代にシンセサイザーによる電子的な音楽が本格的に広まったように、新しいジャンルは技術と共に変わっていくこともあるので、生成AIが新しい分野を切り開く可能性は十分あり得るのではないかと。そこに対して基盤をきちんと作っておきたいというのが、次に目指しているようなことです。
「ギャップ」を埋めるという意識
──企業の中での技術者・研究者として、どのような意識で何を大切に思ってやっているのでしょうか。
今の職場はエンターテインメントに囲まれていますし、顧客に接しやすいような環境づくりがされているので、自分のやりたいと思ったことができる環境にはあると思うのです。
一方で、今ニューヨークにいますが、生成AIなどは、やはりアメリカは非常に進歩が速いので、そういったアメリカの状況が、日本にきちんと伝わっていないかもしれないと思っています。政策面で、どれだけ著作権に関してオープンかという違いもあると思いますし、AI研究者の集団と、アートをやっている集団との間でも意識に大きな違いがあるので、そのギャップを埋める活動を今まで結構やってきました。
例えば東工大(現東京科学大)の准教授をやらせていただいたのも、企業では当たり前にやっていることが、外では一般的でなかったり、僕らのやっていることがきちんと見えていないようなことがあると思ったからです。今は、ニューヨーク大学のスタインハート校でもエンタメに関わる人を育てる分野で客員研究教授をやっています。
そのモチベーションはAI研究の場とエンタメを学んでいる学生たちのギャップを埋められないかということです。僕は幸運にも両方に絡んでこられたので、AIという得体の知れないものを見える形にしてあげたり、脅威ではなくてチャンスなんだ、という見せ方をして、ギャップを埋めるようなことをしています。こういったことをしていかないと、大事なものが失われてしまうのではと思うからです。
最近、「鬼滅の刃」などの日本のアニメが、ニューヨークにいると非常に熱を感じます。アメリカ人が日本のコンテンツを知っている状況というのは20年ぐらい前では考えられないようなことです。ハロウィーンでは、皆が日本のアニメの格好をしています。日本の音楽も最近注目されていて、シティポップなどは結構かかっています。
そういったものを広げていく際、意識が高ければチャンスをものにできるのに、ギャップがあることで上手くいかない例もよくあります。例えば最近、ある有名エンタメ企業と同じく有名なAI企業がパートナーシップを結びましたが、あれは、きちんと対価を払ってくれるのであればAIの出力にエンタメ企業側が権利を保有するキャラクターが出てきてもよい、という形にしたわけです。
有名なキャラクターを使ってコンテンツを作って楽しめますからユーザーにとっては非常に嬉しいことです。エンタメ企業側も搾取されるわけではなく、きちんとお金が返ってくる形です。
一方、あくまで個人の視点ですが、日本では、どうしてもAI企業などがやっていることに対して、自分たちの大事なコンテンツが脅威にさらされていると捉えてしまう傾向があって、警戒感があると思うのです。
こういったギャップを埋めていく作業は、僕1人で何かできるわけではありませんが、地道にやっていくことで、日本の大切なコンテンツがきちんと世の中で生かされるようにしたいと常々考えています。
──非常に熱い思いを持たれていることがあらためてわかって、嬉しい限りです。最後に慶應の学生時代のことについて少し話していただけたらと思うのですが。
大学時代は国際学会にも出たりしていたのですが、やはり研究への姿勢という点では、少し自分だけ離れてしまっているかなとは感じていました。僕はやはり自分で好きな音楽をやりつつ、信号処理の研究をやっているというスタンスで、片方だけに時間を割くわけにはいかなかったので、優等生には見えていなかったと思います。
ただ、自分で劣っていると思っていたわけではなくて、やはり熱意の向けどころで人は変わるんじゃないかなと思っています。自分の作ったものが使われ、製品やサービスとなって世の中で形になりそうだ、ということが想像できた段階から急にやる気が出てきたのですね。大学内で社会実装、もしくは商品を出していくみたいなことは少し想像が難しいのかもしれませんね。
──外からあらためてそういうメッセージをいただけると大変刺激になります。今は社会実装を直接に目指している若い研究者が大学でも増えてきていて、大学もそういうことができる場に徐々になってきていると思うので、引き続きチャンスがあったら協力していただけると嬉しいです。
今後の活躍を期待しています。本日は有り難うございました。
(2025年12月15日、オンラインにて収録)
※所属・職名等は本誌発刊当時のものです。