同時に喋る2人の音声を別々に再生 AIが聖徳太子を超える日も近い!?
公開: 更新:
『意外と知らない』柿の剥き方 包丁の代わりに使うのは…2024年11月11日、暮らしに役立つ情報を発信する、はなマル(hanamaru__kurashi)さんが、Instagramを更新。硬めの柿に限った、『意外な皮の剥き方』を紹介しました!
ラップが料理に溶けたら、食べても大丈夫? 旭化成の回答に「そうだったのか」料理にラップをかけてレンジ加熱した際に、ラップが溶けてしまったことはないでしょうか。この場合、料理に影響はないのか気になりますよね。『サランラップ®』を販売する、旭化成ホームプロダクツ株式会社(以下、旭化成ホー...
ニッポン放送で「タモリのオールナイトニッポン」などのディレクターなどを務め、現在はBayFMでITコメンテーターとしても出演中の土屋夏彦が、最近のIT・科学・経済のニュースを独自の目線で切り取ります。
映像の楽器をクリックするだけで音が抜き出せる!?
複数の楽器を組み合わせて音楽を演奏することを『合奏』といいますが、音楽CDなどを制作する際は、楽器ごとに音色や音のレベルなどが調整できるように、別々のマイクで音を拾って録音しますよね。
そして、最終的には録音された音をミックスして本来の合奏の音を再現するわけですが、いったんミックスしてしまうと、それをまた別々の楽器ごとに分離して調整するのは難しくなります。
ところが、アメリカのMIT(マサチューセッツ工科大学)の人工知能研究所(CSAIL)では、1つにまとまってしまった合奏の音源からでも、演奏している映像があれば、それぞれの楽器をクリックするだけでその楽器の音だけを抽出するシステムを開発してしまいました。
出典:MITCSAIL
60時間以上のビデオで訓練された『PixelPlayer』と呼ばれるAIシステムは、『自己教師あり深層学習(self-supervised deep learning)』という手法を用いて、既存のビデオ動画で学習させた『ニューラルネットワーク』を使ってデータのパターンを自分自身で見つけ出すそうなんです。
具体的には、1つの『ニューラルネットワーク』がビデオのビジュアルを分析し、もう1つはオーディオを分析、この2つを介して特定のピクセル(画素)を特定のサウンドウェーブ(音源)に関連付けることで異なるサウンドを分離させるとあります。
分かりやすくいえば、「さまざまな合奏動画を、同じような種類の音の響きと同じような形の楽器をそれぞれ動画から抽出して学習させることで、この形の楽器はこの音を出していると人工知能が勝手に覚えた」ということです。
つまりMITチームの誰も、どの楽器がどの音を出すかを明示的には教えていないのに、勝手にAIが自分自身で学習して、特定の楽器をピクセルレベルで識別したり、それらの楽器に関連付けられたサウンドを抽出したりすることができるようになったというわけです。
例えば、生ギターとバイオリンが合奏している動画では、これを『PixelPlayer』に取り込むだけで、生ギターの部分をクリックするとギターの音だけが出るようになり、またバイオリンの部分をクリックすればバイオリンだけの音が出るようになります。
ほかにも『Super Mario Brothers』のテーマソングを演奏するチューバとトランペットのビデオでも、それぞれの楽器の音を動画のクリックだけで完全に分離することができています。
今回の研究で『PixelPlayer』は20以上の一般的な楽器の音を識別できることを確認したそうです。研究論文を執筆した人工知能研究所(CSAIL)のハン・ザオ博士(Hang Zhao a PhD)によれば、訓練データが多ければ多いほど、システムがより多くの楽器を識別できるので、今後認識できる楽器数はどんどん増えるとのことです。
ただ、今のところアルトサックスとテナーサックスのような楽器の微妙な違いを扱うにはまだ時間がかかるかもしれないという課題もあるそうです。
また今回開発されたシステムを使うと、楽器だけでなく同時に話す2人の音声を別々に聞くことも可能です。
ザオ博士は続けます。
「私たちはどの楽器がどのような音を出すかを認識できる最高のシナリオを『PixelPlayer』に見出しました。それもピクセルレベルで楽器を空間的に見つけることができたことに我々は大いに驚いています。
『PixelPlayer』ができることは、ビデオ映像の画面をワンクリックするだけで、個々の楽器のオーディオを編集できること。今後のオーディオ編集に多くの可能性を広げるとともに、これをロボットに搭載すれば、動物などのほかの物体が作り出す環境音をよりよく理解するために使用することさえ可能になるかもしれません。」
僕だったらお気に入りのライブ・コンサートで、自分だけのお気に入りの楽器や声だけを聞くといったことに使ってみたいと思いましたが、あなただったら何に使ってみたいですか?
[文・構成 土屋夏彦]
土屋夏彦
上智大学理工学部電気電子工学科卒業。 1980年ニッポン放送入社。「三宅裕司のヤングパラダイス」「タモリのオールナイトニッポン」などのディレクターを務める傍ら、「十回クイズ」「恐怖のやっちゃん」「究極の選択」などベストセラーも生み出す。2002年ソニーコミュニケーションネットワーク(現ソニーネットワークコミュニケーションズ株式会社)に転職。コンテンツ担当ジェネラルプロデューサーとして衛星放送 「ソネットチャンネル749」(現アジアドラマチックTV★So-net)で韓国ドラマブームを仕掛け、オンライン育成キャラ「Livly Island」では日本初の女性向けオンラインで100万人突破、2010年以降はエグゼクティブプロデューサー・リサーチャーとして新規事業調査を中心に活動。2015年早期退職を機にフリーランス。記事を寄稿する傍ら、BayFMでITコメンテーターとしても出演中、ラジオに22年、ネットに10年以上、ソーシャルメディア作りに携わるメディアクリエイター。