登場者プロフィール

浜田 望

浜田 望
私たちを包む空気の振動、ヒトの聴覚システムはそれを取り込むことによって周りの音を認識し、音声によるコミュニケーションを行っています。たとえ周囲が騒々しくても、ヒトはある特定の音を聴き分けます。そして、その音の方向を知り、そこで起きている事を認識することができます。私たちの研究室では、ヒトの聴覚がもつこのような機能をコンピュータやロボットに持たせる研究を行っています。「音源分離」や「音源定位」と呼ばれる課題です。
混じり合った様々な音から特定の音声を聴き分ける聴覚の能力、それは音声自体のもつある性質がもたらしています。その説明には少し準備が必要です。ご存じのように音は空気圧の振動で、それはいくつかの異なる周波数の成分からできています。この周波数ごとの成分をスペクトルと呼びます。音声を構成するスペクトルは時間に伴って変化します。図1は音声を時間と周波数の細かな領域に分け、その成分の大きさを色の違いで表したものです。図では赤い部分の時間と周波数の成分が、その音声に多く含まれていることを示しています。音声自体のもつ性質とは、このような大きな成分を持っている領域がほんのわずかしかないという事実です。そのため、たとえ二人が同時に話したとしても、成分を多く含む時間と周波数の領域が2つの音声で重なることは「まれ」にしか起きません。(図1)
混じり合ったものを分離して元に戻すこと、物理現象によっては至難の業です。しかし、複数の音声が混合しても「時間と周波数」という単位では音声どうしで混じり合うことはめったにありません。このことを利用すれば混合した音声を分離できます。
このとき、それぞれの音を区別する鍵となるのが、その到来方向です。ヒトが左右の耳を利用して音のする方向を知る—しかも多数の音が同時に聞こえているにも関わらず—のと同じように、マイクロホンを複数利用することで、それぞれの音の到来方向が分かります。混合した音声がもつ時間と周波数の領域ごとに到来方向を推定します。そして、同じ方向に推定された領域を集めれば分離は完了し、目的とする音を復元できます。(図2)
私たちの研究室では、音源分離の新たな方式として、時間変化する周波数-位相差パターンを提案しました。任意の配置をもつマイクロホンアレーによる音源方向の推定方式も開発しました。また、音声をロボットとヒトとのコミュニケーションに利用するためのロボット聴覚の研究も中澤和夫研究室と共同で進めています。(図3)
脳科学はヒトや動物の聴覚機能に関心を寄せ続けています。音の分離や方向推定についての研究が私たちの興味を引きつける理由は、この課題に物理/数理/情報/生物などが総合的に関わってくるからです。
この内容に関連する浜田研究室による2つのビデオをぜひご覧ください。