文字サイズ

    マルチモーダル感覚情報処理過程の理解に基づく高感性聴空間システムの構築

    東北大電気通信研究所 鈴木陽一教授

     マルチモーダル感覚とは、一つだけじゃなくて複数の感覚の情報が一緒に来た時に、人間がどう感じるのかということ。音や映像、体の動きなどの感覚情報が入った時、人間の脳がどんな情報処理をするのか。人間の特性を調べて、それに基づいた高度な3次元の音響システムの構築を試みている。

     視覚情報によって、音に対する評価は大きな影響を受ける。(会場にザーッっという音を流す)この音がいい音か悪い音か、実験で音だけ聞いてもらうと、非常に悪い音、という反応になる。実はこれは滝で録音した音で、滝の映像と一緒にこの音を聞いてもらうと、評価が圧倒的に向上する。つまり、音の評価には映像が非常に重要な役割を果たしている。我々は、聴覚だけではなく、五感を使って音を認識しているのだ。

     音や映像に加え、複数の感覚情報を使って情報を提示すれば、感性や情動、雰囲気まで表現できるのではないか。大事なのは、情報量が多ければ良いわけではないということ。テレビの映像はハイビジョン、4Kと、とてもきれいになっているが、人間の認知の過程に合った形で情報を提示すればより高いリアリティーを実現できる。認知過程は心の問題なので、人間の心を測らなくてはならない。

     そのような視点で進めてきた実験を紹介したい。光速は秒速30万キロ・メートル。音速は常温では秒速340メートル程度。30メートル離れた所から同時に光と音が出ると、およそ100ミリ秒、つまり0・1秒ずれる。

    • 図1
      図1
    • 図2
      図2

     日常生活では、例えばボウリングのピンまでの距離が20メートル弱。野球のピッチャーとバッターの距離が30メートル弱ぐらいだ。野球のピッチャーをやっている時に、バッターが打った音が少し遅れて聞こえてくるだろうか。20メートルとか30メートルとかだと、その差はわからないのでは(図1)。もしかしたら脳は、音速が遅いことを知っていて、差を補正しているのではないか。

     実験では、参加者に音と発光ダイオード(LED)の光を提示して、距離を変えながら音と光のどちらが先だったかを聞いた(図2)。すると、光源から20メートルぐらいまでは、光より音が遅れた時に、「光と音が同時だった」と参加者は判断した。これは、人間は20メートルぐらいまでなら、目で見て離れている分だけ音が遅く到達して初めて、同時と認識できるということだ。これで、脳は音速を知っていて、視覚と聴覚の情報をまとめ上げられることがわかった。

     このように、視覚と聴覚の情報は、脳の中で非常に密接に相互作用している。古くから知られている典型的な例は「腹話術効果」だ。腹話術では、本当は横にいる人間がしゃべっているのに、口をぱくぱくさせている人形から声が聞こえるように感じる。視覚情報が音源の認識に強い影響を及ぼす証拠だ。

     しかし、聴覚と視覚はすごく特性が違う。目はすごく細かいところまで見えるが、耳はそれほど細かい情報までわからない。一方で、時間の認識は聴覚の方が桁違いに優れていて、右耳と左耳で十数マイクロ秒聞こえるタイミングが違っただけで、音の方向が分かる。この情報処理の仕組みはとても不思議で、そこを解き明かすために研究をたくさんしている。最近は、逆に聴覚が視覚を変える例も数多く発見されている。

     音の空間を認識するには、音だけではだめで、特に自分が動いていることが非常に重要。音に対してもマルチモーダル性が重要だということだ。人間はどこかで音が聞こえた時に、そちらを振り向く。視覚で確認するとともに、自分が動くことで自分の周りの音の状況を感じ取っている。このような「能動聴取」と呼ばれる「動きながら聞く」プロセスで、人間は自分の周囲の音を認識している。

    • 図3
      図3
    • 図4
      図4

     NTTの研究所のグループが作った、人間の頭の運動に追随して動く「テレヘッド」というロボットがある(図3)。これをサントリーホールのS席に置いて、自分は自宅のリビングルームで頭を動かすと、テレヘッドがホールで頭を振ってくれる。こうすると、単に録音したものを聴くより、ずっと臨場感の高い音が得られるのではないかと思い、基礎的な実験をした。

     磁気共鳴画像装置(MRI)で聴取者の頭の形を取り、3次元プリンターでその人の頭にそっくりのダミーヘッドを作った(図4)。自分が聞いた場合の音とほぼそっくりな音が、テレヘッドで集音できるようにした。離れた場所にいる人間の頭の動きに合わせて、テレヘッドが同じように動く。人間の周囲に小さなスピーカーをたくさん置いて、テレヘッドの周囲の音がどこから聞こえてきたかを判断する。すると、テレヘッドを動かさない場合は、かなりの誤りが生じるが、人間の頭の動きに合わせてテレヘッドが動くと、離れた場所でも上下や仰角がかなり正確にわかる。さらに、人間の頭が動く量よりもテレヘッドの動く量を小さくしても、きれいに仰角の判断ができることもわかった。これは、人間にとっては動いた量より、どっちに動いているのか、変化が重要だということを示している。

     我々はこういった基礎的な研究を基に、音の情報をリアルに伝える「3次元聴覚ディスプレー」と呼ばれる工学システムを作っている。音が出て、人間に音が聞こえる時、部屋で跳ね返って響きが出来たり、耳や肩、胴体で様々な反射、共鳴が起きる。そういったものを正確に再現できれば、音源の方向や、聞いている人との距離などを考慮した3次元の音空間ができるのではないか。これを応用して視覚障害者の空間認識能力を訓練するゲームを作った。プレーヤーはヘッドホンをして映像は見ず、聞こえてくるハチの羽音だけを聞いて位置を判断する。位置がわかったら体を動かしてハチをたたき、点数を競うゲームだ。

     視覚障害者は頭の中で周囲の環境の地図を作る力が弱いと言われており、ゲームでこれを鍛えられないかと考えた。2週間ゲームをしたグループと、何もしないグループで、音がどこからくるかを見分ける課題をやってもらうと、訓練した人は音の位置を判別する力や近付いてくる障害物をよける力が上がった。

    • 図5
      図5

     「3次元聴覚ディスプレー」で音を出すには、そのための音を取得しなくてはならない。そこで我々は人間の頭くらいの大きさの球に、マイクを約250個つけた装置を作った。「千耳(せんじ)」といって、人の頭の動きに応じて3次元で音を再現できる装置だ(図5)。この「千耳」と体の動きなどの解析を組み合わせて、より臨場感の高い、迫真性の高い聴覚ディスプレーを作ろうと研究を進めているところだ。

     人間が機械と一緒に働きながら、サイバー空間を自由に行き来して高度な知的活動を行う時代が、もうすぐそこに来ている。どこから音が来ているかということに加え、臨場感、迫真性、そして場の雰囲気まで含むような空間情報を、時間と空間を超えて共有する技術は、将来の情報技術のコアになるはずだ。そのためには、人間の情報処理の過程を考慮することが非常に重要になってくる。その基盤として、人間が情感や感性、雰囲気をどう感じるのかをしっかり明らかにしながら、工学システムを作ることが重要だと思っている。

    鈴木陽一(すずき・よういち)
     1981年東北大学工学研究科電気及通信工学専攻で工学博士、同年から東北大電気通信研究所助手。89年に助教授、99年から現職。

    【質疑応答】

      なぜハイレゾの音がいいとされるのか

      大胆に言えば、周波数が広がったことより、16ビットが24ビットに広がった効果ではないか。16ビットは96デシベルというダイナミックレンジを持っていてるが、人間の聴覚のダイナミックレンジは120デシベルある。16ビットでは足りなかったのではないか。それが24ビット録音再生できるようになったことで、ハイレゾは音が良いと判断できるようになったという可能性はある。

      音は振動なので、皮膚に何か受けている。ハイレゾの出すような高周波は、音の聞こえ方を向上させるのに何らかの影響があるのでは

      影響があってもおかしくない。皮膚感覚が音の聞こえ方に影響を与えるという研究は既にある。

     

     ◇知の拠点セミナー 全国の国立大学が共同で利用する研究拠点の成果を一般向けに紹介する連続講座。毎月1回、東京・品川で開いている。日程や参加申し込みは、セミナーのホームページへ。

    2016年03月01日 Copyright © The Yomiuri Shimbun
    おすすめ
    PR
    今週のPICK UP
    PR
    今週のPICK UP

    目力アップ♪

    疲れをほぐして、イキイキと!