早稲田大学の教育・研究・文化を発信 WASEDA ONLINE

RSS

YOMIURI ONLINE

ホーム > キャンパスナウ > 2014 新年号  SPECIAL REPORT

キャンパスナウ

▼2014 新年号

SPECIAL REPORT

人とロボットの幸せな未来へ

創立150周年(2032年)に向けた“Waseda Vision 150”の中で掲げる「国際研究大学」を目指し、日々、その活動を広く世界へ発信し、人類社会に還元している早稲田大学。
中でも人間型ロボットの研究は1970年に理工学部内の学科横断プロジェクトとしてWABOTプロジェクトを開始して以来40年以上の歴史を誇り、世界最先端の技術が日々開発されています。
人とロボットの共生を目指した早稲田の研究・技術の成果と課題をレポートします。

人との共生をめざす
WASEDAの人間型(ヒューマノイド)ロボット技術

早稲田が誇る最新人間型ロボット技術のなかから、小林哲則理工学術院教授が率いる知覚情報システム 研究室の知の集大成ともいえるコミュニケーションロボット「SCHEMA(シェーマ)」を紹介します。

会話を楽しめるロボットシステムの実現へ

 私たち人間の会話は、声に含まれる言語的な情報だけではなく、声の抑揚、視線、顔の表情やジェスチャーなどさまざまな言語以外の情報を無意識のうちに伝え合って成り立っています。例えば、人は相手の話を聞きながら、相づちを打ったり怪訝な顔をしたりしますが、それによって自分が相手の話に賛同できたかどうかといった聞き手の状態を簡潔に表します。また聞き手が大勢いる場合、話し手の視線や身体の向きは、その中の誰に話しかけているかを表すことになります。つまり言語情報を効率的に伝えるためには、言語以外の情報の使い方にさまざまな約束事(プロトコル)があり、これを守ることで初めて自然な会話が成り立つのです。私の研究のひとつの柱は、ロボットを使いながらこの会話の約束事を明らかにするとともに、それらを実現する要素技術を開発し、これを組み合わせて総合技術としての会話システムを実現することにあります。

 ロボットを使って会話の研究をすることは、「情報伝送の媒体を人間が使っているもの(=身体)にあわせる」という物理層(レイヤー)の約束事を守ることそのものなのですが、もうひとつ重要な意味があります。それは、ロボットは間違いの宝庫だということです。無意識に複雑な行動ができる人間とは異なり、ロボットはすべてを意識してプログラムしなければ正しい行動ができません。ロボットのおかしな行動は、まだ何か重要な約束事の理解が欠けていることを教えてくれるのです。学習をするためには、正しい例だけでは不十分で、正しい例と間違った例が適度な量必要なのですね。私たちは、1999年に「ROBITA(ロビタ)」でグループでの会話における約束事を、2003年に「ROBISUKE(ロビスケ)」で発話交代における約束事を、2009年には「SCHEMA(シェーマ)」で会話の活性化のための約束事をテーマとして実験を行い、うまくいった例とそうでない例を比較しながら、会話の約束事のより正確な理解を目指して研究を進めているところです。

 また、この会話ロボットを実現する要素技術の一つひとつをとってみても、それぞれに価値があります。ロボットに組み込まれた顔画像処理技術や音源分離の技術は、企業にライセンスされ実用化されています。現在も複数のプロジェクトが企業と共同で進行しており、今後も多くの技術が技術移転され、私たちの暮らしを便利にしてくれると考えています。

 私の理想は、違和感なく人間の会話に加わり、楽しい会話の相手になってくれる会話システムを実現することです。いま世の中で使われている会話システムは、単なる便利な情報入力手段でしかありませんが、本来、会話とは会話すること自体が楽しいものです。そのような会話を実現するシステムの構成要件を明らかにして、会話すること自体を目当てに使いたくなるようなシステムを実現したいと考えています。

小林 哲則(こばやし・てつのり)/理工学術院教授

1985年早稲田大学大学院理工学研究科博士課程修了。工学博士。法政大学助教授を経て、1991年より早稲田大学助教授、1997年同教授。音声認識・合成、動画像処理、マイクロホンアレイ、会話ロボットなどの研究に従事。言語処理学会理事、情報処理学会音声言語情報処理研究会主査、電子情報通信学会会誌編集特別幹事などを歴任。

興味のある方はFacebookをご覧ください
https://www.facebook.com/PerceptualComputingLab

複数人と自然な会話ができるコミュニケーションロボット
「SCHEMA(シェーマ)」
INNOVATIVE POINT 

表情、視線、韻律、動作などを認識し会話を変化

 二人での会話の際、一方が話し手、もう一方が聞き手となる単純なやりとりは“糸電話”のようなものに過ぎず、円滑な情報交換は望めません。音声だけでなく、表情や視線、韻律、動作など複合的な要素を駆使することで通常の会話が成り立ちます。「SCHEMA(シェーマ)」は言語以外の情報を認識し、それぞれの状況に合わせて自由に会話を変化させます。例えば聞き手が首を傾げる動作をすると、「理解できていない」と認識し、表現を変えて情報を再提供します。

INNOVATIVE POINT 

複数人の会話に加わり、会話をリード

 三人で話していると、そのうち二人にだけ共通の話題で盛り上がり、一人が会話に加われない状況があります。そうした状況で、「SCHEMA(シェーマ)」はまず盛り上がっている二人の会話に加わり、会話の主導権をとってから残った一人に話を振ることで会話を誘導し、全員が楽しく会話できるようにリードできます。これは二人の会話の切れ目を理解し、二人の話題に沿った発言をした上で、残りの一人が会話に加わることのできる話題を提供するという複雑なシステムで成り立っています。