トヨタ、ファナックなど大手企業とディープラーニング(深層学習)を使った共同事業を手掛けるPreferred Networks(東京・千代田)の知的情報処理事業部 海野裕也事業部長は、「言葉で指示できるロボット」の研究をしている。本寄稿では前編、後編に分けて、ディープラーニングの最先端を行く同研究の意義、精度を高める工夫、ビジネス活用の勘所を解説してもらう。

 私たちPreferred Networksでは「言葉で指示できるロボット」の研究をしている。このロボットは、4つに仕切られた箱の中にいろんな物を入れてある環境で、「右上にあるボンドを取って」と話し掛けると、カメラに映った映像から指示された物を認識し、それをアームによってつかみ取ることができるものだ。下の動画はそのデモンストレーションである。

 このロボットは、深層学習による言語理解と画像認識を組み合わせて、人間による言葉の指示を解釈している。当初、このロボットが現実的な精度で動くには、半年ほどかかると予測していた。しかし、最初の段階で8割ほどの精度を実現できた。

 これは、深層学習技術を使うための学習用データを作成する時間も含むので、本当に驚くほど早く最初のステップを乗り越えられた。

 以前なら、こうした認識技術を複数組み合わせることは非常に困難だった。複数の技術の専門家が協力する必要があるからだ。専門家の間ではマルチモーダル(=複数の様式の)データによる認識と言われる。しかし、深層学習はどの様式のデータもいわば同じように扱うことを可能にしたため、マルチモーダルデータであっても、その違いを吸収するようなニューラルネットワークを組み上げることを可能にした。その結果、今回の研究は予想以上にうまくいっている。