トヨタ、ファナックなど大手企業とディープラーニング(深層学習)を使った共同事業を手掛けるPreferred Networks(東京・千代田)の知的情報処理事業部 海野裕也事業部長は、「言葉で指示できるロボット」の研究をしている。本寄稿では前編、後編に分けて、ディープラーニングの最先端を行く同研究の意義、精度を高める工夫、ビジネス活用の勘所を解説してもらう。

 海野氏は日経クロストレンドの創刊記念イベント「日経 xTREND FORUM 2018」内で、「予測型戦略を知るための機械学習講座」と題して6月19日(火)午後2~5時に講演をする。機械学習の種類を体系的に紹介していき、機械学習を用いたビジネスアプローチ方法にはどういったものがあるのかを講義する。

 私たちPreferred Networksでは「言葉で指示できるロボット」の研究をしている。このロボットは、4つに仕切られた箱の中にいろんな物を入れてある環境で、「右上にあるボンドを取って」と話し掛けると、カメラに映った映像から指示された物を認識し、それをアームによってつかみ取ることができるものだ。下の動画はそのデモンストレーションである。

 このロボットは、深層学習による言語理解と画像認識を組み合わせて、人間による言葉の指示を解釈している。当初、このロボットが現実的な精度で動くには、半年ほどかかると予測していた。しかし、最初の段階で8割ほどの精度を実現できた。

 これは、深層学習技術を使うための学習用データを作成する時間も含むので、本当に驚くほど早く最初のステップを乗り越えられた。

 以前なら、こうした認識技術を複数組み合わせることは非常に困難だった。複数の技術の専門家が協力する必要があるからだ。専門家の間ではマルチモーダル(=複数の様式の)データによる認識と言われる。しかし、深層学習はどの様式のデータもいわば同じように扱うことを可能にしたため、マルチモーダルデータであっても、その違いを吸収するようなニューラルネットワークを組み上げることを可能にした。その結果、今回の研究は予想以上にうまくいっている。