楽天が2013年に買収した米Rakuten VIKIには、プロの翻訳家を凌駕するドラマ字幕の自動翻訳技術がある。その自動翻訳技術を駆使して、韓国ドラマや中国ドラマを中心に、7言語(英語、中国語、韓国語、スペイン語、フランス語、ポルトガル語、ポーランド語)の字幕の自動作成を2017年から開始している。

「Rakuten VIKI」ではボランティアを募り、字幕翻訳データをためてきた
「Rakuten VIKI」ではボランティアを募り、字幕翻訳データをためてきた

 VIKIは、世界各国のテレビ番組や映画、ミュージックビデオといった多くの動画コンテンツをスマートフォンやパソコン、タブレット、スマートテレビに配信している。動画には、多言語対応の字幕を付けている。南米では韓国ドラマがブームで、10代の少女が少女漫画を見るように、スペイン語などの字幕で韓国ドラマを見ているという。

優れた自動翻訳の背景に、高品質な教師データ

 楽天 執行役員で楽天技術研究所代表の森正弥氏は「VIKIには、クオリティーが極めて高いセンテンスペアがあり、それ故にプロの翻訳家を超えるレベルの自動翻訳精度を実現している」と説明する。

 センテンスペアとは、文章単位の複数言語の対のデータのこと。一般的にセンテンスペアの品質が高ければ、ディープラーニングベースの機械翻訳の精度が上がる。VIKIはこれを約3秒間のドラマ画像ごとに持っているため、さらに品質が高いものとなっているという。高品質なセンテンスペアを教師データとして使い、ディープラーニングアルゴリズムに学習させて、字幕に特化した自動翻訳アルゴリズムを作成している。


『ディープラーニング活用の教科書』を発刊
日経クロストレンドは書籍『ディープラーニング活用の教科書』を発刊しました。国内35社の事例を体系的に取り上げ、先駆者が苦労したポイントを解説することで、急速に広がるディープラーニング活用の今と未来を理解できる書籍です。日本ディープラーニング協会の監修で、活用を検討する企業でよく生じる疑問に回答し、次世代の新規事業や業務改善の企画に欠かせない1冊です。
[アマゾンで購入する]

第28回
ディープラーニングは魔法の技術ではない──当事者が語る障壁
第30回
新人運転手も人並みに DeNAがタクシー乗客需要予測をAIで開発