中国インターネット検索最大手の百度(バイドゥ)はAI(人工知能)を活用した言語認識において、言語の意味を理解する自然言語処理モデル「ERNIE(Enhanced Representation through kNowledge IntEgration)」を発表した。同社がオープンソースとして提供するディープラーニングフレームワーク「PaddlePaddle(PArallel Distributed Deep LEarning)」に対応し、開発者に高度な自然言語処理技術を提供する。

新たに発表したERINEモデル(右)と、オープンソースとして公開されているBERTモデルを比較した概念図
新たに発表したERINEモデル(右)と、オープンソースとして公開されているBERTモデルを比較した概念図

 ERNIEモデルは従来の自然言語処理能力を上回るパフォーマンスを示す。オープンソースとして公開されている自然言語処理モデル「BERT(Bidirectional Encoder Representations from Transformers)」と比較検証すると、言語推定、類似性の把握、実体の認識、感情の分析、問答の一致などの自然言語処理のそれぞれの項目で、より高いパフォーマンスを出した。

 ERNIEモデルは、BERTモデルと比較すると、2つの文の関係性の正確さで1.2%上回る78.4%、言語の類似度で0.4%上回る87.4 %、実体の識別で1.2%上回る93.8%、感情分析で1.1%上回る95.4%、問答の一致性で1.9%上回る82.7%という数値をそれぞれ出している。

 BERTモデルは文字や単語に特に意味を持たせず、符号として取り扱う。これに対し、ERINEモデルでは文字や単語の意味を理解して推測するのが特徴だ。例えば「ハルビンは黒竜江省の省都であり、国際氷祭りで有名な都市だ」という文章を例にしよう。BERTモデルでは、「ハ○ビンは黒竜江省の省都であり、国際氷○りで有名な都市だ」といったように単語の中に空白箇所があった場合、その前後の文字から最初の○が「ル」であって次の○が「祭」であると推測することはできる。しかし、単語そのものが抜け落ちてしまった場合には、その単語が何であるかを推測することはできない。

アリババ NBAとの提携を強化しさまざまなコンテンツを配信へ
テンセント ブロックチェーン式電子領収書を深圳の地下鉄に導入