BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース BaiduがERNIE 2.0をオープンソース公開、自然言語処理タスクでBERTを上回る

BaiduがERNIE 2.0をオープンソース公開、自然言語処理タスクでBERTを上回る

原文(投稿日:2019/08/06)へのリンク

先日のブログ記事で、中国の検索エンジンと電子商取引の巨人であるBaiduは、ERNIE 2.0と呼ばれるオープンソースの自然言語理解フレームワークを発表すると同時に、最新技術(SOTA)達成の成果、さらには中国語と英語による16のNLPタスクにおいて、GoogleのBERTXLNetなど、既存のフレームワークをパフォーマンスで上回ったことを公開した。

ERNIE 2.0、公式には"Enhanced Representation through kNowledge IntEgration"は、言語理解のための継続的事前トレーニングフレームワーク(continual pre-training framework)である。継続的事前トレーニングアプローチを使用することで、このアプローチから言語理解のチャンスが生まれる、とBaiduは考えている。

当社は今回、言語理解のための継続的事前トレーニングフレームワークを提案しました。事前トレーニングタスクを段階的に構築し、一定のマルチタスク学習を通じて学習することが可能になります。このフレームワークでは、さまざまにカスタマイズされたタスクをいつでも段階的に導入して、タスク間での語彙や構文、セマンティック情報のエンコードを可能にするマルチタスク学習を通じてトレーニングすることが可能です。新たなタスクが与えられると、私たちのフレームワークは、それまでのタスクのパラメータを忘れることなく、分散表現を漸進的にトレーニングすることができます。

継続学習を使用するモデルでは、新しいタスクを学習する時、それ以前に学習したタスクを記憶している。このアプローチは、人間の学習方法に触発されたものだ。Baiduの研究者であるYu Sun氏は、次のように説明している。

人は研究や経験によって得られた情報を継続的に蓄積することで、新たなスキルを効率的に開発することができます。継続学習におけるモデルでは、以前のトレーニングで習得した知識を活用することで、新たなタスクでもうまく機能できるべきです。

イメージ提供: http://research.baidu.com/Blog/index-view?id=121

継続的事前トレーニングフレームワークアプローチは、BERTやXLNet、ERNIE 1.0で使用される事前トレーニング手順とは異なる。これらのプロジェクトは、自然言語の推論、意味の類似性、名前付きエンティティの認識、感情分析、質問と回答のマッチングなど、いくつかの面でNLPタスクによって改善されているが、文の単語の共起に依存する単純なタスクを数多く解決する傾向があります。例えば,

BERTは、双方向言語モデル(bidirectional language model)タスクと隣接文予測(next sentence prediction)タスクを構築して、単語と文の共起情報をキャプチャします。XLNetは、単語の共起情報をキャプチャする並べ替え言語モデル(permutation language model)タスクを構築します。

ERNIE 2.0のパフォーマンスをベンチマークするため、Baiduチームは、既存のSOTA事前トレーニングモデルによる自社の実行結果を、英語のGLUEデータセットと、中国でポピュラーな9つのデータセットと比較しました。結果は次のとおりだ。

ERNIE 2.0は、7つのGLUE言語理解タスクでBERTとXLNetよりも優れており、DuReaderデータセット上に構築された機械読解、感情分析、質問応答など、9つの中国NLPタスクすべてにおいてBERTを上回りました。

実験の整合性を維持するため、Baiduの研究チームは、GLUEの各比較方法を使用して、基本(BASE)モデルと大規模(LARGE)モデルのパフォーマンスを評価した。

イメージ引用: http://research.baidu.com/Blog/index-view?id=121

ERNIE 2.0の詳細に関しては、Baidu Researchが研究論文を公開している。また、英語で事前トレーニングされたコードとモデルが、ERNIEのGitHubリポジトリから入手可能だ。

この記事に星をつける

おすすめ度
スタイル

BT