InfoQ ホームページ Natural-Language-Processing に関するすべてのコンテンツ
-
OpenAIが質問応答AIのWebGPTを発表
OpenAIはWebGPTを開発した。GPT-3に基づく長い形式の質問応答用のAIモデルである。WebGPTは、Web検索クエリを使用して、その応答のサポートするリファレンスを収集する。Redditの質問に対する回答について、人間の審査員が69%の確率で、最高投票の回答よりも好んだ。
-
AIは見ることによっても聞く
Meta AIは、自己監視型音声認識モデルをリリースした。このモデルはビデオも使用し、ある程度の量があるデータに対して現在の最先端モデルよりも75%優れた精度を実現する。この新しいモデルAudio-Visual Hidden BERT (AV-HuBERT)は、視聴覚機能を使用して、音声のみに基づいてモデルを改善する。使用される視覚機能は、人間の場合と同じように、読唇術に基づいている。
-
Facebookが20億パラメータの多言語音声認識モデルXLS-Rをオープンソース化
Facebook AI Research(FAIR)はXLS-Rをオープンソース化した。クロスリンガル音声認識(SR)AIモデルだ。XSLRは、128言語の436K時間の音声音声でトレーニングされている。以前の最大モデルよりも1桁多く、いくつかのダウンストリームSRタスクと翻訳タスクで現在の最先端技術を上回っている。
-
BigScience Research Workshop、AI言語モデルのT0をリリース
BigScience Research Workshopは、ゼロショット・マルチタスク(zero-shot multitask)学習の研究を目的として特別にトレーニングされた自然言語処理(NLP)AIモデルのシリーズを、T0としてリリースした。T0はBIG-benchベンチマークの大半において6倍規模のモデルを上回り、他のNLPベンチマークの一部では16倍の規模を持つGPT-3のパフォーマンスをも凌駕する。
-
Baiduが110億のパラメータを持つチャットボットAIのPLATO-XLを発表
Baiduは先頃、対話生成(dialog generation)用AIモデルのPLATO-XLを発表した。英語と中国語のソーシャルメディア上の会話から収集した10億以上のサンプルを使ってトレーニングした結果、いくつかの会話ベンチマークで既存の商用チャットボットを凌ぐ、最高レベルのパフォーマンスを達成している。
-
Facebookが将来の行動を予測できる新しいAIモデルを開発
Facebookは、Anticipative Video Transformer(AVT)と呼ばれる最新の機械学習プロセスを発表した。視覚的な解釈を用いて将来のアクションを予測できる。AVTは、ビデオでのアクション予測のためのエンドツーエンドのアテンションベースのモデルとして機能する。
-
BaiduのERNIE 3.0 AIモデルが、言語理解ベンチマークで人間のパフォーマンスを超えた
Baiduの研究チームは、Enhanced Language RepresentatioN with Informative Entities(ERNIE)の3.0バージョンに関する論文を発表した。これは自然言語処理(NLP)の深層学習モデルだ。モデルには100億のパラメーターが含まれており、SuperGLUEベンチマークで新しい最先端のスコアを達成し、人間のベースラインスコアを上回った。
-
Googleが8億パラメータ視覚・言語AIモデルのALIGNを発表
Google Researchは、大規模な画像とノイズの多いテキストの埋め込み(ALIGN)の開発を発表した。これは、800Mパラメータで事前トレーニング済みディープラーニングモデルで、18億の画像・テキストのペアのノイズの多いデータセットでトレーニングされている。このモデルは、いくつかのダウンストリームタスクで使用でき、画像・テキスト検索のいくつかのベンチマークで最先端の精度を実現している。
-
EleutherAIが60億パラメータGPT-3のクローンであるGPT-Jをオープンソース化
EleutherAIの研究者チームは、GPT-Jをオープンソース化した。これはGPT-3に基づく60億パラメーターの自然言語処理(NLP)AIモデルである。このモデルは800GBのオープンソーステキストデータセットでトレーニングされており、同様のサイズのGPT-3モデルに匹敵するパフォーマンスを備えている。
-
Googleがトークンフリー言語モデルByT5をオープンソース化
Google Researchは、ByT5をオープンソース化している。これは抽象的なトークンの代わりに未加工のバイトで動作する自然言語処理(NLP)AIモデルである。ベースラインモデルと比較して、ByT5は���くつかのベンチマークタスクでより正確であり、スペルミスやノイズに対してより堅牢である。
-
NLPライブラリのspaCy 3.0にTransformerベースのモデルと分散トレーニングが追加
AIソフトウェアメーカーのExplosionは、オープンソースの自然言語処理(NLP)ライブラリであるspaCyのバージョン3.0を発表した。新しいリリースには、最先端のTransformerベースのパイプラインと17言語用の事前トレーニング済みモデルが含まれている。
-
Googleは兆パラメータのAI言語モデルSwitch Transformerをオープンソース化
Google Brainの研究者は、自然言語処理 (NLP) AIモデルであるSwitch Transformerをオープンソース化した。このモデルは、最大1.6兆のパラメータにスケールアップし、T5 NLPモデルと比較して最大7倍のトレーニング時間を改善し、同等の精度を実現する。
-
OpenAIが画像生成用のGPT-3モデルを発表
OpenAIは、GPT-3に基づいて12BパラメーターAIモデルをトレーニングした。GPT-3では、テキストの説明から画像を生成することができる。説明では、オブジェクトの位置や画像の遠近法など、多くの独立した属性を指定できる。そして、現実の世界には存在しないオブジェクトの組み合わせを合成することもできる。
-
Facebookが多言語音声認識ディープラーニングモデルをオープンソース化
Facebook AI Research(FAIR)はクロスリンガル音声認識(XSLR)、多言語音声認識AIモデルをオープンソース化した。XSLRは53の言語でトレーニングされており、一般的なベンチマークで評価すると、既存のシステムよりも優れている。
-
AWSがプレビュー版としてHealthLakeとRedshift MLを発表
AWSは、12月のre:Invent 2020中に、Amazon HealthLakeサービスのプレビューリリース版とRedshift MLと呼ばれるAmazon Redshiftの機能を発表した。Amazon HealthLakeは、ヘルスケア、健康保険、製薬会社がNLP(Natural Language Processing)を利用してデータから価値を引き出すためのデータレイクサービスである。Redshift MLは、SageMakerへのゲートウェイをRedshiftユーザーに提供するサービスである。