InfoQ ホームページ Neural-Networks に関するすべてのコンテンツ
-
MITが深層学習推論のためのエネルギー効率の高い光加速器を紹介
MITの量子フォトニクス研究所の研究者は、デジタル光ニューラルネットワーク(DONN)を開発した。光を使ってアクティブ化データと重みデータを送信する深層学習推論アクセラレータのプロトタイプだ。数パーセントの精度を犠牲にすることで、システムは従来の電子機器に比べて最大1000倍の伝送エネルギーのメリットを得られる。
-
Googleが8億パラメータ視覚・言語AIモデルのALIGNを発表
Google Researchは、大規模な画像とノイズの多いテキストの埋め込み(ALIGN)の開発を発表した。これは、800Mパラメータで事前トレーニング済みディープラーニングモデルで、18億の画像・テキストのペアのノイズの多いデータセットでトレーニングされている。このモデルは、いくつかのダウンストリームタスクで使用でき、画像・テキスト検索のいくつかのベンチマークで最先端の精度を実現している。
-
EleutherAIが60億パラメータGPT-3のクローンであるGPT-Jをオープンソース化
EleutherAIの研究者チームは、GPT-Jをオープンソース化した。これはGPT-3に基づく60億パラメーターの自然言語処理(NLP)AIモデルである。このモデルは800GBのオープンソーステキストデータセットでトレーニングされており、同様のサイズのGPT-3モデルに匹敵するパフォーマンスを備えている。
-
Googleがトークンフリー言語モデルByT5をオープンソース化
Google Researchは、ByT5をオープンソース化している。これは抽象的なトークンの代わりに未加工のバイトで動作する自然言語処理(NLP)AIモデルである。ベースラインモデルと比較して、ByT5はいくつかのベンチマークタスクでより正確であり、スペルミスやノイズに対してより堅牢である。
-
Googleが20億パラメータのAIビジョンモデルをトレーニング
Google Brainの研究者は、20億個のパラメータを含む深層学習コンピュータビジョン(CV)モデルを発表した。このモデルは30億枚の画像でトレーニングされ、ImageNetで90.45%のトップの精度を達成し、新たに最先端の記録を打ち立てた。
-
CMUがAIモデルの一般化を保証するアルゴリズムを開発
カーネギーメロン大学(CMU)の近似的に正しいマシンインテリジェンス(ACMI)ラボの研究者が、ランダム割り当て、訓練、追跡(RATT)に関する論文を発表した。ノイズの多いトレーニングデータを使って、深層学習モデルのTrueエラーのリスクの上限を示すアルゴリズムに関しての論文である。RATTを使って、モデルの開発者は、モデルが新しい入力データにどの程度一般化されるかを判断できる。ta.
-
MicrosoftのZeRO-Infinity Libraryで32兆個のパラメーターのAIモデルをトレーニング
Microsoftは最近、ZeRO-Infinityをオープンソース化した。これは、オープンソースのDeepSpeed AIトレーニングライブラリへの追加である。このライブラリは、非常に大規模なディープラーニングモデルをトレーニングするためのメモリ使用を最適化するものである。MicrosoftはZeRO-Infinityを使って、32のGPUのクラスター上で32兆のパラメーターを持つモデルをトレーニングし、1つのGPUで1兆のパラメーターモデルの微調整のデモを実施した。
-
NVIDIAがAIをトレーニングするデータセットジェネレータDatasetGANを発表
NVIDIAの研究者は、AIビジョンモデルをトレーニングするためのデータセットを作成する注釈付きの合成画像を生成するシステムであるDatasetGANを作成した。DatasetGANは、わずか16の人による注釈付き画像でトレーニングでき、100倍以上の注釈付き画像を必要とする完全な教師ありシステムと同様に機能する。
-
研究者が生物学的に妥当なAIトレーニング方法を公開
オックスフォード大学の研究者チームは、ニューラルネットワークAIモデルをトレーニングするためのバックプロパゲーション(BP)アルゴリズムの代替として、ゼロダイバージェンス推論学習(Z-IL)と呼ばれるアルゴリズムを開発した。Z-ILは、任意のニューラルネットワークでBPの結果を正確に再現することが示されているが、BPとは異なり、脳機能の既知の原則に違反していない。
-
FacebookがZionEXプラットフォームを発表、12兆パラメータのAIモデルのトレーニングを可能に
Facebook AI Research(FAIR)の科学者チームは、独自に開発したAIハードウェアプラットフォームのZionEX上でPyTorchを使ってディープラーニングレコメンデーションモデル(DLRM)をトレーニングするシステムを発表した。このシステムを使って同チームは、最大12Tパラメータを持つモデルのトレーニングにおいて、他のシステムよりも1桁近いトレーニング時間のスピードアップを実現している。
-
オープンソースAIが暴風雨による停電を81%の精度で予測
Aalto大学とフィンランド気象研究所の科学者のチームは、暴風雨による損傷によって引き起こされる停電を予測するためのオープンソースのAIモデルを開発した。このモデルは、15km以内の暴風雨の場所を予測し、変圧器の損傷量を81%の精度で分類できるため、電力会社は停止に備え、停止に対してより迅速に修復することができる。
-
Perceiver:複数の入力データ型向けの単一のニューラルネットワークモデル
GoogleのDeepMind社は最近、Perceiverと呼ばれる最先端のディープラーニングモデルをリリースした。これは、人間の脳がマルチモーダルデータを認識するのと同じように、音声から画像までの複数の入力データを受信して処理するものである。Perceiverは、複数の入力データ型、つまり点群、音声、画像を受信して分類できる。
-
MicrosoftがAIトレーニングライブラリのZeRO-3オフロードをリリース
Microsoftは最近、ZeRO-3オフロードをオープンソース化した。これは、非常に大規模な深層学習モデルをトレーニングしつつも、メモリ効率を改善する、DeepSpeed AIトレーニングライブラリの拡張である。ZeRO-3オフロードを使用すると、ユーザは、単一のGPUで最大400億のパラメーター、512のGPUで2兆を超えるパラメーターを使用してモデルをトレーニングできる。
-
Alibaba Announces 10 Billion Parameter Multi-Modal AI M6
AlibabaはMulti-Modality to Multi-Modality Multitask Mega-transformer(M6)と称するAIモデルを開発した。100億のパラメータを持ち、1.9TBのイメージと292GBの中国語テキストで構成されたデータセットを使ってプレトレーニングされている。テキストガイド付きイメージの作成、VQA(Visual Question and Answering、視覚に基づく質疑応答)、イメージ-テキストマッチングなど、いくつかのダウンストリームタスクに合わせたファインチューニングが可能だ。
-
チップ設計用のGoogle Apollo AIが、深層学習のパフォーマンスを25%向上する
Google Researchの科学者は、AIアクセラレータチップの設計を最適化するためのフレームワークであるAPOLLOを発表した。APOLLOは、チップ面積を最小限に抑えながら、深層学習の推論待ち時間を最小限に抑えるチップパラメータを選択するために進化的アルゴリズムを使用する。APOLLOを使用することで、研究者は、ベースラインアルゴリズムによって選択されたものよりも24.6%の高速化を達成する設計を発見した。