InfoQ ホームページ Neural-Networks に関するすべてのコンテンツ
-
Google社がBardをGeminiに改名
Google社は、同社のチャットボットBardの名称をGeminiに変更すると発表した。同社はまた、Gemini言語モデルの最大バージョンであるGemini Advancedの発表と、Gemini言語モデルと対話するための2つの新しいモバイルアプリの発表も行った。
-
Stability AIのオープンソース動画生成モデル Stable Video Diffusion
Stability AI社は、動画生成AIモデルStable Video Diffusion(SVD)のコードとモデルウェイトを公開した。コンテキストとして入力画像が与えられると、このモデルは576x1024ピクセルの解像度で25のビデオフレームを生成できる。
-
Stability AI社が16億パラメータの言語モデル "Stable LM 2"をリリース
Stability AI社は、1.6Bパラメータの言語モデルStable LM 2用に、訓練済みのモデル重みを2セットリリースした。Stable LM 2は、7言語の2兆トークンから成るテキストデータで学習を行ったものであり、一般的なラップトップコンピュータで実行できる。
-
Mistral AIのオープンソースモデル"Mixtral 8x7B"、GPT-3.5を上回る
Mistral AIは先日、スパース混合エキスパート(SMoE)大規模言語モデル(LLM)であるMixtral 8x7Bをリリースした。このモデルは総パラメータ46.7Bを含むが、その3分の1のサイズのモデルと同じスピードとコストで推論を処理できる。いくつかのLLMベンチマークでは、Llama 2 70BとGPT-3.5の両方を上回った。
-
OpenAIがGPTプロンプトエンジニアリングガイドを発表
先日、OpenAIはプロンプトエンジニアリングのガイドを発表した。このガイドでは、GPTモデルからより良い応答を引き出すための6つの戦略が掲載されており、特に最新バージョンであるGPT-4の例に焦点を当てられている。
-
Microsoft、小型言語モデルPhi-2を発表
Microsoft Researchは、27億パラメータのTransformerベースの言語モデルであるPhi-2を発表した。Phi-2はGPT-3.5によって生成された1.4Tトークンの合成データでトレーニングされ、様々なベンチマークでより大規模なモデルを上回る性能を発揮する。
-
MicrosoftのOrca 2 LLM、性能面で10倍大きいモデルを凌駕
Microsoft Researchは、Llama 2の微調整版であるOrca 2 LLMを発表した。Orca 2 LLMは、10倍のパラメータを含むモデルと同等かそれ以上の性能を発揮できる。この性能を達成するために、合成トレーニングデータセットとプロンプト消去と呼ばれる新しい技術を使用している。
-
Meta、生成AIモデル「Emu Video」と「Emu Edit」を発表
Meta AI Researchは、2つの新しい生成AIモデルを発表した。Emu Videoは、テキストプロンプトにて短い動画の生成ができ、Emu Editは、テキストベースの指示を受けて画像編集ができる。両モデルとも、Meta社のEmu基礎モデルをベースにしており、いくつかのベンチマークで最先端の性能を示している。
-
Spotify、最近傍検索ライブラリVoyagerをオープンソース化
Spotify Engineeringは最近、近似最近傍(ANN)検索ライブラリであるVoyagerをオープンソース化した。VoyagerはHNSW(hierarchical navigable small worlds)アルゴリズムに基づいており、Spotifyの以前のANNライブラリAnnoyよりも10倍高速である。
-
Metaが手がけるオープンソースなComputer Vision基盤モデルDINOv2
Meta AI ResearchはComputer Vision(CV)タスクの基盤モデルであるDINOv2をオープンソース化した。DINOv2は142Mの画像からなるキュレーションデータセットで事前学習されており、画像分類(Image Classification)、ビデオアクション認識(Video Action Recognition)、セマンティックセグメンテーション(Semantic Segmentation)、深度推定(Depth Estimation)などのタスクのバックボーンとして使用できる。
-
Googleの新たなImagen AIが、テキストから画像を生成するベンチマークでDALL-Eの性能を上回る
GoogleのBrain Teamの研究者がImagenを発表した。これはテキストによる説明が与えられたシーンから、写真のような現実感のある画像を生成できるテキスト-to-イメージAIモデルである。Imagenは、COCOベンチマークでDALL-E 2の性能を上回り、多くの同様のモデルと異なり、テキストデータでのみ事前トレーニングされている。
-
Metaが1750億パラメータAI言語モデルのOPTをオープンソース化
Meta AI Researchは、1750億パラメーターAI言語モデルのOpen Pre-trained Transformer(OPT-175B)をリリースした。このモデルは1800億のトークンを含むデータセットでトレーニングされている。GPT-3と同等のパフォーマンスを示す一方で、必要なカーボンフットプリントはGPT-3トレーニングの7分の1のみである。
-
グラフニューラルネットワークのベンチマークを高速化する新ツール GraphWorld
Google AIは先頃、グラフニューラルネットワーク(Graph Neural Networks、GNNs)分野のパフォーマンスベンチマークを加速するツールとして、GraphWorldをリリースした。異なるノード次数分布やジニ係数のように、さまざまな構造特性でグラフを生成するための、コンフィギュレーション可能なフレームワークである。
-
Googleが5400億パラメータのAI言語モデルPaLMをトレーニング
Google Researchは最近、Pathways Language Model(PaLM)を発表した。これは、5400億パラメータのAI自然言語処理(NLP)モデルで、BIGベンチベンチマークでは平均的な人間のパフォーマンスを超えている。PaLMは、多くの評価タスクで他の最先端のシステムよりも優れており、論理的推論やジョークの説明などのタスクで強力な結果を示している。
-
スタンフォード大学がAI Index 2022年次報告書を公表
スタンフォード大学の人間中心人工知能研究所(HAI)は、2022年のAI Index年次報告書を発表した。このレポートでは、技術的成果の進歩、民間投資の急増、倫理的問題への関心の高まりなど、AIのトップトレンドが明らかになっている。