InfoQ ホームページ Neural-Networks に関するすべてのコンテンツ
-
Google、ゲームシミュレーションAI「GameNGen」を発表
Googleの研究チームはこのほど、ビデオゲーム「Doom」をシミュレートできる生成AIモデル「GameNGen」に関する論文を発表した。GameNGenは、毎秒20フレーム(FPS)でゲームをシミュレートでき、人間による評価では、実際のゲームよりも好まれる頻度がわずかに低かった。
-
大学の研究者らが新しいタイプの解釈可能なニューラルネットワークを構築
マサチューセッツ工科大学、カリフォルニア工科大学、ノースイースタン大学の研究者が、新しいタイプのニューラルネットワークを作成した、Kolmogorov–Arnold Networks(KAN)である。KANモデルは、物理モデリング・タスクにおいて、より大きなパーセプトロン・ベースのモデルを凌ぐ性能を示し、より解釈しやすい可視化を提供する。
-
ペンシルバニア大学の研究者がプロセッサ不要の学習回路を開発
ペンシルバニア大学の研究者らが、非線形回帰などのタスクを学習できるニューラルネットワークに似た電気回路を設計した。この回路は低電力レベルで動作し、コンピューターなしで学習できる。
-
スタンフォード大学による、"2024 AI Index Report"公開:AI規制の成長と生成AI投資
スタンフォード大学 の人間中心人工知能研究所(HAI)は、2024年AIインデックス年次報告書を発表した。同レポートは、2022年以降の生成AI投資の8倍増など、AIのトップトレンドを明らかにしている。
-
Meta社、効率的な長配列モデリングのためのMEGALODON LLMをオープンソース化
先日、Meta社、南カリフォルニア大学、カーネギーメロン大学、カリフォルニア大学サンディエゴ校の研究者が、無制限の文脈長を持つ大規模言語モデル(LLM)であるMEGALODONのオープンソース化を発表した。MEGALODONは線形複雑度を持ち、様々なベンチマークにおいて同サイズのLlama 2モデルを凌駕している。
-
Meta社のChameleon AIモデルは、画像・テキスト混合タスクでGPT-4を上回るパフォーマンスを発揮する
Meta社のAI基盤研究(FAIR)チームはこのほど、テキストと画像が混在したコンテンツを理解・生成できる混合モーダルAIモデル「Chameleon」を発表した。人間の審査員によって評価された実験では、Chameleonの生成出力はGPT-4よりも51.6%、Gemini Proよりも60.4%で好まれた。
-
OpenAI、動作のファインチューニングのためのGPTモデル仕様を公開
OpenAIは最近、GPTモデルの動作に関するルールと目的を記述した文書、Model Specを公開した。この仕様書は、データ・ラベラーやAI研究者がモデルをファインチューニングするためのデータを作成する際に使用することを目的としている。
-
Stability AIが3Dモデル生成AI "Stable Video 3D"をリリース
Stability AIはこのほど、1枚の2D画像から3Dメッシュオブジェクトモデルを生成できるAIモデル、"Stable Video 3D"(SV3D)をリリースした。SV3DはStable Video Diffusionモデルに基づいており、3Dオブジェクト生成ベンチマークで最先端の結果を出している。
-
OpenAIが新たなファインチューニングAPI機能をリリース
OpenAIは、ファインチューニングAPIの新機能リリースを発表した。この機能により、モデル開発者はファインチューニングプロセスをよりコントロールできるだけでなく、モデルのパフォーマンスをより深く理解しやすくなるだろう。
-
Google、ユーザーインターフェースとインフォグラフィックスを理解するAIモデル「ScreenAI」を育成
Google Researchは先日、インフォグラフィックスとユーザーインターフェースを理解するためのマルチモーダルAIモデル「ScreenAI」を開発した。ScreenAIはPaLIアーキテクチャをベースにしており、いくつもの課題において最先端の性能を記録している。
-
Meta社、24000基以上のGPUから成るAIインフラ設計を発表
Meta社はこの程、2つの新しいAIコンピューティング・クラスターの設計を発表し、それぞれ24,576基のGPUを搭載している。これらのクラスタはMeta社のGrand Tetonハードウェア・プラットフォームに基づいており、1つのクラスタは現在Meta社の次世代モデルである、"Llama 3"のトレーニングに使用されている。
-
研究者らが、LLMジェイルブレイク攻撃の防御アルゴリズム"SafeDecoding"のオープンソース化を発表
ワシントン大学、ペンシルバニア州立大学、アレンAI研究所の研究者が、大規模言語モデル(LLM)をジェイルブレイク攻撃から守る技術である、"SafeDecoding"のオープンソース化を発表した。SafeDecodingは、大きな計算オーバーヘッドを発生させることなく、ベースラインのジェイルブレイク防御を上回る性能を発揮する。
-
RWKVプロジェクト、LLM "Eagle 7B"をオープンソース化
RWKVプロジェクトはこの程、75.2億パラメータの大規模言語モデル(LLM)である、Eagle 7Bをオープンソース化した。Eagle 7Bは、100以上の言語の1.1兆トークンのテキストで学習され、多言語ベンチマークにおいて他の同サイズのモデルを凌駕している。
-
Google、2億パラメータのAI予測モデル"TimesFM"を発表
GoogleResearchは、時系列予測を目的とした200MパラメータのTransformerベースの基礎モデルである、TimesFMを発表した。TimesFMは約100Bのデータポイントで学習され、教師あり学習モデルと同等以上のゼロショット予測性能を持つ。
-
Google、100万トークンのコンテキスト長を持つマルチモーダル"Gemini 1.5"を発表
Gemini 1.0 Ultraの発表から1週間後、Googleは次世代モデルであるGemini 1.5の追加詳細を発表した。新しいバージョンでは、コンテキストウィンドウが拡張され、"Mixture of Experts"(MoE)アーキテクチャが採用され、AIがより高速かつ効率的になることが期待されている。新モデルには、マルチモーダル機能の拡張も含まれている。