InfoQ ホームページ 大規模言語モデル に関するすべてのコンテンツ
-
OpenAI、ChatGPTにメモリ機能を追加し会話を向上
OpenAIは、ChatGPTに会話を記憶させることで、ユーザーが繰り返し会話情報を提供する必要性を減らし、今後のチャットをより有益なものにしたいと考えている。ユーザーは、何を明確に記憶するか、何を忘れるか、あるいはこの機能を完全にオフにするかを指定できる。
-
OpenAI、テキストから動画を生成するAI "Sora" を発表
Soraは、テキストプロンプトから映像を作成するOpenAIの新しい生成AIモデルである。現在プレビュー中だが、この新しいモデルは、現実世界で物事がどのように存在するかを理解する能力を活用し、登場人物やスタイルを崩すことなく複数の映像を組み合わせて、60秒までの写実的な動画を作成できる。
-
マイクロソフト、ITプロフェッショナルのためのAIアシスタント「Copilot for Azure」を発表
マイクロソフトは、クラウドインフラとサービスの管理と運用を強化するために設計されたAIベースのツール「Copilot for Azure」を発表した。クラウドサービスからエッジテクノロジーに至るまで、Azureの機能性を包括的に理解し、扱うために、Azureリソースモデルを大規模言語モデル(LLM)の能力に活用している。
-
Stability AI社が16億パラメータの言語モデル "Stable LM 2"をリリース
Stability AI社は、1.6Bパラメータの言語モデルStable LM 2用に、訓練済みのモデル重みを2セットリリースした。Stable LM 2は、7言語の2兆トークンから成るテキストデータで学習を行ったものであり、一般的なラップトップコンピュータで実行できる。
-
LeftoverLocalsがApple、Qualcomm、AMDのGPUに関するLLMの回答をリークする可能性
セキュリティ企業Trail of Bitsは、Apple、Qualcomm、AMD、Imagination GPUのGPUローカルメモリから悪意ある行為者がデータを復元できる脆弱性を公表した。LeftoverLocalsと名付けられたこの脆弱性は、大規模言語モデル(LLM)や機械学習(ML)モデルなど、GPUを使用するあらゆるアプリケーションに影響を及ぼす。
-
LLMが不正な行動から学習し、持続的な「潜伏工作員」として働く可能性
OpenAIの競合であるAnthropicのAI研究者は、プロンプトの特定のヒントによって引き起こされる不正行動を示すLLMを概念実証として訓練した。さらに、一旦不正の行動がモデルに訓練させると、標準的な技術を使ってそれを回避する方法はなかったという。
-
Mistral AIのオープンソースモデル"Mixtral 8x7B"、GPT-3.5を上回る
Mistral AIは先日、スパース混合エキスパート(SMoE)大規模言語モデル(LLM)であるMixtral 8x7Bをリリースした。このモデルは総パラメータ46.7Bを含むが、その3分の1のサイズのモデルと同じスピードとコストで推論を処理できる。いくつかのLLMベンチマークでは、Llama 2 70BとGPT-3.5の両方を上回った。
-
OpenAIがAIの安全性に"Preparedness Framework"を採用
OpenAIはこの頃、AIのリスクを軽減するためのPreparedness Frameworkのベータ版を発表した。このFrameworkには、4つのリスクカテゴリーとそれぞれのリスクレベルの定義が記載されており、OpenAIの安全ガバナンス手順も定義されている。
-
OpenAIがGPTプロンプトエンジニアリングガイドを発表
先日、OpenAIはプロンプトエンジニアリングのガイドを発表した。このガイドでは、GPTモデルからより良い応答を引き出すための6つの戦略が掲載されており、特に最新バージョンであるGPT-4の例に焦点を当てられている。
-
Microsoft、小型言語モデルPhi-2を発表
Microsoft Researchは、27億パラメータのTransformerベースの言語モデルであるPhi-2を発表した。Phi-2はGPT-3.5によって生成された1.4Tトークンの合成データでトレーニングされ、様々なベンチマークでより大規模なモデルを上回る性能を発揮する。
-
JetBrains、2023.3リリースのIDEに統合されたAIアシスタントの提供を発表
JetBrainsは、今年最後のリリースですべてのIDEを刷新し、統合されたAIアシスタントをプレビューから有料顧客向けに一般提供を開始することを発表した。IDEとの強力な統合に加え、JetBrainsのAIアシスタントは、複数のLLMをサポートすることで他との差別化を図っている。
-
MicrosoftのOrca 2 LLM、性能面で10倍大きいモデルを凌駕
Microsoft Researchは、Llama 2の微調整版であるOrca 2 LLMを発表した。Orca 2 LLMは、10倍のパラメータを含むモデルと同等かそれ以上の性能を発揮できる。この性能を達成するために、合成トレーニングデータセットとプロンプト消去と呼ばれる新しい技術を使用している。
-
xAI、大規模言語モデル"Grok"を発表
イーロン・マスク氏が設立したAI企業xAIはこの頃、大規模言語モデルGrokを発表した。GrokはXプラットフォームを通じて世界の現在の知識にアクセスでき、いくつかのベンチマークでGPT-3.5を含む同規模の他の大規模言語モデル(LLM)を凌駕している。
-
AI研究者、間違いからの学習を模倣することでLLMベースの推論を改善する
マイクロソフト、北京大学、西安交通大学の研究者は、人間が自分の失敗から学ぶ方法を再現することによって、大規模言語モデル(LLM)の数学問題を解く能力を向上させる技術を開発したと発表した。
-
Google、AIのファインチューニング方法であるDistilling Step-by-Stepをオープンソース化
ワシントン大学とGoogle Researchのチームは先日、より小さな言語モデルのファインチューニングを行う手法であるDistilling Step-by-Stepをオープンソース化した。Distilling Step-by-Stepは、標準的なファインチューニングよりも少ないトレーニングデータで、700倍のパラメータを持つ数発のプロンプト大規模言語モデル(LLM)を凌駕する小さなモデルを生成できる。