Meta AI はパラメータ数が10分の1にもかかわらずGPT-3 などのモデルよりも優れた性能を持ち、PaLM と競合する新しい大規模言語モデル、Language Large Models Meta AI(LLaMA)をリリースした。70億から650億までのパラメータの言語モデルのセットがリリースされており、パラメータ数はLLaMAのバージョンによって決まる。
上のグラフはLLaMA 7B(70億パラメータのバージョン)がGPT-3やPaLMよりもパラメータが少ない大規模言語モデルであるにも関わらず、相応の量のトレーニングを与えるとそれらを上回る性能を発揮できることを示している。
データセットには、GitHub、Wikipedia、arXiv、Stack Exchange などの公開ソースからの 1.4兆個のトークンが含まれている。トークン化プロセスは、SentencePiece ソフトウェアを採用して、バイトペア エンコーディングで実施している。
ディープラーニングモデルアーキテクチャは、トランスフォーマーモデルを採用している。Meta AI の研究者たちは、各トランスフォーマーのサブレイヤーの入力を正規化することで、事前正規化を行っている。さらに活性化関数であるSwiGLUがLLaMAで採用された。彼らはまた、回転に基づく新しい位置埋め込み表現、つまり、ロータリー埋め込みと埋め込み表現を選択した。研究者たちは、AdamW などの適応型勾配アルゴリズムを採用して、従来の Adam のモデル汎化を大幅に向上させ、さらに 勾配クリッピング のしきい値を1.0としている。
効率的なトランスフォーマー実装である xformers は、メモリ使用量と実行時間を削減する。さらに、Meta AI の研究者たちは、チェックポイントを使用して、バックワードステップ中の活性化の数を削減してトレーニングを改善した。
LLaMAはパラメータ数が少ないため、トレーニング時間を確保しやすく、そのおかげで自然な質問、常識的な推論、数学的な推論などの言語タスクで、PaLM や GPT-3 よりも優れた性能を発揮する。たとえば、完全一致を使用して、予測された答えが正解と同一である文書の割合を測定すると、LLaMA 33BはGPT-3(14.6)、PaLM-540B(21.2)、Chinchilla-70B(16.6)よりも優れた24.9という記録である。
出典:LLaMA: Open and Efficient Foundation Language Models
LLaMAは、テキスト生成や会話のやり取りや書かれた資料の要約、あるいは数学定理を解決したりタンパク質構造を予測したりするような複雑なタスクにも使用できる。ただし、コミュニティの主要な用途はテキスト生成や会話のやり取りに向かっているようだ。
大規模な言語モデルはトレーニングデータのバイアスを再現・増幅させ、有害または攻撃的なコンテンツを生成することが示されている。LLaMA 65BはGPT-3と比較して、性別や宗教などのトピックでわずかにバイアスが少ない。
クラウドからダウンロードした重みデータ(学術目的のみのライセンスが付与されている)に基づいて推論コードを実行するには、ここを参照すること。
torchrun --nproc_per_node MP example.py --ckpt_dir $TARGET_FOLDER/model_size --tokenizer_path $TARGET_FOLDER/tokenizer.model
また、LLaMAのGitHubページでモデルの実装を確認できる。さらに、HuggingFaceでLLaMA 7Bを使ったプロンプトUIが開発されている。重みデータは学術機関を超えてライセンスされていないにもかかわらず、トレントファイルを使ってダウンロードできるようになっている。
SNSでは、GPT-3やPaLMと同等の性能で計算負荷が低いことが好評である一方、重みデータを学術機関とのみ共有していることについて疑問の声も出ている。また、AIコミュニティは、GPT-3やPALMと比較した推論速度についても言及している。