2024年9月18日と19日、Linux Foundationはサンフランシスコのフォート・メイソン周辺でPyTorch Conference 2024を開催した。このカンファレンスでは、PyTorch 2.4とLlama 3.1の最新の機能と、PyTorch 2.5での今後の変更点が紹介された。PyTorch Foundationのエグゼクティブディレクターであり、Linux FoundationのAI担当GMでもあるMatt White氏は、初日のカンファレンスの冒頭で、責任ある生成AIの発展におけるオープンソース・イニシアチブの重要性を強調した。
Hanna Hajishirzi氏は、堅牢な言語モデルを構築し、研究者が完全にアクセス可能にすることを目的としたOLMoプロジェクトについて詳述した。これには、データ管理、トレーニング、推論、対話のためのオープンソースコードが含まれる。また、言語モデルのトレーニング用にキュレーションされた3TトークンのオープンデータセットであるDOLMa、命令チューニングされた言語モデルであるTulu、ゼロからトレーニングされたフルオープンの7Bパラメータ言語モデルであるOLMo v1についても議論された。
NVIDIAのPiotr Bialecki氏、MetaのPeng Wu氏らは、2016年から2024年までのPyTorchの進化を描きながら、PyTorchを技術的に深く掘り下げて解説した。彼らは、PyTorchが年月を経て、いかにわかりやすく、デバッグしやすく、ハックしやすくなったかを強調した。彼らはまた、PyTorchの成長に関する数字も提供した。過去1年だけでも20,000以上の研究論文と140,000以上のGithubリポジトリがPyTorchを利用しており、その普及は目覚ましい。
カンファレンスでは、エコシステム内のいくつかのライブラリにスポットが当てられた。PyTorchのライブラリであるTorchtuneは、LLMを微調整するための柔軟で利用しやすいソリューションを提供している。活性化チェックポインティング、8ビットAdamWオプティマイザ、チャンクドクロスエントロピーのような技術を通じて、メモリ効率の課題に対処している。torch.compileとサンプルパッキングやFlexAttentionなどのテクニックを統合することで、トレーニング速度が大幅に向上した。Torchtuneのモジュール設計とトレーニングレシピは、様々なレベルの専門知識を持つユーザーに対応し、LLMを微調整するプロセスを民主化する。
PyTorchライブラリであるTorchChatは、このプロセスを合理化し、ラップトップ、デスクトップ、モバイルデバイス上でLLMをシームレスかつ高性能に実行可能にすることを目的としている。torch.compile、torch.export、AOT Inductor、ExecuTorchといったPyTorchのコアコンポーネントを活用し、Python環境と非Python環境の両方でモデルの最適化とデプロイを行う。TorchChatはコンポーザビリティ、デバッガビリティ、ハッカビリティに重点を置いており、開発者が効率的にLLMを構築し、デプロイできるよう支援している。
量子化とスパース化のためのライブラリであるTorchAOは、大規模モデルのメモリと計算負荷に対処する。ハードウェアのオプション性についても議論され、torchaoはPyTorchでの低精度最適化を可能にする。PyTorch 2.0の推論のストーリーが検討され、多様な展開シナリオに対応したモデルのエクスポートの進化が紹介された。
カンファレンス初日の夜に行われたポスターセッションでは、Meta、NVIDIA、Google、Intelなどからの発表があった。主なトピックは、PyTorchのデータハンドリング、推論性能の向上、Torch.Compile、TensorRT、AIエッジ量子化などのツールによる新しいハードウェアのサポートなどであった。Google Researchからのツールの1つは、MLモデルの理解、デバッグ、最適化を支援するグラフ可視化ツールだった。Metaからの受賞ポスター「PyTorch Performance Debugging in N-Dimensional Parallelism」は、1つのトレーニングクラスタ上の16K H100 GPUにまたがるトレーニングのパフォーマンス非効率性の特定と緩和について議論した。
この規模になると、新しいモデルパラダイムに対するパフォーマンスの非効率性を深く掘り下げることが非常に重要になります。これは、大規模なトレーニングに不可欠です。このプラットフォームは、大規模モデルのパフォーマンスとスケーリングのボトルネックを観察し、迅速にデバッグするのに役立ちます。 -Sreen Tallam氏
Voltron DataのAI&OSS担当副社長であるChip Huyen氏は、2日目の最初にAIにおける外部評価ツールの限界について議論し、評価プロセスにおけるクリティカルシンキングの重要性を強調した。Lightning AIのスタッフリサーチエンジニアであるSebastian Raschka博士は、参加者を大規模言語モデル(LLM)の進化の旅へと導いた。Raschka氏は、アテンション・メカニズムにおける主要な開発と、最先端のLLMの学習プロセスとパフォーマンスを向上させた最新の「コツ」を紹介した。
また、Jerry Liu氏は、信頼性の高いマルチエージェントシステムを構築するための課題と構成要素について議論した。Liu氏のプレゼンテーションでは、単純なRAGスタックから、多様な入力を推論して洗練された出力を生成できる、より自律的なエージェントへの移行が強調された。
Woosuk Kwon氏とXiaoxuan Liu氏は、AMD GPU、Google TPU、AWS Inferentiaなど様々なハードウェア上で高速かつ効率的なデプロイを可能にする、PyTorch上に構築された高性能LLM推論エンジンであるvLLMについて発表した。これにより、AMD GPU、Google TPU、AWS Inferentiaなどのさまざまなハードウェアへの高速かつ効率的な展開が可能になる。Omar Sanseviero氏は、100万以上のオープンモデルを配布するHugging Faceの取り組みについて説明し、強力なAIツールへのアクセスを民主化するプラットフォームの役割を強調した。
2日目もまた、LLM導入の限界を押し広げることについて議論された。MetaのPyTorch EdgeチームのChen Lai氏とKimish Patel氏は、LLMをエッジデバイスに展開する際の課題に取り組んだ。彼らは、このようなリソースが限られた環境での制約について議論し、CPU、GPU、特殊なAIアクセラレータを含むエッジハードウェア上で効率的にLLMを実行するためのフレームワークであるExecuTorchを紹介した。NVIDIAのMark Moyou氏は、量子化、並列化、KVキャッシュ管理などのトピックを掘り下げながら、プロダクショングレードのLLMデプロイメントのサイジングの複雑さについて探求した。
「バイアスの全くないトレーニングデータセットなど存在しません。あるユースケースではほとんどバイアスがないとしても、別のユースケースではバイアスがないという保証はありません。」 -Shailvi Wakhlu
このカンファレンスでは、AI導入の倫理的考察に関する洞察に満ちた議論も行われた。Patchstack社の機械学習エンジニアであるRashmi Nagpal氏は、解釈可能なモデルを構築する必要性と、倫理的配慮の迷路をナビゲートすることの重要性を訴えた。Ethical Tech AIのオーナーであるAmber Hasan氏は、AIの潜在的な環境への影響、特に水資源への影響について議論した。
カンファレンスの詳細を知りたい開発者は、今後数週間のうちにYouTubeでビデオを見るか、カンファレンスのスケジュールで発表された資料の一部をチェックできる。