Stability AIは、大規模言語モデル(LLM)スイートであるStableLMのための訓練済み重みづけモデルを2セット公開した。これらのモデルは、1.5兆個のテキストトークンで学習済で、CC BY-SA-4.0の下で商用利用が許可されている。
リリースされたモデルにはそれぞれ3Bと7Bのパラメータが含まれており、より大規模なモデルも近日中にリリース予定だ。トレーニングデータセットは、EleutherAIのThe Pileデータセットのアップデート版で、EleutherAIのモデルのトレーニングに使用されるデータは3倍である。また、StanfordのAlpacaデータセットを含む、命令フォローとチャットデータセットで微調整されたStableLMモデルのバージョンも含まれている。なお、微調整したモデルは、Alpacaのライセンス要件に基づき、非商用に限り利用可能である。Stability AIは次のように言及している。
StableLMモデルの公開により、Stability AIは、基礎的なAI技術をすべての人に届け続けたいと考えています。このモデルは、テキストとコードを生成でき、さまざまなダウンストリームアプリケーションを支援します。私たちの言語モデルは正しく学習させることで小さく効率的なモデルが高いパフォーマンスを出せることを示すものです...言語モデルはデジタル経済のバックボーンを形成するようになるでしょうし、誰もがそのデザインに意見を言える状態にしたいと考えています。私たちはStableLMのようなモデルを通じて透明性が高く、アクセスしやすく、支援的なAI技術に対するコミットメントを示したいのです。
OpenAIのGPT-3のような生成的LLMの成功は、同様の機能を持つ小規模なオープンソースモデルの開発に拍車をかけた。2022年、InfoQはEleutherAIのオープンソース20BパラメータLLMであるGPT-NeoX-20Bのリリースを取り上げ、さらに最近ではMetaの7BパラメータLLaMA LLMを取り上げたのである。OpenAIが公開したChatGPTは、LLMを "命令に従う"データセットで微調整することで性能が向上することを示し、LLaMAを微調整したスタンフォードのAlpacaなどの類似モデルの公開につながった。
StableLMのモデルは3Bと7Bパラメータのモデルだけがリリースされているが、Stability AIによると15B、30B、65Bのパラメータのモデルを準備中で、さらに175Bパラメータのモデルも予定されている。またチャットボットのアシスタントを微調整するためのオープンソースのデータセットをクラウドソーシングし、OpenAssistantなどのプロジェクトの取り組みを促進するとしているのだ。Stability AIはモデルのベンチマーク性能データを発表していないが、"会話やコーディング作業において驚くほど高い性能を発揮する "と主張している。
このリリースに関するHacker Newsでのディスカッションでは、あるユーザーがこう語っている。
リモートAPIを介してLLMへのアクセスを販売することは技術開発の "ラジオでの舞台劇"段階です。実際には何の意味もなくビジネスパーソンが慣れているだけなのです。それは長くは続かないでしょう。デバイスで動かすことでもっと多くの価値が引き出されます。フィーチャーフォンのために携帯電話会社に月々5ドル払うようなものです。
Stability社のCEOであるEmad Mostaque氏は、Twitterの"ask me anything" スレッドでStableLMに関する質問に答えている。モデルの訓練に使用するハードウェアについて質問されると、"3,000台のA100と512台のTPU v4 "を使用しているとのことだ。
StabilityのLLMリードであるStanislav Fortは、Twitterで役に立つヒントを投稿した。
初期のStableLMモデルについては、プロンプトに "User: "を追加してみて欲しい。これらのモデルの学習方法のため、evalsの前に "User: " を追加することで、事態はずっと良くなるはずだ。
StableLMモデルのコードはGitHubで、重みづけモデルとチャットインターフェイスのデモは、HuggingFaceで公開されている。