LLM(大規模言語モデル)であるQwenの開発チームは、AIの推論と分析能力を向上させるために設計された実験的研究モデル、QwQ-32B-Previewを発表した。32,768トークンのコンテキストと最先端の変換アーキテクチャを特徴とするこのモデルは、GPQAやMATH-500のような数学、プログラミング、科学ベンチマークに優れている。Hugging Faceで利用可能で、その機能を探求し、開発に貢献をしてくれる研究者たちを募っている。
QwQ-32B-Previewは、高度な変換器アーキテクチャを用いて構築された因果言語モデルである。Rotary Positional Embedding(RoPE)、SwiGLU、RMSNorm、Attention QKVバイアスを特徴とする。64のレイヤーと40のアテンションヘッド(モデルがどのトークンに「注意を払う」かを決定する要素のこと)を持ち、深い推論を必要とするタスクに最適化されている。32,768トークンという拡張されたコンテキスト長により、このモデルは大規模な入力を処理し、複雑なマルチステップ問題に取り組める。
生成AIのスペシャリストであるAxel Dittmann氏が強調するように、QwQ-32Bはローカルアプリケーションにおいて実用的な有効性を示している。
私のM3-Max MACで短時間のテストを行いましたが、そのスピードはモデルの能力と比べても素晴らしいです(技術者の皆さん向け:GGUFファイル形式に変換しました)。局所的な用途においては、推論力と調整された精度を組み合わせたハイブリッドアーキテクチャは理想的です。これらのモデルが進化すれば、より強力なクラウド機能と組み合わせて、よりインテリジェントでローカライズされたAIソリューションへの扉が開かれるでしょう。
QwQ-32B-Previewは、複数の困難なベンチマークでテストされ、注目すべき結果を達成した。
- GPQA (Graduate-Level Google-Proof Q&A):65.2%のスコアを獲得し、科学的問題解決における強力な推論力を示した。
- AIME(American Invitation Mathematics Examination):代数学、幾何学、確率論の高度な数学的問題を解き、50.0%を達成した。
- MATH-500:90.6%という素晴らしい成績を収め、様々な数学的トピックの理解力を証明した。
- LiveCodeBench:50.0%に達し、実世界のプログラミングシナリオでコードを生成・分析する能力を検証した。
出典:Qwenブログ
QwQ-32B-Previewは実験的なモデルであるため、既知の課題と制限もある。例えば、言語が混在したり、不意に切り替わったりする傾向があることで、これが反応の明瞭さを低下させる。さらに、このモデルはときどき再帰的な推論ループに入り、循環的な議論を引き起こし、決定的な結論に達することなく長い出力を生成する。専門的なタスクでは優れているが、一般的な推論、特に常識やニュアンスのある言語理解といった分野では改善の余地がある。もうひとつの重大な懸念は、特に高いレベルの信頼性と説明責任を必要とするアプリケーションにおいて、その信頼性と倫理的な展開を保証するための安全対策強化の必要性である。
QwQ-32B-PreviewはHugging Faceから入手可能で、ドキュメントとソースコードはGitHubからアクセスできる。Qwen開発チームは、研究者がこのモデルの機能を探求し、その改善に貢献することを奨励している。将来のアップデートは、現在の制限に対処し、より広範なAIアプリケーションにおけるパフォーマンスを向上させることを目的としている。