BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Alibaba、数学と音声チャット用の2つのオープンウェイト言語モデルをリリース

Alibaba、数学と音声チャット用の2つのオープンウェイト言語モデルをリリース

原文リンク(2024-09-03)

Alibabaは2つのオープンウェイト言語モデルファミリーをリリースした。Qwen2-Math は数学の問題を解くために調整されたLLMで、Qwen2-Audio は音声やテキスト入力を受け付けるマルチモーダルLLMである。両ファミリーはAlibabaのQwen2 LLMシリーズをベースにしており、Qwen2-Mathの最大バージョンを除くすべてがApache2.0ライセンスで提供されている。

Qwen2-Mathには基本バージョンと命令チューニングバージョンがあり、それぞれ1.5B、7B、72Bのパラメータから選択できる。ほとんどのベンチマークデータセットはインターネット上で入手可能であるため、Alibabaはトレーニングデータセットの汚染除去を行い、数学的問題解決のベンチマーク例を削除した。事前学習の後、教師あり微調整と強化学習の両方を用いて、命令チューニングされたモデルを学習させた。人気の高いMATHベンチマークでは、最大のモデルであるQwen2-Math-72B-Instructが、GPT-4oやClaude-3.5-Sonnetを含む最先端の商用モデルを上回った。Alibabaによれば、

現在は英語のみのサポートという制約があるため、英語と中国語の両方をサポートするバイリンガル・モデルをまもなくリリースする予定であり、多言語モデルの開発も計画中である。さらに、複雑で難解な数学的問題を解くモデルの能力強化も進めていく。

Alibabaは、MATH のほかに、GSM8KAIME 2024などのベンチマークや数学試験で Qwen2-Math を評価した。その結果、Qwen2-Math-Instructは、「特に1.5Bと7Bのモデルにおいて」、同程度のサイズの他のベースラインモデルよりも優れた性能を発揮することがわかった。パラメータ72Bのバージョンは、中国語の数学試験ベンチマークCMATHで86.4点を達成しAlibabaは、これが新記録だと主張する。また、AIME2024試験でもクロード、GPT-4、ジェミニを上回ったという。

Alibabaは、Qwen2-Audioの詳細を記載したテクニカルレポートを発表した。このモデルはテキストと音声の両方の入力を受け付けるが、出力できるのはテキストのみである。提供される音声入力のタイプに応じて、このモデルは「音声チャット」と「音声分析」の2つのモードで動作する。音声チャットモードでは、入力はユーザーの発話音声であり、モデルはチャットボットとして動作する。音声分析モードでは、モデルは音声入力の内容に関する質問に答えることができる。例えば、音楽のクリップがあれば、モデルは曲のテンポとキーを特定できる。

Andrew Ng氏のニュースレター「The Batch」はAlibabaのリリースを取り上げ、次のように述べた。

Qwen2はオープンウェイトで並外れたパフォーマンスを発揮し、AlibabaをLLMの地図に載せた。このファミリーへの専門的な追加により、AI における数学パフォーマンスとオーディオ統合が前進し、最先端のモデルをより多くの開発者に提供できるようになる。独自なモデルを凌駕するオープンウェイトのモデルを見るのはスリリングだ。オープン・テクノロジーとクローズド・テクノロジーの白熱した競争は、誰にとっても良いことだ!

Redditのユーザーは両モデルシリーズについて議論した。あるユーザーはQwen2-Math-7Bについて、"サイズの割にパンチ力がある "と評した。別のユーザーはQwen2-Audioについてこう語っている。

このモデルを使ってオーディオ出力を合成してみるのはとても面白いだろう。音声エンコーダーはWhisperSpeechのものとほとんど同じだ。Qwen2はWhisper-large-v3を使っているが、おそらくWhisperSpeech音響モデルの再トレーニングが必要だろう。これが成功すれば、GPT4oのアドバンストボイスモードがローカルで動作するのと基本的に同等になる。

Qwen2-MathQwen2-AudioのモデルファイルはHuggingfaceからダウンロードできる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT