Alibaba、数学と音声チャット用の2つのオープンウェイト言語モデルをリリース

原文リンク(2024-09-03)

Alibabaは2つのオープンウェイト言語モデルファミリーをリリースした。Qwen2-Math は数学の問題を解くために調整されたLLMで、Qwen2-Audio は音声やテキスト入力を受け付けるマルチモーダルLLMである。両ファミリーはAlibabaのQwen2 LLMシリーズをベースにしており、Qwen2-Mathの最大バージョンを除くすべてがApache2.0ライセンスで提供されている。

Qwen2-Mathには基本バージョンと命令チューニングバージョンがあり、それぞれ1.5B、7B、72Bのパラメータから選択できる。ほとんどのベンチマークデータセットはインターネット上で入手可能であるため、Alibabaはトレーニングデータセットの汚染除去を行い、数学的問題解決のベンチマーク例を削除した。事前学習の後、教師あり微調整と強化学習の両方を用いて、命令チューニングされたモデルを学習させた。人気の高いMATHベンチマークでは、最大のモデルであるQwen2-Math-72B-Instructが、GPT-4oやClaude-3.5-Sonnetを含む最先端の商用モデルを上回った。Alibabaによれば、

現在は英語のみのサポートという制約があるため、英語と中国語の両方をサポートするバイリンガル・モデルをまもなくリリースする予定であり、多言語モデルの開発も計画中である。さらに、複雑で難解な数学的問題を解くモデルの能力強化も進めていく。

Alibabaは、MATH のほかに、GSM8KやAIME 2024などのベンチマークや数学試験で Qwen2-Math を評価した。その結果、Qwen2-Math-Instructは、「特に1.5Bと7Bのモデルにおいて」、同程度のサイズの他のベースラインモデルよりも優れた性能を発揮することがわかった。パラメータ72Bのバージョンは、中国語の数学試験ベンチマークCMATHで86.4点を達成しAlibabaは、これが新記録だと主張する。また、AIME2024試験でもクロード、GPT-4、ジェミニを上回ったという。

Alibabaは、Qwen2-Audioの詳細を記載したテクニカルレポートを発表した。このモデルはテキストと音声の両方の入力を受け付けるが、出力できるのはテキストのみである。提供される音声入力のタイプに応じて、このモデルは「音声チャット」と「音声分析」の2つのモードで動作する。音声チャットモードでは、入力はユーザーの発話音声であり、モデルはチャットボットとして動作する。音声分析モードでは、モデルは音声入力の内容に関する質問に答えることができる。例えば、音楽のクリップがあれば、モデルは曲のテンポとキーを特定できる。

Andrew Ng氏のニュースレター「The Batch」はAlibabaのリリースを取り上げ、次のように述べた。

Qwen2はオープンウェイトで並外れたパフォーマンスを発揮し、AlibabaをLLMの地図に載せた。このファミリーへの専門的な追加により、AI における数学パフォーマンスとオーディオ統合が前進し、最先端のモデルをより多くの開発者に提供できるようになる。独自なモデルを凌駕するオープンウェイトのモデルを見るのはスリリングだ。オープン・テクノロジーとクローズド・テクノロジーの白熱した競争は、誰にとっても良いことだ！

Redditのユーザーは両モデルシリーズについて議論した。あるユーザーはQwen2-Math-7Bについて、"サイズの割にパンチ力がある "と評した。別のユーザーはQwen2-Audioについてこう語っている。

このモデルを使ってオーディオ出力を合成してみるのはとても面白いだろう。音声エンコーダーはWhisperSpeechのものとほとんど同じだ。Qwen2はWhisper-large-v3を使っているが、おそらくWhisperSpeech音響モデルの再トレーニングが必要だろう。これが成功すれば、GPT4oのアドバンストボイスモードがローカルで動作するのと基本的に同等になる。

Qwen2-Math とQwen2-AudioのモデルファイルはHuggingfaceからダウンロードできる。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco

Alibaba、数学と音声チャット用の2つのオープンウェイト言語モデルをリリース

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。