InfoQ ホームページ Benchmark に関するすべてのコンテンツ
-
Mistral AIがアラビア語と南インドの言語に対応した地域言語モデルのSabaを発表
Mistral AIは、アラビア語といくつかのインド言語、特にタミル語のような南インド言語のAIパフォーマンスを向上させるために設計された240億パラメータ言語モデルである、Mistral Sabaを発表した。必要とされる地域的コンテキスト理解を欠く恐れのある汎用モデルとは異なり、Mistral Sabaは中東や南アジアで収集しキュレートされたデータセットで訓練されており、言語文化的により正確な応答を提供している。
-
Google DeepMindが長期的疾病管理向けにAMIEを強化
Google DeepMindは長期的な疾病管理をサポートするためにArticulate Medical Intelligence Explorer(AMIE)の機能を診断以外にも拡張した。このシステムは現在、臨床医が複数回の患者の受診にわたって病気の進行を監視し、治療を調整し、臨床ガイドラインの遵守を支援するように設計されている。
-
マイクロソフトがCoRAGを発表:反復的推論によるAI検索の強化
Microsoft AIは中国人民大学と共同でRetrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいAIフレームワーク、Chain-of-Retrieval Augmented Generation(CoRAG)を発表した。単一の検索ステップに依存する従来のRAGシステムとは異なり、CoRAGは反復検索と推論を可能にし、AIモデルが回答を生成する前に動的に検索結果をリファインすることを可能にする。
-
PerplexityがDeep Researchを発表:高度な分析のためのAI駆動ツール
PerplexityはDeep Research、金融、マーケティング、テクノロジーなど様々な分野で詳細な分析を行うために設計されたAI駆動ツールを発表した。このシステムは、複数の検索を実行し、広範な情報源を分析し、数分以内に構造化されたレポートに結果をまとめることでリサーチプロセスを自動化する。
-
HuatuoGPT-o1: AIによる複雑な医療推論の進展
香港中文大学深圳校と深圳ビッグデータ研究所の研究者は、複雑な医療シナリオにおける推論を改善するために設計された医療用大規模言語モデル(LLM) HuatuoGPT-o1を発表した。このモデルは新しい2段階の訓練プロセスを使用して開発され、医療専門家が使用する診断アプローチに似た段階的な分析を通じて応答をリファインすることを目指している。
-
NVIDIAがHymba 1.5Bを発表: 効率的NLPモデルへのハイブリッドアプローチ
NVIDIAの研究者は、トランスフォーマーと状態空間モデル(SSM)アーキテクチャを組み合わせて前例のない効率とパフォーマンスを実現するオープンソース言語モデル、Hymba 1.5Bを発表した。NVIDIAの最適化されたトレーニングパイプラインで設計されたHymbaは、従来のトランスフォーマーの計算およびメモリの制約に対処しつつ、SSMの記憶能力を向上させている。
-
Qwen開発チーム、QwQ-32B-Previewを発表:AIによる推論と分析が進化
LLM(大規模言語モデル)であるQwenの開発チームは、AIの推論と分析能力を向上させるために設計された実験的研究モデル、QwQ-32B-Previewを発表した。32,768トークンのコンテキストと最先端の変換アーキテクチャを特徴とするこのモデルは、GPQAやMATH-500のような数学、プログラミング、科学ベンチマークに優れている。Hugging Faceで利用可能で、その機能を探求し、開発に貢献をしてくれる研究者たちを募っている。
-
Rhymes AIがAriaを発表:開発リソースを備えたオープンソースのマルチモーダルモデル
Rhymes AIは、テキスト、画像、ビデオ、コードを効果的に処理できるオープンソースのマルチモーダルネイティブMoE(Mixture-of-Experts)モデル、Ariaを発表した。ベンチマークテストにおいて、Ariaは他のオープンモデルを凌駕し、GPT-4oやGemini-1.5などの独自モデルに対しても競争力のある性能を示した。さらに、Rhymes AIは、微調整や開発のためのモデルの重み付けやガイダンスを含むコードベースを公開している。
-
Hugging Face、AIモデル比較強化に向けOpen LLM Leaderboardをアップグレード
Hugging FaceはOpen LLM Leaderboard v2、大規模言語モデル向けの彼らのポピュラーなベンチマーキングプラットフォームのアップグレード版を最近リリースした。
-
Meta社、ハイパースケールクラウドワークロード用ベンチマークスイートDCPerfをオープンソース化
Meta社は最近、データセンターのクラウド展開で見られる多様なワークロードを表現することを目的としたDCPerfをリリースした。このベンチマーク・コレクションは、研究者、ハードウェア開発者、インターネット企業にとって有用なリソースとなり、将来の製品の設計や評価に役立つと期待されている。
-
分散PostgreSQLベンチマーク:Azure Cosmos DB、CockroachDB、およびYugabyteDB
マイクロソフト社はこのほど、分散PostgreSQLベンチマークの結果について説明し、Azure Cosmos DB for PostgreSQL、CockroachDB、Yugabyteの処理性能と、価格の効率を比較した。実行の際のトレードオフが異なるため、結果としてはAzure Cosmos DBの方が高い処理能力を示したものの、分散データベースのベンチマークの課題が浮き彫りになった。
-
グラフニューラルネットワークのベンチマークを高速化する新ツール GraphWorld
Google AIは先頃、グラフニューラルネットワーク(Graph Neural Networks、GNNs)分野のパフォーマンスベンチマークを加速するツールとして、GraphWorldをリリースした。異なるノード次数分布やジニ係数のように、さまざまな構造特性でグラフを生成するための、コンフィギュレーション可能なフレームワークである。
-
ImageSharp 2.0.0が機能満載でリリース
最もポピュラーな.NETイメージ処理ライブラリのひとつであるImageSharpのバージョン2がリリースされた。リリースには、WebP、TIFF、PBM、加えてXNPのサポート、JPEGおよびPNGフォーマッ��に関するさまざまなパフォーマンス向上や機能向上などが、おもな機能として含まれている。今回のリリースで、.NET Standard 1.3のサポートが廃止された。バージョン1.0.4のリプレースとなるアップデートである。
-
詳細なベンチマークにより、Webアプリ向けの人気のビルドツールをランク付け
Googleのweb.devチームは最近、人気のあるWebアプリケーションバンドラーを比較する詳細なベンチマークをリリースした。最初のリリースでは、browserify、parcel、rollup、webpackバンドラーを6つのディメンションと61の機能テストでテストするものである。ベンチマークは、特定のプロジェクトの特定のニーズに適合するバンドラーを選択するための、関連性のある構造化された比較基準を開発者に提供することを目的としている。
-
Google Chrome DevToolsのアップデート
Chrome DevToolsの次のバージョンには、開発者が高速なWebページを構築するのを助け、複雑な非同期コードのデバッグを容易にする、数多くの新機能が含まれている。Google I/O 2017で、Paul Irish氏がこれら数多くの新機能について紹介した。