InfoQ ホームページ generative-ai に関するすべてのコンテンツ
-
QCon San Francisco 2024のAIとMLトラック - 生成AIと実用的アプリケーションを深掘り
InfoQによる国際的なソフトウェア開発会議であるQCon San Francisco 2024では、AIとMLの急速な進歩に特化した2つのトラックが設けられており、これらの技術が現代のソフトウェア開発の中心となっていることを反映している。
-
Pythonの台頭、生成AI、グローバルな開発者コミュニティ:GitHub Octoverse 2024からの洞察
最近発表されたGitHub Octoverse 2024レポートによると、主にデータサイエンス、機械学習、科学計算のような分野での優位性により、PythonはJavaScriptを抜いてGitHubで最も人気のある言語になったことが明らかになった。生成AIはソフトウェア開発において引き続き重要な存在感を示しており、GitHub上の生成AIプロジェクトへの貢献が大幅に増加している。
-
Amazon SageMaker JumpStartがBria AIのテキスト画像変換モデルでポートフォリオを拡大
Amazon Web Servicesは、Bria AIの最新のテキストから画像への基礎モデルをAmazon SageMaker JumpStartに統合し、エンタープライズグレードの生成AI機能を大幅に拡張した。今回の追加には、Bria 2.3、Bria 2.2 HD、Bria 2.3 Fastの3つのバリエーションが含まれ、それぞれがビジュアルコンテンツ生成における特定の企業ニーズに対応するように設計されている。
-
DecartとEtchedがゲーム世界を変える新しいAIモデル、Oasisをリリース
Decart.aiとEtched.aiは最近Oasis、Minecraftにインスパイアされた完全インタラクティブ、リアルタイムオープンワールド体験を生成するAI駆動モデルを発表した。
-
Amazon QがVisual Studio CodeとJetBrains IDEsにインラインチャットサポートを追加
AWSは最近、Amazon Q Developerがインラインチャットをサポートし、開発者がエディタ内でコードの問題について議論し解決できるようになったと発表した。コードを直接更新できる機能とIDE内チャットのベネフィットを組み合わせたこの機能は、Claude 3.5によって提供されVisual Studio CodeとJetBrains IDEで利用できる。
-
AIコーディングアシスタントの活用による開発者の生産性向上を研究結果が示唆
Microsoft社、マサチューセッツ工科大学(MIT)、プリンストン大学、ペンシルベニア大学ウォートンスクールの研究者らは先日、GitHub Copilotの利用で開発者の生産性が向上するという研究結果を発表した。研究チームは、4,000人以上の開発者を対象とした3つの別々のランダム化比較試験(RCT)を実施し、Copilotを使用した開発者の生産性は26%向上した。
-
Google社、大規模言語モデル(LLM)自己修正アルゴリズムSCoReを発表
先日、Google DeepMind社の研究者が、強化学習を用いた自己修正(Self-Correction via Reinforcement Learning, 以下 SCoRe)に関する論文を発表した。このSCoReとは、数学やコーディングの問題を解く際の大規模言語モデルによる自己修正能力の向上を図る技術である。SCoReで微調整されたモデルは、ベースラインモデルと比較で、いくつかのベンチマークの性能が向上した。
-
Stability AIが最上位のテキスト生成画像モデルをAmazon Bedrockと統合したことを発表
Stability AIは、Amazon Bedrockに3つの新しいテキスト画像生成モデル:Stable Image Ultra、Stable Diffusion 3 Large、Stable Image Coreを搭載した。これらのモデルは、マルチサブジェクト・プロンプト、画像品質、タイポグラフィのパフォーマンスを向上させることに重点を置いている。これらのモデルは、マーケティング、広告、メディア、エンターテインメント、小売業などの様々な用途において高品質のビジュアルを生成するように設計されている。
-
PayPal社、Cosmos.AI MLOpsプラットフォームにLLMを利用した生成AIサポートを追加
PayPal社はMLOpsプラットフォームCosmos.AIを拡張し、大規模言語モデル(LLM)を使用したジェネレーティブAIアプリケーションの開発をサポートする。同社は、ベンダー、オープンソース、自己調整LLMへのサポートを取り入れ、検索拡張生成(RAG)、セマンティックキャッシュ、プロンプト管理、オーケストレーション、AIアプリケーションのホスティングに関する機能をリリースした。
-
大学の研究者がLLMにおける思考連鎖推論の分析を発表した
プリンストン大学とイェール大学の研究者が、LLMにおけるChain-of-Thought(CoT)推論のケーススタディを発表した。このケーススタディでは、暗記と真の推論の両方の証拠が示された。また、CoTは、プロンプトで与えられた例が正しくない場合でも機能することがわかった。
-
中国科学院大学オープンソース・マルチモーダルLLM LLaMA-Omni
中国科学院大学(UCAS)の研究者が最近、音声データとテキストデータの両方で動作するLLM、LLaMA-Omniをオープンソース化した。LLaMA-OmniはMetaのLlama-3.1-8B-InstructLLMをベースにしており、類似のベースラインモデルを凌ぐ性能を持ちながら、少ない学習データと計算量で動作する。
-
Googleが声を復元する音声転送AIを開発
Google Researchチームが、特定の人物の声でテキスト音声変換(TTS)をカスタマイズできるゼロショット音声変換(VT)モデルを開発した。これにより、パーキンソン病やALSなどで声を失った話者が、TTSデバイスを使って元の声を再現できるようになる。このモデルは言語を跨いでも機能する。
-
Google、ゲームシミュレーションAI「GameNGen」を発表
Googleの研究チームはこのほど、ビデオゲーム「Doom」をシミュレートできる生成AIモデル「GameNGen」に関する論文を発表した。GameNGenは、毎秒20フレーム(FPS)でゲームをシミュレートでき、人間による評価では、実際のゲームよりも好まれる頻度がわずかに低かった。
-
HelixML、Helix 1.0のリリースを発表
HelixMLは、生成AIのためのHelixプラットフォームがバージョン1.0で製品化準備が整ったことを発表した。このプラットフォームは「プライベートGenAIスタック」と称され、様々な大規模言語モデル(LLM)に接続できるインターフェース層とアプリケーションを提供する。このプラットフォームは、ラップトップ1台からアプリケーションのプロトタイプを作成でき、すべてのコンポーネントがバージョン管理されているため、有効性が証明されたアプリケーションのその後の展開や拡張が容易である。また、LLMの非決定論的な領域では、テストの代わりとして(eval)が重視されている。
-
Apple社、Apple Intelligenceを支えるApple Foundation Modelsを発表
Apple社は、Apple Intelligence suiteのいくつかの機能を提供する大規模言語モデル(LLM)ファミリーである新しいApple Foundation Models(AFM)の詳細を発表した。AFMには、30億パラメータのオンデバイス版と、より大きなクラウドベース版の2つのサイズがある。