InfoQ ホームページ Reinforcement-Learning に関するすべてのコンテンツ
ニュース
RSSフィード-
HuatuoGPT-o1: AIによる複雑な医療推論の進展
香港中文大学深圳校と深圳ビッグデータ研究所の研究者は、複雑な医療シナリオにおける推論を改善するために設計された医療用大規模言語モデル(LLM) HuatuoGPT-o1を発表した。このモデルは新しい2段階の訓練プロセスを使用して開発され、医療専門家が使用する診断アプローチに似た段階的な分析を通じて応答をリファインすることを目指している。
-
Meta社、強化学習を用いてデータセンターの持続可能性を最適化
最近のブログ記事で、自社のエンジニアが強化学習(RL)を使って 自社のデータセンターの環境制御を最適化し、エネルギー消費と水の使用量を削減しながら、気候変動などのより 広範な課題に取り組む方法を紹介している。強化学習は、機械学習と最適制御の一分野であり、知的エージェントが報酬信号を最大化するために、変化する環境の中でどのように意思決定を行うかに焦点を当てている。
-
DeepMindが核融合研究装置のAIコントローラをトレーニング
Google子会社のDeepMindとEPFL(スイス連邦工科大学ローザンヌ校) Swiss Plasma Centerの研究者らが、核融合研究で使用するトカマク(tokamak)デバイスの制御アルゴリズムを生成する深層強化学習(RL)AIを開発した。このシステムは、シミュレータとのインタラクションを通じて制御ポリシを学習することで、実際のデバイスの制御への適用において、新たなプラズマ配位(plasma configuration)の実現を可能にしている。
-
アレン研究所が最新のEmbodied AIチャレンジを開始
アレン人工知能研究所(AI2)は、2022年版のAI2-THOR再配置チャレンジを発表した。このチャレンジでは、参加者に対して、仮想部屋でオブジェクトを移動させることができる自律エージェントを設計することが要求される。このチャレンジでは、新しいデータセットや、最新リリースのAI2-THORシミュレーションプラットフォームを使ったより高速なトレーニングなど、いくつかの改善がなされている。
-
大学研究者チームがロボット制御のためのブレイン・コンピュータ・インターフェイスを開発
スイス連邦工科大学ローザンヌ校(EPFL)とテキサス大学オースティン校(UT)の研究者らは、ロボットマニピュレータの動作軌道の修正が可能なブレイン・コンピュータ・インターフェースを開発した。逆強化学習(inverse reinforcement learning、IRL)を使用することにより、5回程度のデモンストレーションでユーザの意思を学習することができる。
-
Joanneum ResearchがロボットAIプラットフォームRobo-Gym Version 1.0.0をリリース
Joanneum ResearchのInstitute for Robotics and Mechatronicsは、ロボットのコントロールに使用する強化学習(reinforcement learning、RL)AI開発用のオープンソースフレームワークrobo-gymのバージョン1.0.0をリリースした。新たな障害物回避(obstacle avoidance)環境、Universal Robotsのコボット(cobot、協働ロボット)モデルの全サポートが含まれる他、コードの品質が改善されている。
-
DeepMindのAgent57はすべてのAtari 2600ゲームで人間よりも優れた結果を出している
GoogleのDeepMindの研究者はAgent57と呼ばれる強化学習(RL)システムを作成した。Agent57は、Arcade学習環境で57のAtari 2600ゲームすべてで人間のベンチマークを上回った。Agent57は、パッケージの中で最も難しいゲームでさえ、人間よりも優れた結果を出した最初のシステムである。