BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Meta社、強化学習を用いてデータセンターの持続可能性を最適化

Meta社、強化学習を用いてデータセンターの持続可能性を最適化

原文リンク(2024-10-25)

最近のブログ記事で、自社のエンジニアが強化学習(RL)を使って 自社のデータセンターの環境制御を最適化し、エネルギー消費と水の使用量を削減しながら、気候変動などのより 広範な課題に取り組む方法を紹介している。強化学習は、機械学習と最適制御の一分野であり、知的エージェントが報酬信号を最大化するために、変化する環境の中でどのように意思決定を行うかに焦点を当てている。

Meta社の強化学習ベースのアプローチは、特に天候の変化に適応する際に、多大なエネルギーと水を消費するデータセンターの冷却システムの最適化に有効であることが証明されている。

2021年以来、Meta社のエンジニアはRLを適用し、様々な天候の下で 冷気供給を改善してきた。同社のデータセンターでは、冷却システムはIT負荷に次いで多くのリソースを消費している。これらのシステムを最適化することは、エネルギー使用量だけでなく、水の消費量や温室効果ガス(GHG)排出量の削減にも大きな影響を与える。当社のパイロット地域の1つでは、供給ファンのエネルギー消費を20%削減、水の使用量を4%削減するという目覚ましい成果をすでに実証している。

同社のデータセンターでは、主に外気と蒸発冷却システムを使用して、温度を65°F~85°F(18°C~30°C)、相対湿度を13%~80%に維持している(データは持続可能性レポートより抜粋)。この方法は水とエネルギーの両方にとって効率的だが、温度や湿度の調節が必要な空気の量を減らすためにはさらなる最適化が必要だ。そこで重要な役割を果たすのが強化学習である。

この冷却システムの仕組みを説明すると、Meta社のデータセンターでは、外気を100%取り入れる2層式のペントハウスデザインを取り入れている。 この空気は空調用ダンパーで調節されており、温度調整が必要な場合は、サーバーの排気熱と混合される。フィルターや噴霧室を通過した空気は、温度や湿度を調整した後に、ファンを使ってサーバールームへ送られる。また、このシステムでは、効率的な空気循環を維持するために、熱気を建物の外に排出している。蒸発冷却と加湿において水が重要な役割を果たしており、最適な室温や湿度の維持に役立っている。

Meta社データセンター内部のペントハウス冷却システム

空気の流れを最適化する際、3つの空調制御ループ(温度、湿度、気流)が調整され、冷却システムが効率的に機能するようになっている。しかし、このような複雑な要素を踏まえると、データセンター内部の各地点の状況による影響を考慮する必要がある。そのため、空気の流れは数値モデル化が非常に困難である。 強化学習は、リアルタイムのデータや状況に応じて空気の流れを動的に調整できるため、こうした複雑な条件に効果的な対応が可能である。

強化学習は、制御システムを連続したシーケンシャルステータスとしてモデル化するため、データセンターの冷却に理想的である。強化学習におけるエージェントは、環境から報酬形式のフィードバックを得ることで、特にエネルギーの節約や節水に関する貴重な知識を獲得していく。何千ものセンサーで収集したデータを分析することで、強化学習は空気の流れの数値設定を微調整し、設定された動作パラメータから逸脱することなく最適な冷却効率を実現することが可能だ。

信頼性を確保するため、Meta社のエンジニアはシミュレーターに基づく強化学習アプローチを採用している。これにより強化学習モデルは、実際のデータセンターの状況を反映したシュミレーション環境でのトレーニングが行える。シミュレーターは物理学に基づくモデルを使用して、天候やIT負荷、その他の可変因子の変化に建物のシステムがどのような影響を受けるかを予測する。過去のデータとシミュレートされたデータの両方を取り入れることで、 強化学習モデルは幅広い条件に対応できるようにトレーニングされ、異常な状況でも冷却システムの効率を維持できるようになる。こうしたオフライン強化学習の試みで、熱的安全性に伴う懸念や機能の中断など、ライブ環境に強化学習モデルを直接デプロイする場合のリスクを軽減できる。

今回の強化学習におけるパイロットプロジェクトからは、将来性の見込める結果が得られている。空気供給の数値設定を管理することで、エンジニアは冷却に使用する空気の量を抑えながら、温度条件の一定化に成功した。すなわち、供給ファンでの大幅な省エネ化や蒸発冷却時に使用する水の量の削減ができたことを意味している。

Meta社は、現在建設中のAIワークロードのサポートに特化した新たなデータセンター設計の最適化に向けて、同じ強化学習の手法を取り入れている。Meta社のエンジニアは強化学習を設計段階に取り入れ、新たなデータセンターにおけるサステナビリティを発足時から実現させるのが狙いだ。また、同社のエンジニアは強化学習アプローチを既存のデータセンター全体に拡大し、エネルギーや水の使用量の削減を最大限まで高めようとしている。

グーグルやマイクロソフトもデータセンターの改善に向けてAIを活用している。 DeepMindの使用で、グーグルはデータセンターの冷却に使用するエネルギーを40%削減している。また、マイクロソフトは、データセンター内の消費電力や使用水量の異常を監視、対処するために、AIを活用した異常検知ソリューションを導入している。こうした方法は、電子機器や機械装置で遠隔測定したテレメトリーデータを利用している。さらにマイクロソフトは、電力メーターの問題を検出や解決、最適なサーバー配置場所の特定のために、AIベースの技術を採用している。無駄な電力、ネットワーク、冷却能力を削減するために、AI技術を採用している。こうすることで、電力の浪費やネットワーク使用、冷却に用いるエネルギーの削減を実現している。

要約すると、強化学習を利用したデータセンター冷却の最適化は、Meta社の長期的なサステナビリティ戦略の重要な部分を担っているということである。データセンターの効率化にAIを活用することで、デジタルインフラストラクチャの需要の高まりに応えながら、環境負荷の削減に向けた大きな一歩を歩みだしている。

作者について

この記事に星をつける

おすすめ度
スタイル

BT