Pinterestのエンジニアリングチームは最近、メンテナンスとインフラコストの高さ、Hbaseエキスパートの不足、製品機能の制限のため、HBaseクラスタの廃止を文書化した。PinterestがTiDBや他のデータベース技術に移行したのに続き、コミュニティは、これがHadoopとHDFSの上で動作する非リレーショナルデータベースの衰退の別の兆候なのかどうか疑問に思っている。
Pinterestは以前、世界最大級のHBaseの実運用デプロイメントをホストしており、ピーク時には約50クラスタ、9000のAWS EC2インスタンス、6PB以上のデータがあった。PinterestのシニアスタッフソフトウェアエンジニアであるAlberto Ordonez Pereira氏と、PinterestのシニアエンジニアリングマネージャーであるLianghong Xu氏は、HBaseがサポートする複数のオンラインストレージサービスの管理から、新しいデータストアと統一されたストレージサービスを備えた全く新しいサービングアーキテクチャへの移行について説明している。
HBaseは、Pinterestに導入されて以来、耐久性、拡張性、一般的な性能の高さを実証していたが、関係者からの広範なフィードバック収集による徹底的な評価の結果、2021年末にこの技術を廃止することを決定した。
GoogleのBigtableをモデルにしてJavaで実装されたHBaseは、HDFSの上に構築されたキーバリューストアで、Apache Hadoopで使用されている。Pereira氏とXu氏によると、、HBaseはPinterestの最初のNoSQLデータストアであり、画像共有とソーシャルメディア企業でもっとも広く使われているストレージバックエンドである。彼らはこう書いている。
HBaseのメンテナンスコストは、主に長年の技術的負債と信頼性リスクのために、法外に高くなっていた。歴史的な理由により、我々のHBaseのバージョンはアップストリームから5年遅れており、重要なバグフィックスや改善が欠けていた。しかし、HBaseのバージョンアップは、レガシーなビルド/デプロイ/プロビジョニングのパイプラインと互換性の問題により、遅くて骨の折れるプロセスだ。
HBaseを中心に構築されたPinterestのエコシステム。ソースはこちら:Pinterestのブログ。
著者は、HBaseに欠けている機能を強調し、HBaseに分散トランザクションがないために、社内のグラフサービスにいくつかのバグやインシデントが発生したと述べている。さらに、HBaseはOLAPワークロードにおいて、他のデータストアに匹敵するパフォーマンスを発揮できなかったという。
Why is Pinterest deprecating HBase? Is HBase dying?? という記事で、Shivang Sarawagi氏は、過去5年間におけるHBaseのGoogle検索数の着実な減少に注目し、次のように書いている。
HBaseは業界で使われ続けているが、クラウド・ネイティブ・サービスの出現に伴い、特定のシステム・ユースケースに対応するための代替案やソリューションがいくつか出てきている。
Hacker Newsの人気スレッドでは、ユーザーのdehrmann 氏がコメントしている。
私はHBaseを多用している会社で働いていた。彼らはBigTableのためだけにAWSからGCPに移行した(...)HBaseとHDFSを管理する作業負荷は高く、常にフェイルオーバークラスターをセットアップするほど信頼性が低かった。興味深いことに、移行によって、信頼性の問題の原因の一部である可能性のある縮退セル/テーブルが表面化した。
Pinterestは以前、いくつかのワークロードをHBaseからTiDBにダウンタイムなしで移行した方法を共有している。Sarawagi氏はこう付け加える。
最新のデータベースの出現により、業界の焦点は徐々にHBaseから移っている。しかし、これはHBaseが時代遅れになったということではない。
Pinterestのエンジニアリングチームは、ストレージ選択の最終決定を下すためにどのように包括的な評価を記録するために、さらに2つの記事を公開することを約束した。