InfoQ ホームページ Apache_Hadoop に関するすべてのコンテンツ
-
UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり
Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習(ML)トレーニング・スタックをGoogle Cloud Platform(GCP)に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。
-
LinkedIn、システムの複雑性低減のためにLambdaアーキテクチャを廃止
LinkedInのソフトウェアエンジニアらは先頃、同社がLambdaアーキテクチャを廃止した経緯を公開した。Lambdaアーキテクチャの実装は、ソリューション全体の運用オーバーヘッドが高く、構造が複雑になり、結果としてプロダクトとしてのイテレーション時間が遅かった。そのためエンジニアらは、Lambdaを使用しないアーキテクチャへのマイグレーションを選択し、開発速度の大幅な改善を実現したのだ。
-
pacheCon 2019基調講演 - Google CloudによるKubernetesを使用したビッグデータ処理の拡張
ApacheCon North AmericaでChristopher Crosbie氏が、"Yet Another Resource Negotiator for Big Data? How Google Cloud is Enhancing Data Lake Processing with Kubernetes"と題した基調講演を行った。講演の中で氏が強調したのは、Kubernetesクラスタ内でApacheソフトウェアを動作させるためのコントロールプレーンを提供する、オープンソースのKubernetesオペレータを開発することによって、Apacheのビッグデータソフトウェアを"クラウドネイティブ"にするという、Googleの取り組みについてだった。
-
GoogleがHadoopのビッグデータワークロード用にCloud Storage Connectorを公開
Googleは先日のブログ記事で、Cloud Strage Connector for Hadoopを新たに発表した。この新機能によって、従来のHDFSをGoogle Cloud Storageに置き換えることが可能になる。ParquetやORCといったカラムナファイル(Columnar file)形式により、スループット向上の実現が期待されると同時に、Cloud Storageディレクトリの分離、低いレイテンシ、並列性の向上、インテリジェントなデフォルト設定といったメリットを享受することができる。
-
Uberのビッグデータプラットフォームが100ペタバイト超の規模に至るまで
Uberのエンジニアリングチームは、同社のビッグデータプラットフォームが、リレーショナルデータベースを使用した旧来のETLジョブから、HadoopとSparkをベースとするものへと発展した状況に関する記事を書いた。スケーラブルな取り込みモデル、標準転送フォーマット、インクリメンタルアップデートのためのカスタムライブラリが、同社プラットフォームの主要なコンポーネントである。
-
Saumitra Buragohain氏に聞く - Horronworks Data Platform 3.0の見所
Hortonworksでプロダクトマネジメントを担当するシニアディレクタのSaumitra Buragohain氏に、Hadoop一般とHDP 3.0で注目すべき点について聞いた。
-
Apache HBase 1.3リリースで多数のパフォーマンス改善
Apache HBase 1.3.0は、2017年1月中旬にリリースされた。今回のリリースでは、日付ベース階層圧縮がサポートされ、ログ先行書き込み(WAL)や新しいRPCスケジューラなど複数箇所で改善があった。このリリースには、合計で約1,700件の解決済みのissueが含まれている。
-
Glenn Tamkin氏、NASA大規模気候データへのApache Hadoop適用を語る
NCCS (NASA Center for Climate Simulation) はハイパフォーマンスデータ分析にApache Hadoopを使っている。NASAチームのGlenn Tamkin氏は先月のApacheCon Conferenceで講演し、Hadoopを使って構築した、気候データ分析のためのプラットフォームの詳細について説明した。
-
Pivotal が Big Data Suite をオープンソース化
Pivotal社は、自身のBig Data Suiteのコア・コンポーネントをオープンソース化することを決定するとともに、ビッグデータ用のオープンソースの普及促進および標準化のための Open Data Platform を発表した。
-
HortonworksがStinger.nextのロードマップを発表,Apache HiveによるHadoopスケールのSQL提供へ
Apache Hive 0.13で提供されたStinger initiativeに続いて,Hortonworksは,完全なACIDトランザクション,サブセカンド(秒以下)で動作するクエリエンジン,充実度を高めたSQL 2011の解析サポートを提供する,Stringer.nextのロードマップを策定した。これらはすべて,Hiveによって"SQLサポートの速度,スケール,範囲を拡張"するという,同社の目標に向けてのものだ。
-
Hadoop Summit 2014 Day One - エンタープライズクラスのHadoopに向けて
Hadoop Summit Day Oneレポートとして,注目すべきトレンドと昨年のサミットからの変化,さらには今年トレンドの話題に関連した,当日の重大な発表について報告する。今回のレポートではプラットフォーム固有のイノベーションと発表を中心として,パートナーのエコシステムまでは取り上げていない。それについては,数日中に改めて報告したい。
-
ApacheCON NA 2014,テーマは”コミュニティ"
今年のApacheCON North Americaカンファレンスの基調講演のおもなテーマは,オープンソースとそのコミュニティだった。400人以上の参加者と70を越えるプロジェクト,180のセッションが用意されたカンファレンスでは,Apache Software Foundation (ASF)のプロジェクトと同じように,さまざまな話題が数多く取り上げられていた。
-
Coverity ScanがJava, Apache Hadoop, HBase, Cassandoraのコード向上をサポート
先頃リリースされたCoverityによるソース調査レポートでは,おもにリソースリークやnullポインタ,コントロールフローその他の問題の検出と修正が行われている。Linuxソースコードの検査も行われて,いくつかのバグが修正された。
-
ClouderaがMongoDBと提携,Hadoopデータを同社のNoSQL DBに
現在の"企業データの80%が非構造であり,構造データの2倍の速度で増加している"という事実を前置きに,ClouderaとMongoDBの2社は,ApacheベースのビッグデータプラットフォームとNoSQLソリューションの組み合わせをオプションとして提供する"戦略的"パートナーシップを発表した。
-
Hadoopがセキュリティを強化,操作性を改良
Hadoop 2.4.0が先日リリースされた。HDFSとYARNを対象とする拡張の中には,アクセスコントロールリストのサポート,ローリングアップデートのネイティブサポート,HDFSでHTTPSを完全サポート,YARNの自動フェールオーバ,その他の操作面での改善が含まれている。