InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
Apache Sparkはバージョン3.2でPandas APIを提供
Apache Sparkチームは、Pandas APIを製品の最新の3.2リリースに統合した。この変更で、PySpark実行エンジンを使って、データフレーム処理を単一のマシン内の複数のクラスタまたは複数のプロセッサーに拡張できる。
-
AWSがAWS Data Exchange for Amazon Redshiftのパブリックプレビューを発表
最近、AWSはAWS Data Exchange for Amazon Redshiftのパブリックプレビューを発表した。この新機能により、顧客はAWS Data Exchangeでサードパーティデータを検索してサブスクライブし、Amazon Redshiftデータウェアハウスでクエリを実行できる。
-
AWSがAmazon Genomics CLIの提供開始とオープンソース化を発表
Amazon Genomics CLIは、AWS上でペタバイト規模のゲノミクス(genomics)データを容易に処理するためのツールだ。今年始めにプレビュー版が公開されていたが、今回それがオープンソースとして一般に提供されるようになった。
-
FacebookのMariana Trenchが、開発者によるAndroidアプリとJavaアプリの脆弱性発見を支援
最近Mariana Trench(MT)がFacebookによってオープンソース化された。MTは開発者がAndroidアプリケーションとJavaアプリケーションのセキュリティとプライバシーのバグを特定して防止するのを支援することを目的としたものだ。
-
AWSはAmazon EMR on EKSがカスタマイズ可能イメージをサポートすることを発表
最近、AWSは、Amazon EMR on Amazon Elastic Kubernetes Service (Amazon EKS)においてカスタマイズ可能イメージのサポートを発表した。これにより、顧客は、EKSクラスターでApache Sparkを使って分析アプリケーションを実行するDockerランタイムイメージを変更できる。
-
AirbnbがHimejiを構築 - スケーラブルな中央認証システム
Airbnbは最近、スケーラブルな集中認証システムであるHimejiをどのように構築したかについて説明した。Himejiは、信頼できる唯一の情報源として、パーミッションデータを保存し、パーミッションチェックを実行する。シャーディングおよびレプリケートされたインメモリキャッシュを使って、パフォーマンスを向上させ、レイテンシを短縮し、本番環境で約1年間チェックを行ってきた。
-
Hazelcast Jet 4.4がリリース - 4周年記念リリースについて、Scott McMahon氏に聞く
Hazelcast Jetは先頃、バージョン4.0をリリースして、その4周年を自ら祝福した。通常のバグ修正やパフォーマンス向上に加えて、このバージョンでは、統合ファイルコネクタやSQLインターフェース初のベータ版など、新機能も提供されている。フィールドエンジニアリングを担当するテクニカルディレクタのScott McMahon氏に、今回の新リリースについて聞いた。
-
マシンラーニングをテストとメンテナンス作業で使用する
マシンラーニングを使えば、メンテナンス作業の削減とプロダクトの品質向上が可能になる。ソフトウェアのテストサイクルのさまざまなステージで使用することができる。チェーンの重要なパートであるバグ管理もその中に含まれる。マシンラーニングアルゴリズムを使って大量のデータを分析することで、バグの分類やトリアージ、優先順位付けをより効率的に行えるようになる。
-
DataStaxがDatabase-as-a-ServiceのAstra Serverlessを発表
Cassandraデータベースの背後にある会社であるDataStaxは、先週Astra serverlessの一般提供を発表した。これはオープンなマルチクラウドサーバレス DBaaS (database-as-a-service) だ。
-
BBCの分析プラットフォームの失敗に備えた設計
先週のInfoQ Liveで、BBCのプリンシパルシステムエンジニアであるBlanca Garcia-Gil氏が、データプラットフォームの進化する分析のセッションを行った。このセッション中、Garcia-Gil氏は、チームが「既知の未知」と「未知の未知」という2種類の障害にどのように備えて設計したかに焦点を当てた。
-
GoogleがDatabricksをクラウドプラットフォームに導入
最近、GoogleはDatabricksとのパートナーシップを発表した。フルマネージドのApache Spark製品とデータレイク機能をGoogle Cloudに導入するためである。この製品は、Google CloudでDatabricksとして利用できるようになる。
-
PayPalは、次世代のデータ移動プラットフォームとしてApache AirflowとApache Gobblinを標準化
PayPalは最近、次世代のデータ移動プラットフォームを実装するために、Apache AirflowとApache Gobblinでどのように標準化されたかについて説明している。 PayPalエンジニアリングブログの最近のブログ投稿で、PayPalの技術スタッフのシニアメンバーであるJay Sen氏は、既存のデータ移動プラットフォームが複雑で管理しにくいエコシステムで、多くのツールとプラットフォームにどのように進化したか、そして、新しい実装への移行について詳しく説明している。
-
フィードバックを解析してユーザから学ぶ
ユーザがフィードバックを容易に提供できて、そのフィードバックを自動収集可能にすれば、より多くのフィードバックを短期間に得られるようになる。AIを導入することにより、大量のフィードバックを解析して洞察を得ることや、トレンドを視覚化することも可能になる。こうして得た情報の共有が、プロダクトの拡張やユーザの抱える問題の解決といったアクションを広範にサポートするのだ。
-
Spark AI Summit 2020の注目点: Spark 3.0のパフォーマンス改善のイノベーション
初めてオンラインで開催された先頃のSpark AI Summit 2020で、注目点は、Spark SQLの最適化やGPUアクセラレーションなど、Apache Spark 3.0のパフォーマンスを改善するためのイノベーションだった。
-
Microsoftが.NET for Apache Spark 1.0をリリース
Microsoftは先月、.NET for Apache Sparkの最初のメジャーバージョンをリリースした。これは、Apache Sparkプラットフォームで.NET開発できるようにするオープンソースパッケージである。新しいリリースでは、.NET開発者が、.NETユーザ定義関数、Spark SQL、およびMicrosoft HyperspaceやML.NETなどの追加ライブラリを使用してApache Sparkアプリケーションを作成できるようになる。