BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 自然言語クエリによる分析:Twitters社でのGCP BigQueryデータQnAの利用

自然言語クエリによる分析:Twitters社でのGCP BigQueryデータQnAの利用

原文(投稿日:2022/03/29)へのリンク

最近のブログ記事で、Twitterエンジニアリングチームは、内部のQuriousデータインサイトプラットフォームのアーキテクチャの詳細と、リアルタイム分析の利点を共有した。このプラットフォームはビジネス顧客向けに設計されており、ユーザは自然言語クエリを使用してTwitterのBigQueryデータを分析し、ダッシュボードを作成できる。このプロジェクトの目標は、ストリーミングデータから実行可能な分析結果を作成する上でのアジリティを高めることである。チームは、Quriousがそのようなレポートを生成するコストと時間を削減する上での第一歩であることを強調している。

GKEコンテナにデプロイされたシステムの主要コンポーネントはGCPのデータQnAサービスである。これは、自然言語フレーズをBigQuery(PythonクライアントGithubリンク)で実行できるSQLコマンドに翻訳するためのものである。また、そこには周辺機器データを保存するためのGCP Cloud SQLCloud Load BalancerGCP Cloud Loggingサービスも含まる。このシステムには、よくある質問のキャッシュとsuggestionsモジュールが追加されている。

BigQueryは人気のあるデータウェアハウスで、Google Cloud Platformが提供するOLAPアプリケーション向けのものである。SQL(ANSI:2011)をサポートする。サーバーレスの性質を持っており、ストレージとコンピューティングの境界が分離されている。現在プライベートアルファであるこのデータQnAサービスは、Analyzaの論文をベースとしている。これは、自然言語の命令を、BigQueryデータに対して実行できるSQLコードスニペットに変換することで、分析処理の障壁を減らすことを目的としている。このシステムは、数式を自動的に生成するために、Googleのスプレッドシート製品でも実験的に使われている。

データベースへの自然言語インターフェースの実装は、データベースエンジニアリングにおける長年の課題である(関連する1995年のレビュー、理論的フレームワークの論文へのリンク)。このようなシステムを設計するには、予測可能性/信頼性とインテリジェンスの間のトレードオフのバランスをとる必要がある。Analyzaアーキテクチャは機械学習をベースとしているわけではない。代わりに、システムの継続的改善がキュレーターとナレッジベース/グラフによって提供される。これにより、システムは、本番環境での使用を認める際の、十分に予測可能でインテリジェントなものになる。製品の使用によってデータが生成されるため、将来的には機械学習モデルをシステムに統合する機会があるかもしれない。

BigQueryデータQnAの詳細については、Google Cloud Nextで紹介されている次のケーススタディもご覧ください。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT