BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース RAG(Retrieval-Augmented Generation)を活用したCopilotが、Uberに13,000時間のエンジニアリング時間を節約

RAG(Retrieval-Augmented Generation)を活用したCopilotが、Uberに13,000時間のエンジニアリング時間を節約

原文リンク(2024-10-29)

Uberは最近、オンコールサポートエンジニアの効率を改善するために設計されたAIを搭載したオンコールコパイロット、Genieを構築した方法を詳述した。GenieはRetrieval-Augmented Generation(RAG)を活用して正確なリアルタイム応答を提供し、インシデント対応のスピードと効果を大幅に向上させる。

2023年9月の発売以来、GenieはUberのサポートチームに大きな影響を与えてきた。154のSlackチャンネルで70,000件以上の質問に回答し、約13,000エンジニア時間を節約し、ユーザーによる測定では48.9%の有用率を達成した。

Uberのオンコールエンジニアは、反復的なクエリへの回答や断片的なドキュメントのナビゲートに多大な時間を費やすことが多く、ユーザーが独自に答えを見つけることが困難だった。このような状況は、長い応答時間と生産性の低下につながり、Genieを構築する原動力となった。

Uberは拡張検索生成(RAG)を使ってGenieを強化した。RAGは、情報検索システムの長所と生成AIモデルを組み合わせて、正確で適切な応答を生成する革新的な手法だ。これによりUberは、既存の知識ソースを活用することでソリューションを迅速に展開でき、AIモデルの微調整に必要だった大規模な例題データの必要性を排除できた。

Genieは、UberのWiki、Stack Overflow、エンジニアリング・ドキュメントなど、さまざまな社内ソースからデータを取得する。情報はスクレイピングされ、OpenAIモデルを使用してベクトル埋め込みに変換され、Uber社内のベクトルデータベースであるSearch In Action(SIA)に保存される。Genieは、機密情報の漏えいを避けるため、機密データを含まない事前に承認されたデータソースのみを取り込む。

Genieの全体的なアーキテクチャ(出典)

ユーザーがSlackで質問をすると、そのクエリはエンベッディングに変換され、Genieはそれを使ってベクトルデータベース内の文脈的に類似したデータを取得する。そして、このデータを大規模言語モデル(LLM)に入力し、取得した情報に基づいて正確な応答を生成する。

Uberは、継続的なリアルタイムのユーザーフィードバックを通じてGenieのパフォーマンスを向上させるためのメトリクスフレームワークを実装している。Genieが質問に回答した後、ユーザーは「解決した」、「役に立った」、「関係ない」などのオプションを選択してフィードバックを提供できる。

Genieのユーザーフィードバックの流れ(ソース)

このフィードバックはSlackプラグイン経由で収集され、Uber社内のデータストリーミングシステムを使用して処理され、分析用のHiveテーブルにメトリクスが送られる。このフィードバックループにより、UberのチームはGenieの有用性を追跡し、実際のユーザー体験に基づいて対応を改善できる。

パフォーマンス評価のために、Uberは幻覚率や応答の関連性など様々なメトリクスを評価するカスタム評価パイプラインを設計した。このパイプラインは、Slackのメタデータ、ユーザーフィードバック、Genieの過去の応答を含む履歴データを処理する。審査員として機能するLLMによって提供される採点システムにこれらを実行する。

Uberはまた、Genieが検索して回答に使用する情報の品質を保証するためのドキュメント評価プロセスも組み込んでいる。このシステムは、スクレイピングされた知識ベースを、各ドキュメントを1行で表す構造化されたフォーマットに変換する。

ドキュメント評価アプリのワークフロー(ソース)

Genieは、カスタム評価プロンプトとともにLLMにドキュメントを送り込むことで、各ドキュメントの明確性、正確性、有用性を評価する。その後、LLMはスコアを返し、各ドキュメントの改善に関する実用的な提案を行う。このプロセスは、基礎となるドキュメントの高い水準を維持するのに役立ち、Genieの回答が信頼できる効果的なものであり続けることを保証する。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT