Googleはこの程、BigQueryがベクトル検索をサポートするようになったと発表した。この新機能は、セマンティック検索、類似性検出、大規模言語モデル(LLM)による検索拡張生成(RAG)といったデータやAIのユースケースで必要とされるベクトル類似性検索を可能にする。
プレビューモードにおいて、サーバーレスデータウェアハウスの近似最近傍検索は VECTOR_SEARCH関数を提供し、密接に一致する埋め込みを特定するために必要なルックアップと距離計算を最適化するためにインデックスに依存する。BigQueryのベクトルインデックスは自動的に更新され、最初に実装されたタイプ(IVF)は、クラスタリングモデルと逆行ロケータを組み合わせたツーピースインデックスである。
GoogleのエンジニアリングリードであるOmid Fatemieh氏と、Googleの製品責任者であるMichael Kilberry氏は、以下のように説明している。
ベクトル検索は、エンベッディングと呼ばれる高次元の数値ベクトルに対して実行されることが多いです。エンベッディングは、エンティティの意味表現を組み込んだもので、テキスト、画像、動画など、さまざまなソースから生成できます。BigQueryのベクトル検索は、密接にマッチするエンベッディングを特定するために必要なルックアップと距離計算を最適化するためのインデックスに依存しています。
クラウドプロバイダーによると、BigQueryのテキスト検索機能に似た構文により、ベクトル検索操作を他のSQLプリミティブと組み合わせることができる。LangChainの実装により、他のオープンソースやサードパーティのフレームワークとのPythonベースの統合を簡素化できる。Operaのシニア・プロダクト・マネージャー、 Max Ostapenko氏はこのようにコメントしている。
BigQueryのエンベッディングを使ったベクトル検索を試してみて、非常に驚きました!Vertex AIを使った製品インサイト強化の世界に飛び込んだところです。テキストデータを扱うアプローチが本当に広がります。
コミュニティからの要望が多かったベクトル検索には、セマンティック検索と検索補強生成の実行方法についてのチュートリアルが付属している。Google Patentsの公開データセットを例として、Googleは、事前に生成された埋め込みを使用した特許検索、BigQueryの埋め込み生成を使用した特許検索、生成モデルとの統合によるRAGといった、新機能の3つの異なる使用例を示している。Fatemieh氏とKilberry氏はこのように記述している。
BigQueryの高度な機能により、上記で取り上げた検索ケースを、完全なRAGジャーニーへと簡単に拡張できます。具体的には、VECTOR_SEARCHクエリの出力を、BigQueryのML.GENERATE_TEXT関数を介してGoogleの自然言語基盤(LLM)モデルを呼び出すためのコンテキストとして使用することができます。
BigQueryの最近の発表は、ベクトル検索だけではない。クラウドプロバイダーは、Gemini 1.0 ProがVertex AI経由でBigQueryの顧客向けに利用可能となったことを明らかにした。さらに、テキストと 音声のためのVertex AIに対する新しいBigQuery統合もある。
CREATE VECTOR INDEXステートメントとVECTOR_SEARCH関数の課金は、BigQueryの計算価格に基づいている。CREATE VECTOR INDEX文では、処理バイトの計算にはインデックスされた列のみが考慮されている。