YouTubeでの音楽レコメンドにTransformerアーキテクチャを活用

原文リンク(2024-09-06)

Google社は、現在の生成AIブームの火付け役であるトランスフォーマーモデルを音楽レコメンドに活用するアプローチについて説明した。現在YouTubeで実験的に適用されているこのアプローチは、音楽を聴く際のユーザーの一連の行動を理解し、そのコンテキストに基づいてユーザーの好みをより的確に予測できるレコメンダーを構築することを目的としている。

レコメンダーは、楽曲を聴く、スキップする、「いいね！」を押すなど、さまざまなユーザー行動から得られる情報を活用し、ユーザーが興味を持ちそうなアイテムについてレコメンデーションを行う。

Google社の研究者によれば、現在の音楽レコメンダーが失敗する典型的なシナリオは、ユーザーのコンテキストが変化したときである。このようなコンテキストの変化は、例えばリラックスできる音楽からアップビートな音楽へと、異なるジャンルやリズムへの音楽嗜好の変化を生み出す可能性がある。Google社の研究者によれば、このようなコンテキストの変化を考慮しようとすると、ユーザーの現在のコンテキストの中でのユーザーの行動を理解する必要があるため、レコメンデーションシステムのタスクは非常に難しくなるという。

トランスフォーマーアーキテクチャは、NLPやより一般的な大規模言語モデル（LLM）が示すように、入力データのシーケンスを理解するのに特に適しているからだ。Google社の研究者たちは、トランスフォーマーアーキテクチャが、ユーザーの文脈に基づく言語と同じように、ユーザーの一連の行動を理解する能力を示すかもしれないと確信している。

自己アテンション層は、文章中の単語間の関係を捉えていることから、ユーザーの行動間の関係も解決できる可能性が示唆されます。トランスフォーマーのアテンション層は、入力文の単語関係に似た、入力の断片（トークン）間のアテンションの重みを学習します。

Google社の研究者たちは、トランスフォーマーアーキテクチャを、生成モデルから、現在のユーザーコンテキストに基づく連続的なユーザー行動の理解に適応させることを目指している。そして、この理解をパーソナライズされたランキングモデルと融合することで、レコメンデーションを生成する。ユーザーの行動がコンテキストによって異なる意味を持つことを説明するために、研究者達は、ジムで音楽を聴いているユーザーが、よりアップビートな音楽を好むかもしれないことを語っている。通常、家にいるときはそのような音楽をスキップするため、ジムでのこの行動は注目度が低くなるはずだ。言い換えれば、レコメンダーはユーザーのコンテキストとグローバルユーザーのリスニング履歴で異なるアテンションウェイトを適用する。

私達は、ユーザーが以前聴いていた音楽を利用しつつ、普段聴いている音楽に近いアップビートな音楽を勧めます。事実上、私達は、音楽をランク付けするという現在のタスクにおいて、過去のどの行動が関連性があり、関連性がないかを学習しているのです。

その仕組みを簡単にまとめると、Google社のトランスフォーマー型レコメンダーは、典型的なレコメンデーションシステムの構造に従っており、3つの異なるフェーズで構成されている。コーパスやライブラリからアイテムを検索し、ユーザーの行動に基づいてそれらをランク付けし、ユーザーに選択範囲を狭めるためにそれらをフィルタリングする。アイテムをランク付けする際、システムは既存のランク付けモデルにトランスフォーマーを組み合わせる。各トラックはトラックエンベッディングと呼ばれるベクトルに関連付けられ、トランスフォーマーとモデルの両方に使用される。ユーザーの行動やトラックメタデータに関連する信号は、同じ長さのベクトルに投影されるので、トラックエンベッディングのように操作できる。例えば、トランスフォーマーに入力を提供するとき、ユーザーアクションの埋め込みと音楽トラックの埋め込みは、トークンを生成するために単純に足し合わされる。最後に、トランスフォーマーの出力は、多層ニューラルネットワークを使ってランキングモデルの出力と組み合わされる。

Google社の研究者によると、初期の実験では、スキップ率の減少やユーザーが音楽を聴く時間の増加など、レコメンダーの改善が見られたという。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco

YouTubeでの音楽レコメンドにTransformerアーキテクチャを活用

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。