BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース NVIDIAのAIがビデオストリーミングの帯域幅を10分の1に削減

NVIDIAのAIがビデオストリーミングの帯域幅を10分の1に削減

原文(投稿日:2020/10/20)へのリンク

GPUマニュファクチャのNVIDIAが、AIを活用したビデオ会議サービスMaxineプラットフォームを発表した。通信に必要な帯域幅を1桁削減可能なテクノロジがこれには含まれている。データ処理の大半をクラウドに移行することで、エンドユーザは、特別なハードウェアを必要とせずに圧縮のメリットを享受することが可能になる。

NVIDA CEOのJensen Huang氏は、先日のGPU Technology Conference(GTC)で行った基調講演の中で、このプラットフォームとアプリケーションについて説明した。Maxineのビデオ圧縮では、受信側で敵対的生成ネットワーク(GAN)を使用することによって、送信側のイメージから取得した数点のキーポイントの情報のみを使用して、人の顔のイメージを再構成する。ピクセルデータの代わりにこれらのポイントを送ることで、H.264圧縮標準に比較して最大10分の1という、大幅な通信帯域要件の削減を実現した。その他にも、フェイスアライメントやアニメーションアバターなどの機能が用意されている。Maxineと、NVIDAの対話AIであるJavisフレームワークについて、Huang氏は次のように述べている。

当社は、今日はビデオ会議を革新し、明日は仮想プレゼンスを発明できる立場にあります。

MaxineのコアAIアルゴリズムは、NVIDIAのGANsに関する研究に基づくものだ。GANsでは、"リアルな"データの生成方法を学習する"ジェネレータ(generator)"と、実際のデータとジェネレータのアウトプットの識別を学習する"ディスクリミネータ(discriminator)"という、2つのディープラーニングモデルを使用する。トレーニングされたジェネレータは、極めて信ぴょう性のあるアウトプットの生成が可能になる。2019 Computer Vision and Pattern Recognition(CVPR)カンファレンスで発表された論文の中で、NVIDIAの研究チームは、"スタイル変換(style transfer)"を使用して単純な描画を写真的イメージに変換するモデルについて説明した。さらに、ユーザが自身で絵を書いて、多数の参照イメージからひとつをスタイルとして選択することの可能な、GauGANと命名されたテクノロジのデモアプリも開発している。

最近になって、GauGANの開発者のひとりであるMing-Yu Liu氏とNVIDIAの同僚たちは、この技術がビデオ会議に適用可能であることに気付いた。ビデオ圧縮アルゴリズムの大半は、すべてのイメージデータがフレーム間で変化している訳ではないという事実を活用している。完全なキーフレームイメージを時々送信すれば、後はフレームと次のフレーム間の差分のみを送ればよいのだ。Minervaでもキーフレーム、あるいは送信するユーザの顔に関する参照イメージが必要である。ソースビデオの以降のフレームは分析されて、イメージ内の送信者の顔の"キーポイント"の位置が取り出される。イメージの差分ではなく、キーポイントの位置のみが送信されるのだ。受信側のMinervaソフトウェアは、最初の参照イメージのスタイル変換を顔の単純なキーポイント"描画"に適用することで、送信者の顔を再構築する。

ビデオ会議に必要な帯域幅の削減の他にも、Maxineは、暗い場所で撮影されたイメージの改善や、バックグラウンドノイズの除去などの機能を備えている。さらに、このプラットフォームでは、ビデオイメージ内の送信者の顔を"再調整(re-align)"することも可能だ。ビデオ会議の出席者の多くは、カメラを直接見るのではなく、自身の画面を凝視する傾向があるため、他の出席者との"アイ・コンタクト"を取ることができない。Maxineならば、送信者のビデオを再構成して、アイ・コンタクトを行えるようにすることが可能なのだ。またMaxineでは、アニメーション化された仮想"アバター"もサポートされている。別の参照イメージ、例えば送信者の実際の顔ではなく、漫画のキャラクタの顔を使用することで、漫画のキャラクタのアニメ版として送信者の顔が"再構築"される。NVIDIAのJarvisが提供するAI会話サービスを使用すれば、ビデオ会議にリアルタイムで字幕を加えたり、言語翻訳を行うことも可能になる。

Hacker Newsの議論では、Minervaのアルゴリズムと"ディープフェイク"の類似点を指摘する声が多く、このテクノロジの乱用に対する懸念が持ち上がっている。前向きな可能性を指摘する声もある。

(在宅勤務している)自分を実際よりも多少見栄えよくするような機能は、大きなメリットがあるのではないでしょうか。座っている場所や、毎日のヘアスタイルなど、バーチャルミーティングでは重要でないことを、気にかけなくて済むようになると思うからです。

NVIDIAのMaxineプラットフォームは現在はクローズドベータとして提供されており、開発者はアーリーアクセスの申請が可能だ。GauGANモデルのコードはGitHubで公開されている。
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT