BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Metaが手がけるオープンソースなComputer Vision基盤モデルDINOv2

Metaが手がけるオープンソースなComputer Vision基盤モデルDINOv2

 

Meta AI ResearchはComputer Vision(CV)タスクの基盤モデルであるDINOv2をオープンソース化した。DINOv2は142Mの画像からなるキュレーションデータセットで事前学習されており、画像分類(Image Classification)、ビデオアクション認識(Video Action Recognition)、セマンティックセグメンテーション(Semantic Segmentation)、深度推定(Depth Estimation)などのタスクのバックボーンとして使用できる。

MetaはVision Transformer(ViT)のアーキテクチャをベースに自己教師つき学習の目的に合わせて修正したモデルを開発した。このモデルを学習させるためにチームはウェブからかき集めた画像のキュレーションデータセットを構築する自動パイプラインを構築した。本研究の大きな貢献はトレーニングプロセスの改善であり、従来のアプローチと比較して、速度は2倍になり、メモリ使用量は3分の1になった。CVベンチマークで評価したところDINOv2は他の自己教師つき学習(SSL)モデルを上回り、弱教師学習モデルと同等かそれ以上の性能を示した。Metaは次のように述べている。

今後研究チームはビルディングブロックとして機能するこのモデルを、大規模言語モデルと相互に作用する大規模で複雑なAIシステムに統合することを計画しています。画像に関する豊富な情報を提供する視覚的なバックボーンによって、複雑なAIシステムは単一のテキスト文で画像を説明するよりも深い方法で画像を推論できるようになります。教師テキストデータでトレーニングされたモデルは、結局のところ画像のキャプションによって制限される。DINOv2ではそのような組み込みの制限はない。

CVタスクのためのディープラーニングモデルは、例えばImageNetのような、人間によるアノテーションがついた画像の大規模データセットに依存していた。2021年OpenAIはCLIPというCVのための基盤モデルをリリースした。このモデルは弱教師ありで学習されアノテーションはソース画像に関連するhtmlタグや他のWebベースのメタデータをスクラップすることで自動的に導き出される。同年GoogleはSSLを学習に用いるViTモデルを発表し、MetaはViTモデルと知識の蒸留(Knowledge Distillation)を組み合わせたDINOのオリジナル版を発表し同等の性能を持つ小型モデルを実現した。

DINOv2においてMetaはより多くのトレーニングデータを収集し、トレーニングプロセスをスケールアップすることに注力した。トレーニングデータとして、Metaはインターネットから12億枚の画像を収集し、ImageNetデータセットの画像との類似性に基づいてクラスタリングを行い、最終的に1億4200万枚の画像を収集した。MetaはFlashAttentionのカスタムバージョンを実装し、PyTorchによるFSDP(Fully-Sharded Data Parallel)トレーニングを使用して、トレーニングをスケールアップした。プロジェクトは全体として約200k GPU-daysのコンピューティングリソースを消費したのである。

DINOv2の基盤モデルとしての性能を評価するため、研究チームはさまざまなCVタスクでテストを行い、いくつかのベースラインSSLモデルやCLIPなどの弱教師ありモデルと比較した。ImageNet-1k分類タスクにおいてDINOv2は他のSSLモデルと比較して「非常に大きな改善」を示し弱教師ありモデルも上回った。また3つのビデオアクション認識ベンチマークでSSL最新記録を樹立し、インスタンスレベルの認識ベンチマークと3つの単眼深度推定のベンチマークでベースラインを上回った。

Hacker Newsに掲載されたこの発表に関するディスカッションでは、複数のユーザーがMetaのComputer Visionに関するこの発表と、PyTorchなどの過去の貢献を賞賛している。しかしあるユーザーはMetaの発表に関するコミュニケーションに変化があることを指摘した。

この分野の研究者として、Metaは、Yann LeCun氏の社内でのアドボケイト活動により、オープンソースの機械学習の取り組みに常に大きな貢献をしてきた。最近変わったのは、彼らのPR戦略だ。 [OpenAI]は最高のモデルを持っていても、結局のところ広報が最悪であれば意味がないことを教えてくれた。

DINOv2のコードとモデルはGitHubで公開されている。プロジェクトサイトでは、DINOv2を使ったComputer Vision のインタラクティブなデモを公開している。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT