InfoQ ホームページ ComputerVision に関するすべてのコンテンツ
-
Google、ユーザーインターフェースとインフォグラフィックスを理解するAIモデル「ScreenAI」を育成
Google Researchは先日、インフォグラフィックスとユーザーインターフェースを理解するためのマルチモーダルAIモデル「ScreenAI」を開発した。ScreenAIはPaLIアーキテクチャをベースにしており、いくつもの課題において最先端の性能を記録している。
-
Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説
この程、多くの大規模言語モデル(LLM)がクローズドソースとオープンソースの両方で利用可能になり、更にマルチモーダルLLM(MLLM)として知られる複合モデルの作成につながっている。しかし、最先端のマルチモーダルLLMを設計するための原則と教訓を抽出した、Apple社の研究者は、そのようなLLMを作るためにどのようなデザインの選択がなされたかを明らかにするものはほとんどない、あるいは皆無だと述べる。
-
NVIDIA、エッジでAIアプリを実行するMetropolis Microservices for Jetsonを発表
NVIDIAは、Nvidia Metropolis MicroservicesクラウドベースのAIソリューションを拡張し、NVIDIA Jetson組み込みプラットフォームで実行できるようにした。
-
Meta、生成AIモデル「Emu Video」と「Emu Edit」を発表
Meta AI Researchは、2つの新しい生成AIモデルを発表した。Emu Videoは、テキストプロンプトにて短い動画の生成ができ、Emu Editは、テキストベースの指示を受けて画像編集ができる。両モデルとも、Meta社のEmu基礎モデルをベースにしており、いくつかのベンチマークで最先端の性能を示している。
-
Metaが手がけるオープンソースなComputer Vision基盤モデルDINOv2
Meta AI ResearchはComputer Vision(CV)タスクの基盤モデルであるDINOv2をオープンソース化した。DINOv2は142Mの画像からなるキュレーションデータセットで事前学習されており、画像分類(Image Classification)、ビデオアクション認識(Video Action Recognition)、セマンティックセグメンテーション(Semantic Segmentation)、深度推定(Depth Estimation)などのタスクのバックボーンとして使用できる。
-
カーネギーメロン大学の研究者、WiFi経由で人を検知するAIモデルを開発
カーネギーメロン大学(CMU)のヒューマンセンシング研究所の研究者は、WiFi送信機からの信号のみを用いて、部屋にいる複数の人間のポーズを検出するAIモデルのDensePose from WiFiに関する論文を発表した。実世界のデータを用いた実験では、このアルゴリズムは50%のIOU閾値で平均87.2という精度を達成したのである。
-
LAION、50億の画像-テキストペア・データセットLAION-5Bを公開
Large-scale Artificial Intelligence Open Network(LAION)は、50億を越える画像とテキストのペアを収めたAI用トレーニングデータセット"LAION-5B"をリリースした。LAION-5Bには、インターネットから収集した画像とキャプションが、前作であるLAION-400Mの14倍という規模で含まれており、無償で入手可能な最大の画像-テキストデータセットとなっている。
-
ワシントン大学がAIファインチューニングアルゴリズムのWISE-FTをオープンソース化
ワシントン大学(UW)、Google Brain、コロンビア大学の研究者チームは、ファインチューニングのための重み空間アンサンブル(WiSE-FT)をオープンソース化した。これは、分布シフト時のロバスト性を向上させるファインチューニングAIモデルのためのアルゴリズムである。いくつかのコンピュータービジョン(CV)ベンチマークでの実験では、WISE-FTの精度が最大6パーセントポイント向上したことが示されている。
-
継続的な深層学習の評価:画像分類のための新しいベンチマーク
継続的な学習は、ディープネットワークトレーニングの反復全体で知識を保持することを目的としている。「CLEARベンチマーク:実世界の画像に関する継続的な学習」というタイトルの新しいデータセットが最近公開された。この研究の目的は、継続的な学習モデルをより現実的な比較をするために、オブジェクトの自然な時間進化を伴う一貫した画像分類ベンチマークを確立することである。
-
エッジ上でビデオフィードを解析するAWS Panorama Appliance
AWSは先頃、AWS Panorama Applianceの一般提供(GA)を開始すると発表した。カスタマが自身の施設にインストールして、既存のオンプレミスカメラからの複数のビデオストリームを解析するアプリケーションを実行できる新しいデバイスである。
-
Facebookがコンピュータビジョンモデル”Multiscale Vision Transformers”をオープンソースとして公開
Facebook AI Reserch(FAIR)は先頃、Transformerアーキテクチャに基づくコンピュータビジョン用ディープラーニングモデルであるMultiscale Vision Transformer(MViT)を、オープンソースとして公開した。MViTは、内部にいくつかの解像度低減(resolution-reduction)ステージを備えることにより、他のTransformerビジョンモデルをパフォーマンスで凌駕すると同時に、必要な計算能力の低減を実現しており、いくつかのベンチマークにおいては精度の最高値を更新している。
-
Googleが8億パラメータ視覚・言語AIモデルのALIGNを発表
Google Researchは、大規模な画像とノイズの多いテキストの埋め込み(ALIGN)の開発を発表した。これは、800Mパラメータで事前トレーニング済みディープラーニングモデルで、18億の画像・テキストのペアのノイズの多いデータセットでトレーニングされている。このモデルは、いくつかのダウンストリームタスクで使用でき、画像・テキスト検索のいくつかのベンチマークで最先端の精度を実現している。
-
Googleが20億パラメータのAIビジョンモデルをトレーニング
Google Brainの研究者は、20億個のパラメータを含む深層学習コンピュータビジョン(CV)モデルを発表した。このモデルは30億枚の画像でトレーニングされ、ImageNetで90.45%のトップの精度を達成し、新たに最先端の記録を打ち立てた。
-
NVIDIAがAIをトレーニングするデータセットジェネレータDatasetGANを発表
NVIDIAの研究者は、AIビジョンモデルをトレーニングするためのデータセットを作成する注釈付きの合成画像を生成するシステムであるDatasetGANを作成した。DatasetGANは、わずか16の人による注釈付き画像でトレーニングでき、100倍以上の注釈付き画像を必要とする完全な教師ありシステムと同様に機能する。
-
iOSとAndroid向けのMLキットが一般向け提供へ
2年間のベータ版の後、Googleは、ポーズ検出APIの改善とともに、iOSとAndroid向けのMLキットの一般向け提供を発表した。さらに、セルフィーセグメンテーションがパブリックベータ版で利用できるようになった。