InfoQ ホームページ ComputerVision に関するすべてのコンテンツ
-
OpenAIが画像生成用のGPT-3モデルを発表
OpenAIは、GPT-3に基づいて12BパラメーターAIモデルをトレーニングした。GPT-3では、テキストの説明から画像を生成することができる。説明では、オブジェクトの位置や画像の遠近法など、多くの独立した属性を指定できる。そして、現実の世界には存在しないオブジェクトの組み合わせを合成することもできる。
-
Microsoft Researchが新しいビジョン言語システムを開発:VinVL
Microsoft Researchは最近、画像エンコーディング用の新しいオブジェクト属性検出モデルを開発した。これは、VinVL(Visual features in Vision-Language)と名付けられた。
-
MediaPipeがモバイルデバイス向けにホリスティックトラッキングを提供
ホリスティックトラッキングはMediaPipeの新機能であり、モバイルデバイスで体と手のポーズと顔の位置を同時に検出できる。この3つの機能は、以前は個別に利用できた。しかし、現在は単一の高度に最適化されたソリューションに統合されている。
-
GoogleがObject Detection APIでのTensorFlow2のサポートを発表
Googleは、TensorFlow Object Detection(OD)APIにおいてTensorFlow 2(TF2)のサポートを発表した。このリリースには、イーガーモード互換のバイナリ、2つの新しいネットワークアーキテクチャ、およびサポートされているすべてのモデルに対する事前トレーニング済みの重みが含まれている。
-
GoogleがコンピュータビジョンモデルのBig Transferをオープンソース化
Google Brainは、ディープラーニングのコンピュータービジョンモデルであるBig Transfer(BiT)向けに事前トレーニング済みモデルと微調整コードをリリースした。このモデルは、公開されている一般的な画像データセットで事前にトレーニングされており、わずか数個のサンプルを微調整すると、いくつかのビジョンベンチマークで最先端のパフォーマンスと同等か上回ることができる。
-
MITとToyotaが自動運転データセットDriveSegをリリース
Toyotaの先進安全技術研究センター (CSRC) とMITのAgeLabは、自動運転研究のデータセットであるDriveSegをリリースした。DriveSegには、25,000フレームを超える高解像度ビデオが含まれており、各ピクセルには12クラスの道路オブジェクトの1つがラベル付けされている。DriveSegは、非営利目的で無料で利用できる。
-
ML Kit Pose Detectionにより、iOSとAndroidで体の動きの追跡が可能
Pose Detectionは、当初はML Kitアーリーアクセスプログラムで利用可能であったが、正式にML Kitの一部になった。ライブラリは、顔のランドマーク、手、足などの人体を追跡できる。
-
サイレントビデオのサウンドトラックがAIで生成可能に
研究者のGhose、Prevost両氏が、指示された無音のビデオに対して、リアルなサウンドの同期サウンドトラックを生成可能な、ディープラーニングアルゴリズムを開発した。 生成するサウンドをクラス分類するようにニューラルネットワークをトレーニングし、サウンドを生成するようにシーケンシャルネットワークをトレーニングした。これにより、時系列のイメージから、まったく様式の異なるサウンド生成への移行を可能にしたのだ!
-
Google ML Kit SDKがオンデバイスの機械学習にフォーカス
Googleはスタンドアロンモードで動作することを目的とした新しいML Kit SDKを導入した。以前のML Kit SDKのようなFirebaseとの緊密な統合を必要としない。また、画像のラベル付けとオブジェクトの検出と追跡のために、デフォルトモデルをカスタムモデルに置き換えるための限定的なサポートも提供する。
-
V8がWebAssembly SIMDをサポート
WebAssembly SIMDプロポーザルが、実験段階としてではあるが、GoogleのJavaScriptエンジンであるV8に提案された。V8がSIMD(Single Instruction, multiple data)をサポートするのは、データの並列処理を活用することによる、音声処理やビデオ処理、マシンラーニングといった計算集約的なタスクの促進が目的だ。
-
IoTのためのディープラーニングモデルサイズを減らす技術を研究員たちが開発
Arm LimitedとPrinceton Universityの研究員たちが、わずか2KBのRAMで、IoT(internet-of-things)ハードウェアシステムのためのディープラーニングコンピュータビジョンモデルを生成する技術を開発した。ベイズ最適化とネットワークプルーニングを使って、このチームは最新の精度を保ちながら、画像認識モデルのサイズを減らすことができる。
-
Apple、エッジにフォーカスしたAIスタートアップXnor.aiを買収
Appleは、エッジデバイス上で実行するAIモデルを構築するスタートアップXnor.aiをおよそ2億ドルで買収した。
-
Waymoがマシンラーニング用に自動運転車データセットを公開
自動運転テクノロジ企業のWaymoは、5時間以上の運転中に自動運転車が収集したセンサデータを含むデータセットをリリースした。このセットには、いくつかの都市と郊外の環境において、さまざまな運転条件下で収集されたLIDAR(レーザレーダ)およびカメラセンサの高解像度データと、車両、歩行者、自転車、標識のラベルが含まれている。
-
AWSがDeep Learning AMIおよびAIサービスのSageMakerとRekognitionを強化
Amazon Web Services (AWS)は、Deep Learning仮想マシンイメージのアップデートと、AIサービスSageMaker Ground TruthとRekognitionの改善を発表した。
-
Googleが深度認識のトレーニングにマネキンチャレンジのビデオを使用
Google AI Researchは、2次元画像から奥行きを知覚する研究を解説した論文を発表した 。マネキンチャレンジのYouTubeビデオから作成したトレーニング用データセットを使って、研究者たちは、移動するカメラで撮影した動く人々のビデオから深度情報を再構築することのできる、ニューラルネットワークをトレーニングした。