InfoQ ホームページ ComputerVision に関するすべてのコンテンツ
-
Googleがランドマーク認識および検索用の大規模データセットGoogle-Landmarks-V2をリリース
Googleは、Landmark RecognitionとRetrieval用に改良されたデータセットのGoogle-Landmarks-v2と、大規模なインスタンスレベルの画像認識用TensorflowコードベースのDetect-to-Retrieveをリリースした。Google-Landmarks-v2をベースとした2つのコンパニオンKaggle競技も同時にローンチされている。500万のイメージに200,000以上のランドマークを収めた、これまで公開された中で最大のランドマークデータセットだ。
-
OpenAIはより長いシーケンスのディープラーニングのためのSparse Transformersを発表
OpenAIは、テキスト、音声、画像などの一連のデータを学習するためのディープニューラルネットワークアーキテクチャであるSparse Transformerを開発した。ネットワークは、より短いトレーニング時間で、いくつかのディープラーニングタスクにおいて最先端のパフォーマンスを達成できる。
-
Googleはコンピュータビジョンモデルの教師なしディープラーニングのためのTensorFlow Graphicsライブラリを発表
Google I/O 2019でのプレゼンテーションで、GoogleはTensorFlow Graphicsを発表した。TensorFlow Graphicsは、コンピュータビジョンにおける教師なしの学習タスクのためのディープニューラルネットワークを構築するためのライブラリである。このライブラリには、TensorFlowで記述された3Dレンダリング機能と、非矩形メッシュベースの入力データで学習するためのツールが含まれている。
-
SalesforceがEinstein Services製品にインテリジェンスを追加
最近のプレスリリースで、SalesforceはEinsteinプラットフォームへの機能追加を発表した。ローコード、ポイントアンドクリックの設定ベースのソリューションを使用してAIソリューションをSalesforce開発者および管理者に提供することを目的としている。このプラットフォームに最近追加された機能には、Einstein TranslationおよびEinstein Optical Character Recognition(OCR)がある。
-
MicrosoftがAnomaly DetectorとCustom Visionの2サービスを新たに提供、コグニティブサービスの範囲を拡大へ
Microsoftは先頃、 Anomaly Detectorのパブリックプレビューと、Custom Visionの一般供与を発表した。2つのサービスによってMicrosoftは、ユーザへのコグニティブサービス(Cognitive Service)の提供をさらに拡大する。
-
EmoPy: 表情認識のためのオープンソースツールキット
先日のブログ記事で、Angelica Perez氏は、インタラクティブなフィルム体験のための新たなオープンソースプロジェクトに関する情報を公開した。EmoPyと呼ばれるこのプロジェクトは表情認識(FER)に焦点を当てており、サービスに渡されたイメージに基づいて、感情を正確に予測するツールキットを提供する。
-
AWS Marketplace、機械学習アルゴリズムとモデルパッケージを提供
Amazon Web Servicesは、機械学習アルゴリズムとモデルパッケージをAWS Marketplaceで提供することをAWS re:Invent Conferenceで発表した。
-
face-api.js: TensorFlow.jsを活用したJavaScriptによる顔認識
face-api.jsはブラウザにおける顔検出および顔認識のためのJavaScript APIで、tensorflow.js core API上に実装されている。これは一連のCNNを実装し、Webとモバイル機器に最適化されている。
-
Dataikuが最新リリースでディープラーニングとコンピュータビジョンを統合
共同データサイエンスプラットフォームDatakuのData Science Studioの最新リリースには、画像処理用に事前学習されたディープラーニングモデルが含まれている。DSSプラットフォームはデータソーシングや可視化から運用展開まで、データサイエンスプロジェクトの全ステップを実行する。マシンラーニングモデルは標準的なライブラリをサポートする。Hadoopや複数のSparkエンジンとの統合も可能だ。
-
物体検出のためのディープラーニングライブラリで、Facebookがオープンソースで提供するDetectron
FacebookやGoogleから最近、最新のディープラーニングアルゴリズムの実装がリリースされており、それによって困難な問題であるマシンオブジェクトの検出に取り組むことができ��。
-
スタートアップ企業のVicariousが脳の視覚野にヒントを得たAIによるCAPTCHAの解読に成功
Vicariousがニューラルネットワークを改善して、Recursive Cortical Network(再帰的皮質ネットワーク)と呼ばれる新たなネットワークレイアウトによるCAPTCHA問題の解決を可能にした。一般的なニューラルネットワークとは異なり、RCNはトレーニング前の知識を一切持たず、輪郭(contour)と表面(surface)の知識からスタートする。この事前知識は、モデル構築と一般化可能性(generalizability)の向上に用いられる。
-
Teachable Machine: カメラを使ってブラウザで機械学習
Teachable Machineは、Webカメラを使ってトレーニングすることで、モノや表情を認識させることができるブラウザアプリケーションだ。 デモでは、Webカメラを使って、モノや表情の3つの異なるクラスを認識させることができる。カメラ入力に基づいて、サイトは異なるGIFを表示したり、録音済みサウンドを再生したり、音声を再生したりする。デモは teachablemachine.withgoogle.com にある。
-
Facebookが新たなニューラルマシン翻訳アルゴリズムを公表
FacebookのArtificial Intelligence Researchチームは、ニューラルマシントランスレーション(NMT)に新たなアプローチを使用した研究の結果を発表した。同チームのアルゴリズムは、一般的な3つの機械翻訳タスクにおいて、どのシステムよりも高得点を取得している。
-
Android ThingsはTensorFlowベースの機械学習とコンピュータビジョンをIoTデバイスにもたらす
最近リリースされたAndroid ThingsのDeveloper Preview 2 (DP2) では、IoTデバイスにおける機械学習とコンピュータビジョンにTensorFlowが簡単に使えるようになった。加えて、いくつかのIoTプラットフォーム向けにUSBオーディオのサポートが拡張され、Intel Jouleのサポートも追加された。また、新しいNative PIO APIを通じて、ネイティブドライバを直接使えるようになった。
-
Google, 最先端の画像処理能力を備えた Tablet 向けの開発キットを発表
Google は、Project Tango 開発キットが利用可能になったことを発表した。このキットを使えば、開発者は、完全な3次元モーションのトラッキングと、周囲環境の3次元表面形状の取り込みを行うことが可能になる。Tango開発キットは、NVIDIA社と共同で開発されたもので、新しいTegra K1モバイルプロセッサを含み、コンピュータ画像処理と3次元センシングのために設計されたプラットフォームの提供を狙っている。