BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Teachable Machine: カメラを使ってブラウザで機械学習

Teachable Machine: カメラを使ってブラウザで機械学習

原文(投稿日:2017/10/05)へのリンク

Teachable Machineは、Webカメラを使ってトレーニングすることで、モノや表情を認識させることができるブラウザアプリケーションだ。

デモでは、Webカメラを使って、モノや表情の3つの異なるクラスを認識させることができる。カメラ入力に基づいて、サイトは異なるGIFを表示したり、録音済みサウンドを再生したり、音声を再生したりする。ユーザーはコーディングする必要がなく、ハイパーパラメータやネットワークアーキテクチャをプログラムする必要もない。ユーザーがマシンから得られるフィードバックは、予測したクラスごとの信頼度だけだ。認識されたクラスに基づいて、マシンは3つのGIF(ネコ、イヌ、ウサギ)のひとつを表示する。ユーザーは音や言葉をプログラムすることもできるが、出力を組み合わせることはできない。YoutubeにTeachable Machineの使い方に関するすばらしい説明がある。

トレーニングはすべて、deeplearn.jsライブラリを用いてブラウザで行われる。これはGoogle Brain PAIRチームが作成したハードウェアアクセラレーションされたJavascriptライブラリで、フリーで利用することができる。このライブラリは2017年8月にGoogleのブログで発表されたもので、deeplearn.jsのWebサイトから、このライブラリを用いたアプリケーションを利用することができる。

ユーザーがやらなくてはならないのは、認識したいモノの写真をいくつか撮ることだけだ。"SqueezeNet" と呼ばれるトレーニング済みのニューラルネットワークをダウンロードすることで、トレーニングを高速化している。研究論文によると、SqueezeNetのトレーニング可能なパラメータ数は、同等のニューラルネットワークと比べて50分の1しかない。おかげで、500KB以下のファイルとしてダウンロードすることができる。ネットワークのパラメータ数は少ないものの、出力は大きなニューラルネットワークと同等であり、このようなシンプルなブラウザアプリケーションには十分だ。アプリケーションはこのトレーニング済みネットワークの出力を使って、あなたがWebカメラに見せているモノを学習する。

Teachable MachineのソースコードはGithubから入手できる。deeplearn.jsの使い方やライブラリのソースコードもGithubにある

 
 

Rate this Article

Adoption Stage
Style
 
 

この記事に星をつける

おすすめ度
スタイル

BT