Teachable Machineは、Webカメラを使ってトレーニングすることで、モノや表情を認識させることができるブラウザアプリケーションだ。
デモでは、Webカメラを使って、モノや表情の3つの異なるクラスを認識させることができる。カメラ入力に基づいて、サイトは異なるGIFを表示したり、録音済みサウンドを再生したり、音声を再生したりする。ユーザーはコーディングする必要がなく、ハイパーパラメータやネットワークアーキテクチャをプログラムする必要もない。ユーザーがマシンから得られるフィードバックは、予測したクラスごとの信頼度だけだ。認識されたクラスに基づいて、マシンは3つのGIF(ネコ、イヌ、ウサギ)のひとつを表示する。ユーザーは音や言葉をプログラムすることもできるが、出力を組み合わせることはできない。YoutubeにTeachable Machineの使い方に関するすばらしい説明がある。
トレーニングはすべて、deeplearn.jsライブラリを用いてブラウザで行われる。これはGoogle Brain PAIRチームが作成したハードウェアアクセラレーションされたJavascriptライブラリで、フリーで利用することができる。このライブラリは2017年8月にGoogleのブログで発表されたもので、deeplearn.jsのWebサイトから、このライブラリを用いたアプリケーションを利用することができる。
ユーザーがやらなくてはならないのは、認識したいモノの写真をいくつか撮ることだけだ。"SqueezeNet" と呼ばれるトレーニング済みのニューラルネットワークをダウンロードすることで、トレーニングを高速化している。研究論文によると、SqueezeNetのトレーニング可能なパラメータ数は、同等のニューラルネットワークと比べて50分の1しかない。おかげで、500KB以下のファイルとしてダウンロードすることができる。ネットワークのパラメータ数は少ないものの、出力は大きなニューラルネットワークと同等であり、このようなシンプルなブラウザアプリケーションには十分だ。アプリケーションはこのトレーニング済みネットワークの出力を使って、あなたがWebカメラに見せているモノを学習する。
Teachable MachineのソースコードはGithubから入手できる。deeplearn.jsの使い方やライブラリのソースコードもGithubにある。
Rate this Article
- Editor Review
- Chief Editor Action