Googleは,TensorFlow画像キャプションモデルのオープンソース化に関する過去数年間の経緯について説明し,既存の実装と新たなアプローチとの精度を比較したテストとパフォーマンスベンチマーク結果を公開した。2014 Inception V1,2015 Inception V2,そして最新のInception V3モデルは,ImageNet 2012イメージ分類タスクに対するトップ5の精度が,それぞれ89.6, 91.8, 93.9パーセントに改善されている。マシンが生成したキャプションの品質測定には,ひとつの自然言語から別の言語への文書翻訳の精度を測定するBLEU-4メトリックを使用するが,それによると,TensorFlowベースのアプローチは,これまでの中心的なモデルであるDistBeliefを2ポイント上回っている。
既存の実装から新たなモデルに移植し,改善する上で指摘されている問題のひとつは,イメージ内のオブジェクトを分類するプロセスに対する,イメージ内のオブジェクトを説明して他のオブジェクトに関連付けするプロセスだ。今回のモデルでは分類フェーズに加えて,オブジェクトを詳細に説明する上で有用な情報を取り出すことのできるように微調整されたフェーズを導入して,この問題に対処していると考えられる。オブジェクトを識別するイメージ分類フェーズと,形容詞と前置詞句を追加するフェーズ,文法的に適切で人間的なキャプション構造を与えるフェーズとを分けているのだ。
この例のイメージならば,まず列車が線路上にあること,続いて黄色と青であることが認識されて,それらが合成された結果として,線路上を走行する黄色と青の列車,というイメージが認識される。このケースでは,オブジェクトが動いているか静止しているかをモデルが決定可能かどうかではなく,トレーニングデータの中で,同様なイメージを記述した入力イメージキャプションがどのように説明しているかが問題となる。
新しいモデルは,学習済みのイメージキャプションのコンポーネントに組み入れることも可能なので,単一のトレーニング情報によらず,合成したコンポーネント全体で分類されたオブジェクトをユニークに組み合わせて,まったく新しいキャプションを生成することができる。こちらの例では,以前ならば存在しなかったキャプションが生成されている。
以前のモデル実装であるDistBeliefと,新しいTensorFlowベースのInception V3のトレーニング時間を比較したベンチマークによると,Nvidia K20 GPU上で3.0秒に対して0.7秒と,TensorFlowはDisBeliefに対して25%に短縮されている。TensorFlowベースのInception V3イメージ分類モデルに加えて,GoogleはInception-ResNet-v2のリリースについても言及したが,パフォーマンスに関するベンチマークはまだ公表されていない。トレーニングデータ自体は提供されていないが,イメージに対して人が作成したキャプションがトレーニングデータの基本になる。
この記事を評価
- 編集者評
- 編集長アクション