BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Appleはどのようにして手書きの漢字をリアルタイム認識しているか

Appleはどのようにして手書きの漢字をリアルタイム認識しているか

原文(投稿日:2017/12/20)へのリンク

あなたのリクエストに応じて、ノイズを減らす機能を開発しました。大切な情報を見逃さないよう、お気に入りのトピックを選択して、メールとウェブで通知をもらいましょう。

Appleは、最大30,000文字のコレクションをサポートし、手書きの漢字を認識するためのリアルタイム機械学習を解説した。このモデルはサイズが大きくなると漸近的に制度が落ちると報告されている。GB18030-2005のような大きなセットの文字を認識できるが、GB2312-80のようなより小さいセットを使用するときに比べて、わずかに劣化する。

中国語の標準規格GB18030-2005には、27,533エントリーが含まれており、長年、キーボードの実装を困難なものにしてきたため、手書きの翻訳は、中国語を話す人たちにとって特に価値が高い。いくつかのバージョンの中国語セットは、時間と地理上で頻繁に使われる文字の変化に対応するために、長年にわたって適応させてきた。潜在的な文字値の大きなコーパス、様々な手書き手段、各人の独特な手書きスタイルの性質と特徴は機械学習を困難なものにした。

畳み込みニューラルネットワークは、一般的には画像認識やラベル付けにフォーカスした機械学習に使用される。この記事で紹介した以前の研究方法では、時間の経過とともにモデルのアプローチが進化し、ストロークオーダーは、一致するものを見つけるために、可能性のある文字のプールにサブセットする重要な役割を果たす。

以前の認識アルゴリズムは、主に個々のストローク分析に基づく構造的手法に依存していたが、ストロークオーダーの独立性を達成する必要性は、後に全体的な形状情報を使用する統計的方法への関心を呼び起こした。これは明らかに大量の在庫認識を複雑にする。曖昧さをなくすためにカテゴリの数が増えるほど、正確な文字分類は難しくなる傾向があり、大量の認識は明確に複雑になる。

ストロークオーダーに基づくアプローチにより文字のプールは大きくなってしまった。曖昧な手書きスタイルにより、複雑さと計算量のオーバーヘッドにより文字ごとにnストローク増加し、Appleの研究者は、ストロークオーダーとは無関係の「形状駆動」アプローチを導入した。

Appleが採用したアプローチは、MNISTをベースにしたLatinスクリプト翻訳とCNNが業界標準にしたものに似ている。ただし、30,000以上の文字に対するリアルタイムCNNのスケーラビリティは異なっていた。文字インベントリー間の衝突と曖昧さの複雑さはさらに増加した。

速い入力は草書体に向かう傾向があり、曖昧さが増す。例えばU+738B (王)とU+4E94 (五)。最後に、国際化は予期しない衝突を引き起こすことがある: 例えばU+4E8C (二)を草書で書いた場合、ラテン文字の「2」や「Z」と衝突する可能性がある。

各手入力は、元の文字を表す48 x 48ピクセルの画像にダイジェストされる。これは、残りのニューラルネットワークに供給する最初の畳み込み機能である。画像処理に必要なCNNのサイズ全体を最小化するために畳み込みが事前処理のステップとなる。ピクセルの有限数と、ピクセルの可能な値はモデルの複雑さの上限を提供し、Apple-watchのような周辺機器上の訓練されたネットワークを介して実行できる入力文字の信頼性の高い、荒い表現である。

トレーニングデータセットは、広範囲の中国語圏コミュニティから収集された数千万の手書き文字で構成される。研究者は、成功と正確さは、商業利用に十分なパフォーマンスで構成されるべきであると指摘した。

 
 

Rate this Article

Adoption Stage
Style
 
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT