L'équipe Ground Truth de Google a récemment annoncé un nouveau modèle d'apprentissage profond pour l'extraction automatique d'informations à partir de fichiers d'image géo-localisée pour améliorer Google Maps. Ce modèle de réseau neuronal a obtenu une plus grande précision dans le traitement du difficile jeu de données des Panneaux de Noms de Rue en Français (FSNS). Julian Ibarz (Google Brain Team) et Sujoy Banerjee (Ground Truth Team) ont écrit sur le site web du blog de recherche Google sur ce modèle TensorFlow utilisé pour résoudre les problèmes d'extraction de texte d'image du monde réel.
Le logiciel Google Maps est utilisé pour les directions, les informations routières en temps réel et les informations sur les entreprises, mais pour fournir une meilleure expérience à plus de un milliard d'utilisateurs, l'information doit refléter un monde en évolution. Les voitures de Street View ont collecté 80 milliards d'images à ce jour et il est impossible d'analyser manuellement ce très grand ensemble de données d'image pour trouver des informations nouvelles ou des mises à jour pour Google Maps. Aussi, l'un des objectifs de l'équipe est d'extraire automatiquement des informations structurées à partir des images géo-localisées.
Le nouveau modèle de réseau neuronal profond, désormais accessible par les développeurs, a permis d'obtenir un réseau neuronal profond plus adapté (84,2%) pour la lecture de noms de rue des images Street View à partir du jeu de données des Panneaux de Noms de Rue en Français (FSNS). Ce modèle est extensible pour extraire d'autres types d'informations des images de Street View comme les noms commerciaux des devantures de magasin.
La reconnaissance de texte dans un environnement naturel comme les villes, les routes et les entreprises est un problème difficile de vision informatique (CV) et d'apprentissage en machine. Les facteurs comme la distorsion, les occlusions, le flou directionnel, le fond encombré ou différents points de vue rendent l'extraction du texte des scènes naturelles plus difficile. L'équipe de Google a utilisé un modèle basé sur le réseau neuronal en 2008 pour décolorer les visages et les plaques d'immatriculation dans les images Street View afin de protéger la vie privée des utilisateurs. Sur la base de cette recherche, ils ont pu utiliser l'apprentissage machine pour améliorer automatiquement Google Maps avec des informations pertinentes et à jour.
Le modèle d'apprentissage profond répertorie également automatiquement les nouvelles images de Street View, normalise le texte pour être conforme aux conventions de dénomination et ignore le texte étranger qui n'est pas pertinent pour l'analyse de données. Cela permet à l'équipe de créer de nouvelles adresses directement à partir d'images sans même connaître le nom de la rue ou l'emplacement des adresses. Par exemple, lorsqu'une voiture Street View conduit sur une route nouvellement construite, le modèle peut analyser les images capturées, extraire les noms et les numéros des rues et créer et localiser correctement les nouvelles adresses automatiquement sur Google Maps.
Pour appliquer ces modèles aux grands jeux de données d'images de Street View, l'équipe de Ground Truth utilise l'Unité de Traitement de Tenseur (TPU) de la puce d'apprentissage de la machine pour réduire le coût de calcul des inférences du pipeline.