O reconhecimento facial é uma aplicação direta do aprendizado de máquina que está sendo amplamente implantado para consumidores, indústria e agências de aplicação da lei, com benefícios potenciais em nossas vidas diárias, bem como preocupações sérias com privacidade. Os modelos de reconhecimento facial alcançam desempenho superior ao humano, mas a implementação no mundo real continua sendo problemática em alguns casos.
Voltando para as raízes, nos anos 90 com a abordagem Eigenfaces no MIT, a primeira implementação bem sucedida do reconhecimento facial em larga escala foi o programa DeepFace do Facebook em 2014, que atingiu a precisão do nível humano em condições de laboratório. Desde 2014, conjuntos de dados de treinamento maiores, GPUs e avanços rápidos em arquiteturas de redes neurais aumentaram ainda mais o desempenho do reconhecimento facial em um conjunto mais rico de contexto, levando a uma implementação confiável no mundo real.
As aplicações de reconhecimento facial são divididas entre autenticação e reconhecimento. Em ambos os cenários, um conjunto de assuntos conhecidos é inicialmente inscrito no sistema (a galeria), e durante o teste, um novo sujeito (a sonda) é apresentado. A verificação facial calcula a similaridade um-para-um entre a galeria e a sonda para determinar se as duas imagens são do mesmo assunto. É uma solução de autenticação biométrica usada, por exemplo, no recurso de login baseado em face no iPhone X ou nos controles de fronteira nos aeroportos. O HSBC e a Ticketmaster estão atualmente considerando o uso de verificação facial em seus aplicativos móveis. A identificação de rosto, por outro lado, computar a similaridade de um para muitos para identificar corretamente a sonda entre uma galeria de pessoas pré-identificadas. Sua principal aplicação é combinar fotos não rotuladas com perfis conhecidos. É usado, entre outros, por agências policiais para destacar pessoas de interesses de multidões.
A tecnologia de reconhecimento facial também pode ser usada para inferir características e comportamentos humanos, como emoções, idade ou saúde. Em um recente estudo controverso da Universidade de Stanford, a orientação sexual de uma pessoa foi prevista com precisão de 81% usando métodos de análise facial baseados em um conjunto de dados extraído do Tinder.
O mercado global de reconhecimento facial está dividido entre bens de consumo, aplicações industriais e aplicação da lei, e deverá atingir U$ 9 bilhões até 2022, de acordo com a Allied Market Research e Repot Buyer. Os principais intervenientes no mercado das soluções biométricas incluem a Safran (FR), a NEC Corporation (JA), a Cognitec (DE) e a Face ++(CH).
Mas o reconhecimento facial não é uma ferramenta de identificação biométrica como as outras. "Você pode deletar cookies, mudar de navegador e deixar seu smartphone em casa, mas não pode apagar seu rosto e não pode deixá-lo em casa", diz o especialista em reconhecimento facial Álvaro Bedoya, diretor executivo da Georgetown Centro de Direito em Privacidade e Tecnologia em uma entrevista recente para o USA Today. O reconhecimento facial é uma ferramenta de autenticação biométrica que não requer consentimento.
Um número crescente de associações de liberdades civis e privacidade, incluindo a ACLU, a Human Rights Watch, a Electronic Frontier Foundation e o Big Brother Watch no Reino Unido, estão exortando os perigos do uso do reconhecimento facial que viola as liberdades civis e os direitos civis. 40 associaçõe enviaram uma Carta de Coalizão à Amazon sobre o Sistema de Reconhecimento Facial, Rekognition exigindo que a Amazon pare de permitir que os governos usem o AWS Rekognition. A Amazon apresentou o Rekognition em 2016 como parte de seu negócio de nuvem da Amazon Web Services. O Facebook também enfrenta uma ação coletiva na Califórnia por causa do uso do reconhecimento facial sob o Biometric Information Privacy Act, enquanto 6 dos 10 resultados da primeira página para a pesquisa do Google sobre "Facebook Face Recognition" são sobre desligar a característica de reconhecimento facial, indicando uma desconfiança pública da tecnologia.
A tecnologia existe há muitos anos e tem uma pontuação alta em conjuntos de treinamento padronizados. No entanto, as condições do mundo real oferecem um conjunto particular de desafios. Por exemplo, variações de face de uma mesma pessoa podem ser maiores do que variações entre pessoas diferentes devido a poses. Variações nas iluminações, expressões, idade e oclusões, como óculos ou chapelaria, também dificultam a identificação. As fotos frontais das pessoas também não estão sempre disponíveis, e o uso de fotos de outros ângulos adiciona mais etapas de alinhamento ao processo. Uma ilustração da dificuldade em generalizar experimentos de laboratório para viver multidões é ilustrada pelo recente uso de reconhecimento facial pela Polícia Metropolitana do Reino Unido durante festivais, o que resultou em mais de 95% dos casos sendo falsos positivos.
Para ser confiável, a identificação facial requer grandes conjuntos de dados de treinamento e poderosos modelos correspondentes. O Google e o Facebook tem acesso a grandes conjuntos de dados proprietários construídos com as fotos que as pessoas enviam para suas plataformas. Grandes conjuntos de dados de código aberto também estão disponíveis publicamente. O conjunto de dados Labeled Faces in the Wild (LFW), lançado em 2007, contém 13k de imagens frontais de 6k pessoas. O MS-Celeb-1M é atualmente o maior conjunto de dados de reconhecimento facial para celebridades, contendo 10 milhões de imagens das principais celebridades do 10K, enquanto o MegaFace inclui 4,7 milhões de fotos de 670K indivíduos diferentes no conjunto de treinamento com 1 milhão de distratores.
No geral, o reconhecimento facial é um processo de três etapas: localização, normalização e reconhecimento. O sistema inicia localizando e contornando faces em imagens. A normalização alinha as fotos originais para aproximá-las de uma versão frontal. O módulo de reconhecimento facial é então aplicado a essas faces reposicionadas. Uma variação na etapa de normalização aumenta o espaço-alvo gerando várias representações de uma foto frontal para simular diferentes poses. Um exemplo de uma técnica de aumento consiste em reconstruir modelos 3D a partir de uma imagem 2D para gerar variações na pose e projetar de volta as variações em 2D.
Desde os anos 90, o reconhecimento facial mudou do reconhecimento baseado em recursos locais feitos manualmente para o uso de modelos otimizados de aprendizagem profunda. O modelo Deepface do Facebook, treinado no conjunto de dados LFW, foi o primeiro modelo a atingir o desempenho humano. Redes neurais convolucionais classicas (CNNs) e arquiteturas como AlexNet, VGGNet, GoogleNet e ResNet são amplamente utilizadas como modelo básico o reconhecimento facial. Esses modelos são então adaptados para reconhecimento facial com função de ativação e funções de perda especificamente projetadas para promover discriminação e generalização. Face ++, MegaFace, FaceNet são outros modelos de redes neurais projetados especificamente para reconhecimento facial.
Os desafios atuais no reconhecimento facial incluem alcançar robustez para variações de faces entre poses cruzadas e idades cruzadas, usando esboços de fotos em vez de fotos reais, manuseando fotos de baixa resolução e sendo impermeável a oclusões, técnicas de maquiagem e spoofing.