Pontos Principais
- Algoritmos de aprendizagem profunda estão sendo usados cada vez mais para tomar decisões importantes, como na contratação e demissão de funcionários e no sistema de justiça criminal;
- O aprendizado de máquina pode realmente ampliar o preconceito. Os pesquisadores descobriram que 67% das imagens de pessoas cozinhando eram mulheres, mas o algoritmo rotulou 84% dos cozinheiros como sendo mulheres;
- O Pro Publica concluiu que a taxa de falsos positivos eram quase duas vezes maior para réus negros (taxa de erro de 45%) do que para os réus brancos (24%);
- Buolamwini e Gebru descobriram em sua pesquisa que classificadores de Aprendizagem de Máquina funcionava melhor com homens do que com mulheres, e melhor em pessoas de pele clara do que pessoas de pele escura;
- As regulamentações de IA, como a Lei de Discriminação e Emprego sobre a Idade, de 1967 e a Lei de Igualdade de Oportunidades de Crédito, não são perfeitas, mas são melhores do que não ter qualquer proteção.
Este artigo é baseado na palestra de Rachel Thomas, "Analisando e Prevenindo o preconceito inconsciente na Aprendizagem de Máquina" apresentado na QCon.ai 2018. Thomas trabalha na fast, um laboratório de pesquisa sem fins lucrativos que possui parceria com o Instituto de Dados da Universidade de São Francisco em fornecer treinamento em aprendizado profundo para a comunidade de desenvolvedores. O laboratório oferece um curso gratuito chamado "Prática em Aprendizado Profundo para Programadores".
Thomas discutiu o preconceito no aprendizado de máquina, suas fontes e como evitá-los em três estudos de caso.
Estudo de caso 1: Software para sistemas de contratação, demissão e justiça criminal
Algoritmos de aprendizagem profunda estão sendo cada vez mais usados para tomar decisões impactantes, como na contratação e demissão de funcionários e no sistema de justiça criminal. O preconceito na codificação traz armadilhas e riscos para o processo de tomada de decisão.
O Pro Publica em 2016 investigou o algoritmo de reincidência COMPAS que é usado para prever a probabilidade de um preso ou criminoso acusado cometer novos crimes caso liberado. O algoritmo é usado para conceder fiança, sentenciar e determinar a liberdade condicional. O Pro Publica descobriu que a taxa de falsos positivos (rotulado como "alto risco", mas não reincidente) foi quase duas vezes maior para réus negros (taxa de erro de 45%) do que para réus brancos (24%).
A etnia não era uma variável explícita inserida nesse algoritmo, mas etnia e gênero são codificados latentemente em muitas outras variáveis, como onde moramos, nossas redes sociais e nossa educação. Mesmo em um esforço consciente para não levar em consideração a etnia ou gênero, não garante a falta de preconceito - supondo que a deficiência visual não funcione. Apesar das dúvidas sobre a precisão do COMPAS, o Supremo Tribunal de Wisconsin confirmou seu uso no ano passado. Thomas argumentou que é horrível que ainda esteja em uso.
É importante ter uma boa base para saber quando um desempenho é bom e ajudar a indicar um modelo mais simples que pode ser mais eficiente. Só porque algo é complicado não significa que funcione. O uso de inteligência artificial (IA) para o policiamento preditivo é uma preocupação.
A Taser adquiriu duas empresas de IA no ano passado e está oferecendo um software preditivo para departamentos de polícia. A empresa detém 80% do mercado das câmeras corporais utilizadas por policiais nos EUA, então eles têm muitos dados de vídeo. Além disso, o Verge revelou em fevereiro que a polícia de Nova Orleans tem utilizado o software de policiamento preditivo da Palantir nos últimos seis anos em um programa altamente secreto que até mesmo os membros do conselho da cidade não sabiam. Aplicativos como esses são preocupantes porque não há transparência. Por serem empresas privadas, não estão sujeitas às leis estaduais/públicas da mesma maneira que os departamentos de polícia. Muitas vezes, eles são protegidos no tribunal por terem que revelar o que estão fazendo.
Além disso, há muitos preconceitos raciais nos dados policiais existentes, de modo que os conjuntos de dados dos quais esses algoritmos aprenderão serão tendenciosos desde o início.
Finalmente, repetidas falhas da visão computacional ocorreram ao trabalhar com pessoas negras. Thomas disse que esta é uma combinação assustadora de coisas para dar errado.
Estudo de caso 2: visão computacional
A visão computacional costuma ser ruim para reconhecer pessoas negras. Um dos exemplos mais infames vem de 2015. O Google Fotos, que classifica automaticamente as fotos, classificou fotos de formaturas e imagens de edifícios de maneira útil. Ele também rotulou pessoas negras como gorilas.
Em 2016, o site Beauty.AI que usava robôs com IA como juízes em concursos de beleza, descobriu que pessoas com pele clara eram julgadas muito mais atraentes do que pessoas com pele escura. E em 2017, o FaceApp, que usa redes neurais para criar filtros para fotografias, criou um filtro de gostosura que iluminou a pele das pessoas e deu-lhes mais recursos europeus. Rachel mostrou um tweet do rosto real de um usuário e uma versão mais sexy dele que o aplicativo criou.
Thomas falou sobre um trabalho de pesquisa de Joy Buolamwini e Timnit Gebru, que avaliaram vários classificadores comerciais de visão computacional da Microsoft, IBM e Face++ (uma empresa chinesa). Eles descobriram que os classificadores trabalham melhor em homens do que em mulheres, e melhor em pessoas com pele clara do que pessoas com pele escura. Há uma lacuna muito perceptível: a taxa de erro para homens de pele clara é essencialmente 0%, mas varia entre 20% e 35% para as mulheres de pele escura. Tanto Buolamwini como Gebru também analisaram as taxas de erro para as mulheres por tom de pele. Erros aumentaram com a escuridão da pele. A categoria da pele mais escura apresentava taxas de erro de 25% e 47%.
Estudo de caso 3: incorporando palavras
O terceiro estudo de caso de Thomas é a incorporação de palavras em produtos como o Google Tradutor.
Considere um conjunto de frases como "Ela é médica. Ele é enfermeiro.". Então use o Google Tradutor para traduzi-los para o Turco e depois traduzi-los de volta para o Inglês. Os gêneros misturados e as frases passam a dizer: "Ele é médico. Ela é uma enfermeira.". O Turco tem um pronome singular neutro de gênero que se traduz em um estereótipo no Inglês. Isso acontece com outras linguagens que têm pronomes singulares que são neutros em relação ao gênero. Foi documentado, por várias palavras, que os estereótipos de tradução sustentam que as mulheres são preguiçosas, que as mulheres são infelizes e muitas outras características.
Thomas explicou o motivo de isto acontecer. Computadores e aprendizado de máquina tratam imagens e palavras como números. A mesma abordagem é usada para o reconhecimento de fala e criação de legendas de imagens. A maneira como esses algoritmos funcionam é que eles pegam uma imagem fornecida e emitem algo como "um homem de camisa preta está tocando guitarra" ou "operário de colete laranja está trabalhando na estrada". O mesmo mecanismo sugere automaticamente respostas a e-mails de produtos como uma Resposta Inteligente do Google: se alguém perguntar sobre seus planos de férias, a Resposta Inteligente sugere que se diga "Nenhum plano ainda" ou "Acabei de enviá-los para você".
Thomas falou sobre um exemplo no curso da fast.ai: "Prática em Aprendizado Profundo para Codificadores". Neste exemplo, podemos fornecer palavras e recuperar uma imagem. Dado às palavras "tenca" (um tipo de peixe) e "rede" ele retorna uma imagem de uma tenca em uma rede. Esta abordagem passa por diversas palavras e não dá qualquer noção do significado dessas palavras serem semelhantes. Então, "gato" e "catástrofe" pode ser um número sequencial, mas não há qualquer tipo de relação semântica entre eles.
Uma abordagem melhor é representar as palavras como vetores. Os recursos incorporados nas palavras são representados como vetores de alta dimensão. Ela deu um exemplo de "gatinho", "filhote" e "patinho", que podem estar todos próximos uns dos outros no espaço, porque todos são filhotes de animais. Mas o vetor da "avalanche" pode estar longe, já que não há conexão real entre eles.
Para mais informações sobre vetores de palavras, consulte "O incrível poder dos vetores de palavras", de Adrian Colyer.
Word2Vec
Word2Vec é uma biblioteca de recursos incorporados de palavras lançado pelo Google. Existem outras bibliotecas semelhantes, como o fastText do Facebook, e o GloVe do Grupo de Processamento de Linguagem Natural da Universidade de Stanford. É preciso muito tempo, dados e poder computacional para treinar essas bibliotecas, por isso é útil que esses grupos já tenham feito isso antes de lançar suas bibliotecas para uso público. É muito mais fácil de usá-la já que esta é uma versão já treinada. O código para os três projetos está disponível no GitHub, assim como o workshop de incorporação de palavras do Thomas. É possível executar seu programa usando o Jupyter Notebook e experimentar palavras diferentes.
Os vetores de palavra para palavras semelhantes como "filhote" e "cachorro" ou "rainha" e "princesa" estão mais próximos no eixo. E, claro, palavras não relacionadas como "celebridade" e "poeira" ou "gatinho" e "avião" estão mais distantes. O programa usa uma semelhança de coseno, não a distância euclidiana, já que não se deseja usar a distância euclidiana em altas dimensões.
Essa solução pode ser usada para capturar algo sobre idioma. Também é possível encontrar as 10 palavras mais próximas de uma palavra-alvo específica. Por exemplo, se procurar as palavras mais próximas a "nadar", receberá palavras como: "natação", "remo", "mergulho", "vôlei", "ginástica" e "piscina". Analogias de palavras também são úteis. Eles captam coisas como "a Espanha é para Madri, como a Itália é para Roma". No entanto, há muitas oportunidades de preconceito aqui. Por exemplo, a distância entre "homem" e "gênio" é muito menor que a distância entre "mulher" e "gênio".
Os pesquisadores estudaram cestas de palavras de forma mais sistemática. Eles pegavam uma cesta ou grupo de palavras, como todas as flores: trevo, papoula, calêndula, iris, etc. Outra cesta eram insetos: gafanhoto, aranha, percevejo, larva, etc. Eles tinham uma cesta de palavras agradáveis (saúde, amor, paz, alegria, etc.) e uma cesta de palavras desagradáveis (abuso, sujeira, assassinato, morte, etc.). Os pesquisadores analisaram as distâncias entre essas diferentes cestas de palavras e descobriram que as flores estavam mais próximas de palavras agradáveis e os insetos estavam mais próximos de palavras desagradáveis.
Tudo isso parece razoável até agora, mas depois os pesquisadores analisaram nomes estereotipicamente de pessoas negras e nomes estereotipicamente de pessoas brancas. Eles descobriram que os nomes dos negros estavam mais perto de palavras desagradáveis e os nomes dos brancos estavam mais perto de palavras agradáveis, o que é um preconceito. Eles encontraram uma série de preconceitos raciais e de gênero entre grupos inteiros de palavras, o que produziu analogias como "pai é médico como mãe é enfermeira", "homem é programador de computador como mulher é dona de casa". Estas são todas as analogias encontradas no Word2Vec e no GloVe.
Thomas falou sobre outro exemplo de preconceito em um sistema de resenhas de restaurantes que classificava os restaurantes mexicanos como inferiores, porque palavras incorporadas para "Mexicano" tinha conotações negativas. Estas incorporações de palavras são treinadas com uma quantia gigante de textos. Esses textos contêm muitos preconceitos raciais e de gênero, pois a palavra incorporada aprende com estas associações ao mesmo tempo em que aprendem os significados semânticos que queremos que eles saibam.
O aprendizado de máquina pode amplificar o preconceito
O aprendizado de máquina pode realmente ampliar o preconceito. Um exemplo disso é discutido em "Os homens também gostam de fazer compras: Reduzir a amplificação do preconceito de gênero usando restrições de nível de corpus", que analisou a rotulação semântica de imagens em um conjunto de dados. Os pesquisadores descobriram que 67% das imagens de pessoas que cozinhavam eram mulheres, mas o algoritmo encontrou 84% dos cozinheiros como sendo mulheres. Existe o risco de algoritmos de aprendizado de máquina amplificar o que vemos no mundo real.
Thomas mencionou a pesquisa de Zeynep Tufekci, que forneceu descobertas sobre a intersecção entre tecnologia e sociedade. Tufekci twittou que "o número de pessoas que me dizem que a reprodução automática do YouTube termina com vídeos de supremacia branca de todos os pontos de partida é bastante surpreendente". Exemplos incluem:
- "Eu estava assistindo a um vídeo de soprador de folhas e três vídeos depois, era a supremacia branca";
- "Eu estava assistindo a uma discussão acadêmica sobre as origens da escravidão agrícola e o próximo vídeo foi de negadores do holocausto";
- "Eu estava assistindo a um vídeo com minhas filhas sobre Nelson Mandela e o próximo vídeo foi algo dizendo que os negros na África do Sul são os verdadeiros racistas e criminosos".
É assustador.
Renée DiResta, especialista em desinformação e como a propaganda se espalha, notou há alguns anos que ao se juntar a um grupo anti-vacina no Facebook, o site também recomendaria grupos sobre curas naturais de câncer, rastros deixados pelas fumaças dos aviões da esquadrilha da fumaça, Terra plana e de todos tipos de grupos anti-ciência. Essas redes estão fazendo muito para promover esse tipo de propaganda.
Thomas mencionou um artigo de pesquisa sobre como os laços de devolutivas descontroladas podem funcionar no policiamento preditivo. Se um software ou uma análise predizer que haverá um alto índice de crimes em uma área, a polícia pode mandar mais policiais para lá - mas porque há mais policiais lá, eles podem fazer mais prisões, o que pode nos levar a pensar que há mais crimes lá, o que nos leva a enviar ainda mais policiais para lá. Podemos entrar facilmente neste ciclo de devolutivas descontroladas.
Thomas sugeriu que precisamos realmente pensar sobre a ética de incluir certas variáveis em nossos modelos. Embora possamos ter acesso aos dados, e mesmo que esses dados melhorem o desempenho do nosso modelo, é ético usar? Está de acordo com nossos valores como sociedade? Até mesmo os engenheiros precisam fazer perguntas éticas sobre o trabalho que fazem, e devem ser capazes de responder questões éticas sobre o assunto. Vamos ver menos e menos tolerância da sociedade para isso.
Angela Bassa, diretora de ciência de dados da iRobot, disse: "Não é que os dados possam ser tendenciosos. Os dados são tendenciosos. Se quiser usar dados, é necessário entender como eles foram gerados".
Tratando o preconceito em palavras incorporadas
Mesmo se removermos o preconceito no início do desenvolvimento do modelo, existem tantos lugares em que o preconceito pode se infiltrar, que é necessário continuar procurando.
Conjuntos de dados mais representativos podem ser uma solução. Buolamwini e Gebru identificaram as falhas de preconceito nos produtos de visão computacional mencionados anteriormente e reuniram um conjunto de dados muito mais representativo de homens e mulheres com todos os diferentes tons de pele. Este conjunto de dados está disponível em Gender Shades. O site também oferece o trabalho acadêmico deles e um pequeno vídeo sobre seus trabalhos.
Gebru e outros publicaram recentemente um artigo chamado "Datasheets for Datasets". O artigo fornece um conjunto de dados para registrar características e metadados que revelam como um conjunto de dados foi criado, como ele foi composto, que tipo de pré-processamento foi feito, que tipo de trabalho é necessário para mantê-lo e quaisquer considerações legais ou éticas. É muito importante entender os conjuntos de dados usados na criação dos modelos.
Thomas enfatizou que é nosso trabalho pensar em consequências não intencionais com antecedência. Pense em como certas criaturas ou assediadores ou governos autoritários poderiam usar uma plataforma que construímos. Como nossa plataforma poderia ser usada para propaganda ou desinformação? Quando o Facebook anunciou que começaria a usar sua modelagem de ameaças, muitas pessoas perguntaram por que isso não acontecia nos últimos 14 anos.
Há também um argumento para não armazenar dados de que não precisamos para que ninguém possa pegar esses dados.
Nosso trabalho é pensar em como o software pode ser mal utilizado antes que aconteça. A cultura do campo da segurança da informação é baseada nisso. Precisamos começar a pensar mais em como as coisas podem dar errado.
Perguntas a serem feitas sobre a IA
Thomas listou algumas perguntas para perguntar sobre a IA:
- Qual preconceito está nos dados? Existe algum preconceito em todos os dados e precisamos entender o que é e como os dados foram criados;
- O código e os dados podem ser auditados? Eles são de código aberto? Há um risco quando algoritmos proprietários de código fechado são usados para decidir coisas de saúde e justiça criminal e quem é contratado ou demitido;
- Quais são as taxas de erro para os diferentes subgrupos? Se não tivermos um conjunto de dados representativos, talvez não percebamos que nosso algoritmo está tendo um desempenho ruim em algum subgrupo. O tamanho das amostras são grandes o suficiente para todos os subgrupos em seu conjunto de dados? É importante verificar isso, assim como o Pro Publica fez com o algoritmo de reincidência que analisou a corrida;
- Qual é a precisão de uma alternativa simples baseada em regras? É muito importante ter uma boa linha de base, e essa deve ser a primeira etapa sempre que estivermos trabalhando em um problema, porque se alguém perguntar se 95% de precisão é boa, precisamos ter uma resposta. A resposta correta depende do contexto. Isso surgiu com o algoritmo de reincidência, que não era mais eficaz do que um classificador linear de duas variáveis. É bom saber o que é essa alternativa simples;
- Quais processos estão em vigor para lidar com recursos ou erros? Precisamos de um processo de apelo humano para coisas que afetam a vida das pessoas. Como profissionais, temos relativamente mais poder em fazer essas perguntas em nossas empresas;
- Quão diversificada é a equipe que a construiu? As equipes que constroem a tecnologia devem ser representadas por pessoas que serão afetadas por ela, o que cada vez mais é de todos.
Pesquisas mostram que equipes diferentes têm um desempenho melhor e acreditam que somos meritocráticos, pode realmente aumentar o preconceito. Leva um tempo e esforço para fazer entrevistas de forma consistente. Uma boa referência para isso é o post do blog intitulado "Fazendo pequenas mudanças culturais" por Julia Evans.
A tecnologia avançada não é um substituto para uma boa política. Thomas falou sobre os estudantes da fast.ai de todo o mundo que estão aplicando o aprendizado profundo a problemas sociais, como salvar florestas tropicais ou melhorar o atendimento de pacientes com mal de Parkinson.
Existem regulamentos de IA, como o Ato de Discriminação e Emprego, de 1967, e o Ato de Igualdade de Oportunidade de Crédito, que são relevantes. Estes não são perfeitos, mas são melhores do que não ter qualquer proteção, uma vez que realmente precisamos pensar sobre quais direitos, como sociedade, queremos proteger.
Thomas concluiu sua palestra dizendo que nunca pode ser caracterizado pelo preconceito. Podemos seguir alguns passos em direção às soluções, mas o preconceito pode se infiltrar em muitos lugares. Não há uma lista de verificação que assegure que o preconceito esteja em jogo e não tenhamos mais com o que nos preocupar. É algo que sempre temos que continuar procurando.
Sobre o autor
Srini Penchikala atualmente trabalha como arquiteto sênior de software em Austin, Texas. Penchikala tem mais de 22 anos de experiência em arquitetura, design e desenvolvimento de software. Ele também é o editor principal da comunidade de AI, ML / Data Engineering da InfoQ, que publicou recentemente seu mini-livro Processamento de Big Data com Apache Spark. Ele já publicou artigos sobre arquitetura de software, segurança, gerenciamento de riscos, NoSQL e Big Data em sites como InfoQ, TheServerSide, O'Reilly Network (OnJava), Java Zone, Java.net e JavaWorld do DevX.