BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Artigos Usuário anônimo no Twitter

Usuário anônimo no Twitter

Pontos Principais

  • Este artigo explora três objetivos de pesquisa: Medir quantos usuários do Twitter adotam pseudônimo anônimo, medir correlações entre conteúdo sensível e usuários anônimos e determinar se é possível construir classificadores automáticos que podem identificar contas sensíveis no Twitter.
  • Para medir a predominância das contas anônimas Twitter foram aleatoriamente selecionados 100.000 contas do dataset público do Twitter de 2010, contendo 41,7 milhões de contas. Para a classificação foi utilizada a Amazon Mechanical Turk.
  • Para avaliar se a sensibilidade do conteúdo corresponde com usuários que escolheram o anonimato, foram selecionados diversos tópicos em múltiplas categorias consideradas sensíveis e/ou controversas.
  • Em um período de 5 anos os pesquisadores usaram três bases de dados que foram analisadas em diferentes pontos. Além do anonimato existente nas contas do Twitter, os relacionamentos entre contas anônimas e sensíveis não mudaram nos diferentes datasets.

Este artigo apareceu primeiro na revista IEEE Seguranca / Privacidade. IEEE Seguranca / Privacidade oferece sólidas informações sobre questões estratégicas atuais em tecnologia revisadas em pares. Para conhecer os desafios de atuais confiáveis, empresas flexíveis, gerentes de TI e líderes técnicos baseados em soluções de TI Pro no estado da arte.

 

A proliferação da internet resultou no crescimento das redes sociais e fóruns de discussão. Para participar os usuários normalmente são obrigados a criar uma conta e adotar uma identidade online. Frequentemente serviços diferem nos requisitos exigidos para novos usuários. Por exemplo, o Facebook tem uma política de nomes reais, que obriga usuários a fornecer nomes verdadeiros quando criam contas.

As razões para a inclusão destas políticas são o aumento da autenticidade e melhora a qualidade do conteúdo (Isso também ajuda a reduzir o número de spam, bullying e hacking). Entretanto, defensores da privacidade reclamam que a política de utilização de nomes reais online fere a liberdade por deixar os serviços vinculados aos interesses dos usuários (refletido pelas ações dele online) ligados aos nomes deles, gerando assim informações preciosas.

O Twitter, por outro lado, embora exija que se crie um pseudônimo único, não obriga os usuários a fornecer seu nome real. Usando pseudônimos sem relacionamento com nome real ele deixa os usuários realmente anônimos (isto é, anônimo para outros usuários do serviço, não necessariamente para o provedor do serviço). A ausência da política de nomes reais fez o Twitter tornar-se um portal popular para a troca de informações onde usuários podem compartilhar e acessar sem serem identificados.

O anonimato, online e offline, tem sido amplamente estudado. Aqui, focamos especificamente em como este anonimato influencia o comportamento de usuários nas redes sociais. Conduzimos uma análise orientada a dados em larga escala no Twitter para identificar a predominância de usuário relacionado com conteúdo sensível (Para aprender mais sobre os três datasets do Twitter que utilizamos veja o quadro ao lado). Nós também exploramos a viabilidade de sistemas automatizados que nivelam os padrões de usuários anônimos para ajudar a identificar conteúdo sensível.

Através do nosso trabalho, esperamos desenvolver um profundo entendimento sobre a importância e a função do anonimato para sociedade, guiar o desenvolvimento de novas características de privacidade e anonimato existentes em futuras redes sociais online, além de, descobrir potenciais tópicos sensíveis ou controversos em redes sociais. Para facilitar a leitura iremos utilizar o termo anônimo empregado aqui com sentido comum da palavra, ao invés do pseudônimo obscuro.

Conta básica no Twitter

Toda conta do Twitter contém 4 principais partes de informação:

  • Um perfil em que o usuário fornece detalhes, incluindo ID alfanumérico que identifica a conta conhecido como nome da tela; campo de nome, que normalmente contém o nome e sobrenome do usuário; uma foto do perfil; e uma URL, que pode ser linkada com perfil de outra rede social. Perceba que os detalhes fornecidos no perfil não precisam ser verdadeiros. Por exemplo, o campo nome poderia ser preenchido com o nome falso, sobrenome falso ou ambos falsos.
  • Uma lista de tweets ou mensagens postadas pelo usuário.
  • Uma lista de amigos. Quando um usuário segue ou se torna "amigo" de outro, ele ou ela recebe tweets atualizados daquele amigo. Este relacionamento é unidirecional. Se Alice é amiga de Bob, Bob não precisa ser amigo de Alice.
  • Uma lista de seguidores. Sao outros usuários que recebem todos os tweets atualizados do usuário da conta, os chamados "Seguidores".

Nosso trabalho

Para medir a predominância das contas anônimas no Twitter, foram aleatoriamente selecionados 100,000 contas do dataset público do Twitter de 2010 contendo 41,7 milhões de contas. Depois de eliminar todas a contas desativadas, contas cujo idioma não seja Inglês, contas spam e contas inativas / efêmeras, passamos um dataset de 50,173 para Amazon Mechanical Turk (AMT) para classificação.

Classificando contas do Twitter

Fornecemos cada nome de conta e de tela do Twitter para os trabalhadores AMT, perguntando qual dos dois campos coletivamente tinha somente o primeiro nome, somente o sobrenome, ambos ou nenhum dos dois. Além disso, os trabalhadores também poderiam indicar aqueles dos quais não tinham certeza. Baseados nesta seleção AMT colocamos cada conta em uma das seguintes categorias.

  • Anônima - uma conta do Twitter sem nome, sobrenome e URL no perfil (A URL poderia indicar uma página com informações parciais e até mesmo completas sobre o usuário);
  • Parcialmente anônima - conta do Twitter com o nome ou sobrenome;
  • Identificável - conta do Twitter com ambos, nome e sobrenome do usuário; ou
  • Desclassificada - Qualquer conta do Twitter que não cai em nenhuma das categorias acima, como contas com URL mas sem nome ou sobrenome, organizacional ou empresariais.

Perceba que é difícil remover completamente o ruído na classificação de usuários. Por exemplo, uma pequena fração de contas identificadas como anônimas podem não sê-lo completamente se o usuário fornecer fotos identificáveis ou divulgar nomes em tweets. Além disso, uma fração de contas identificáveis podem ter sido efetivamente anônimas porque usuários forneceram nome e sobrenome falsos.

Quantificando usuário anônimo

Constatamos que 6% das contas analisadas eram anônimas, já que não foram divulgados nome ou sobrenome. Outros 20% eram parcialmente anônimas, divulgando somente o nome ou sobrenome. Isso mostra que anonimato online é importante para pelo menos ¼ da população do Twitter e uma política que deixa de exigir o nove real pode ser um forte indício para a venda da rede social. Do restante das contas, 6% foram desclassificadas e 68% eram identificáveis. Claro, que neste último caso alguns usuários identificáveis podem ter usado nome e sobrenome falso, logo, seriam anônimos. Isto mostra que 26% de usuários na categoria que não divulga a identidade no Twitter foi abaixo do estimado.

Usuário anônimo e conteúdo sensível

Avaliando se o conteúdo sensível se relaciona com usuários que preferem estar anônimos, selecionamos diversos tópicos em múltiplas categorias consideradas sensíveis e/ou controversas como: pornografia, serviços de acompanhantes, orientação sexual, preconceito religioso e racial, drogas e armas. Para comparar também escolhemos diversas categorias não-sensíveis como: sites de notícias, recreação familiar, cinema e teatro, infantil além de empresas e organizações que produzem conteúdo familiar. Para cada categoria identificamos poucos termos de busca distintos e selecionamos manualmente contas que apareceram quando pesquisamos aqueles termos na página do Twitter.

Figura 1. Categorias sensíveis e não-sensíveis de contas no Twitter, organizadas em porcentagem decrescente de seguidores anônimos.

Selecionamos 50 contas do Twitter relacionadas às categorias sensíveis e 20 relacionadas com conteúdo não-sensível. A figura 1 mostra a porcentagem média de seguidores que estavam anônimos versus os identificáveis para cada categoria sensível e não-sensível. As categorias são organizadas da maior para menor porcentagem de seguidores anônimos.

Categorias sensíveis tiveram maior porcentagem de usuários anônimos: pelo menos 21.6% dos usuários seguindo pornografia, maconha, islamofobia e contas gays/lésbicas eram contas anônimas, tendo pornografia os maiores números de seguidores anônimos com 37.3%. Entretanto, algumas categorias sensíveis como supremacia branca e armas surpreendente tiveram alta porcentagem de seguidores identificáveis. Aparentemente alguns tipos de conteúdo sensível gera sigilo, enquanto outras encorajam maior abertura. Esta observação reafirma que conteúdo sensível tem nuances e é complexo.

Mesmo categorias não-sensíveis tiveram de 6.6% até 8.9% de seguidores anônimos. Esta observação confirma que usuários não criam perfil anônimo com o único propósito de seguir contas com conteúdo sensíveis. Para evitar manter múltiplos perfis, um usuário anônimo pode seguir ambas as contas sensíveis e não-sensíveis usando o mesmo perfil, postando seus interesses no Twitter.

Detectando contas sensíveis automaticamente

Um caminho para identificar contas sensíveis é especificar categorias de tópicos sensíveis, identificar palavras que normalmente aparecem quando discutimos estes tópicos e em seguida buscar tweets e contas que empregam estas palavras. Entretanto esta abordagem é altamente subjetiva porque isso depende de humanos para determinar a sensibilidade de tópicos e palavras.

Outra abordagem para aplicar técnicas de identificação automática como a alocação latente Dirichlet (LDA) para tweets. Ela permite identificar contas relacionadas com temas sensíveis. Entretanto, como técnicas são recursos altamente intensivos e não podem escalar ao tamanho do Twitter, investigamos os padrões do usuário anônimo que estávamos observando e se sua relação com conteúdo sensível poderia ser nivelado para desenvolver meios eficientes e automatizados de identificar contas que tuitam conteúdos sensíveis. Esta abordagem seria mais generalista e cobriria tópicos não previstos, não seria limitada por questões de idioma e poderia ser facilmente escalável.

Primeiramente consideramos o sub-problema de determinar automaticamente se uma conta do Twitter era anônima ou identificável. Confiamos nas contas anteriormente classificadas pelo Twitter para treinos. Pelo fato de contas anônimas e identificáveis se diferenciarem na presença de nome e sobrenome capturamos as listas públicas dos mesmos a partir do Censo dos EUA e da Social Security Administration. Entretanto, simplesmente verificando as ocorrências anônimas e identificáveis nas listas de nomes resultaram em taxas muito pobres. Então extraímos informações adicionais disponibilizadas por perfis no Twitter, como ranking de popularidade que mostram nome e sobre nome em listas públicas, texto de nome seguindo estrutura padrão como PrimeiroNome, NomeDoMeio e UltimoNome ("FirstName MiddleInitial LastName"), números de amigos, seguidores, tweets e assim por diante.

Usando estas características extraídas treinamos uma floresta aleatória baseada em machine learning mais sofisticada e anônima que precisamente detecta contas anônimas e identificáveis com mais de 90% de precisão. Depois disso, baseado na fração de seguidores anônimos e identificáveis detectados pelo nosso classificador anônimo acerca das conhecidas 70 contas sensíveis e não-sensíveis estudadas antes, desenvolvemos um máquina de suporte a vetor baseado em classificação de sensibilidade que pode separar contas sensíveis e não-sensíveis no Twitter.

Para o nosso teste de classificação de sensibilidade rastreamos o Twitter e capturamos exemplos aleatórios de 100,000 contas com aproximadamente 404 milhões de seguidores ativos. Aplicamos nosso classificador nestas contas rotulando os seguidores como anónimos ou identificáveis.

A inspeção manual mostrou que principais contas determinadas como sensíveis por nosso classificador estavam discutindo temas que muitos certamente consideram sensíveis como: pornografia, drogas e conteúdo adulto. Entretanto somados a estes suspeitos comuns, nossa abordagem deixou de de cobrir muitas contas relacionadas a temas desejados enfatizando que o anonimato tem muitos fins.

Por exemplo, identificamos muitas contas apoiando e lutando por lesbicas, gays, bissexuais, transgêneros e direitos homosexuais. Divulgar uma orientação sexual é uma questão sensível para muitos e portanto usuários podem preferir não se identificar. Encontramos contas onde usuários discutiam abertamente sobre relacionamentos e questões conjugais, compartilhando sentimentos ou experiências pessoais e questões de saúde. O anonimato pode oferecer oportunidades para pessoas pedirem ajuda ou encontrarem consolo.

Também descobrimos contas tratando sobre diversos casos de anorexia, ansiedade, depressão e tendências suicidas. Realmente algumas dessas contas postaram fotos depois de machucarem seus corpos. Enquanto estas contas possuem objetivos variados, instituições de saúde as estão utilizando como meio para chegar a pessoas que podem estar precisando de ajuda.

A existência de contas relacionadas com temas sensíveis, e o fato de elas terem muitos seguidores, suporta a tese de que privacidade e anonimato são importantes para nossa sociedade. Embora nossa metodologia de trabalho para identificar contas sensíveis no Twitter fornece escalabilidade e objetiva entender conteúdos sensíveis, pesquisas mais profundas são necessárias para melhorar as preferências de privacidade e expectativas no contexto da mídia social.

Por enquanto vale a pena explorar e quantificar quantas categorias de contas sensíveis são consistentes em diferentes aplicações sociais e quantos dependem da natureza da aplicação (como fotos compartilhadas versus mensagem). Esperamos que nossa pesquisa tenha contribuído para o melhoria de futuras políticas de privacidade e de controle.

Reconhecimentos

Este artigo é baseado em duas publicações anteriores do autor, "Na internet, ninguém sabe que você é um cachorro: Um caso de estudo sobre anonimato na rede social Twitter" (Proc. ACM Conf. Online Social Networks [COSN 14], 2014, pp. 83-94), e "Encontrando contas sensíveis no Twitter: Uma abordagem automatizada baseada em seguidores anônimos" (Proc. Int'l AAAI Conf. Web and Social Media [ICWSM 16], 2016, pp. 665-658).

Referências

  1. N. Lomas, "Facebook Users Must Be Allowed to Use Pseudonyms, Says German Privacy Regulator; Real-Name Policy 'Erodes Online Freedoms,'" Techcrunch, 18 Dec. 2012; techcrunch.com/2012/12/18 /facebook-users-must-be-allowed-to -use-pseudonyms-says-german -privacy-regulator-real-name-policy -erodes-online-freedoms.
  2. A. Kavanaugh et al., "Microblogging in Crisis Situations: Mass Protests in Iran, Tunisia, Egypt," Proc. Workshop Transnational Human-Computer Interaction (CHI 11), 2011; eventsarchive.org/sites/default/ les/Twi er Use in Iran Tunisia Egypt .Kavanaugh.Final__0.pdf.
  3. E. Mustafaraj et al., "Hiding in Plain Sight: A Tale of Trust and Mistrust inside a Community of Citizen Reporters," Proc. 6th Int'l AAAI Conf. Weblogs and Social Media (ICWSM 12), 2012, pp. 250-257.
  4. M.S. Bernstein et al., "4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community," Proc. 5th Int'l AAAI Conf. Weblogs and Social Media(ICWSM 11), 2011, pp. 50-57.
  5. D. Correa et al., " e Many Shades of Anonymity: Characterizing Anonymous Social Media Content," Proc. 9th Int'l AAAI Conf. Web and Social Media (ICWSM 15), 2015; socialnetworks.mpi-sws.org/papers/anonymity_shades.pdf.
  6. S.T. Peddinti et al., "Cloak and Swagger: Understanding Data Sensitivity through the Lens of User Anonymity," Proc. 35th IEEE Symp. Security and Privacy, 2014, pp. 493-508.
  7. H. Kwak et al., "What Is Twi er, a Social Network or a News Media?," Proc. 19th Int'l Conf. World Wide Web(WWW 10), 2010, pp. 591-600.
  8. B. Bi et al., "Scalable Topic-Speci c In uence Analysis on Microblogs," Proc. 7th ACM Int'l Conf. Web Search and Data Mining (WSDM 14), 2014, pp. 513-522.
  9. J. Jashinsky et al., "Tracking Suicide Risk Factors through Twi er in the US," Crisis, vol. 35, no. 1, 2014, pp. 51-59.

Sobre os autores

Sai Teja Peddinti é cientista e pesquisador em Segurança e Grupos de Privacidade no Google. Sua pesquisa foi feita enquanto se candidatava a PhD na Universidade de Nova York (NYU). Contato: psaiteja@ google.com.

Keith W. Ross é reitor de Engenharia e Ciência da Computação na NYU Shanghai e o Professor Titular de Ciência da Computação e Engenharia na NYU. Contate-o em: keithwross@nyu.edu.

Justin Cappos é professor assistente na Escola de Engenharia Tandon na NYU. Contate-o em: jcappos@nyu.edu.

 

Este artigo apareceu primeiro na revista IEEE Seguranca / Privacidade. IEEE Seguranca / Privacidade oferece sólidas informações sobre questões estratégicas atuais em tecnologia revisadas em pares. Para conhecer os desafios de atuais confiáveis, empresas flexíveis, gerentes de TI e líderes técnicos baseados em soluções de TI Pro no estado da arte.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT