Escolhido como o melhor emprego na América para 2016, a definição e o conjunto de habilidades necessárias para ser um cientista de dados estão em constante modificação. Os avanços tecnológicos e a demanda de negócios impulsionam a evolução de uma indústria em constante mudança. Este artigo apresenta uma visão mais detalhada sobre o papel de um cientista de dados em 2016.
Dave Holtz escreve que o título de "cientista de dados" é muitas vezes usado como um título genérico para descrever um conjunto de trabalhos que são completamente distintos. Segundo Dave Holtz, a falta de uma definição mais precisa é resultado da ciência de dados ainda estar em sua infância. Adotando o subtítulo abrangente de um "campo interdisciplinar", um cientista de dados trabalha para extrair conhecimento ou "insights" de grandes volumes de dados representados em diversos formatos.
Esta é a era do Big Data e ele veio para ficar. Com mais dados sendo coletados do que nunca, extrair valor a partir desses dados torna-se cada vez mais complexo. A lógica por trás da economia de Big Data é moldar nossas vidas de maneiras que não se pode sequer conceber ou prever; cada movimento eletrônico que fazemos produz uma estatística e insights sobre a nossa vida.
Como participantes da economia de consumo, os dados resultantes da conexão com um website ou o uso de um serviço eletrônico são minerados, e um cientista de dados está presente para coletar, limpar, analisar e traçar previsões através da combinação da ciência da computação, análise estatística e conhecimentos complexos de negócio.
A Figura 1 mostra os conjuntos de habilidades necessárias para um cientista de dados. As responsabilidades deste cientista resultam da combinação de vários conjuntos de habilidades e conhecimentos, fato que o diferencia de um típico desenvolvedor Big Data ou analista de negócios.
Figura 1. Habilidades necessárias para um cientista de dados.
O que diferencia um cientista de dados dos demais profissionais de dados?
Rivera e Haverson sugerem que os profissionais de dados são focados em eventos e interpretações de dados históricos, enquanto os cientistas de dados tendem a ser mais matematicamente focados em fornecer uma visão sobre padrões futuros, identificados a partir de dados históricos e atuais. Ao considerar o significado literal da palavra "ciência" que representa o conhecimento adquirido através do estudo sistemático; e da palavra "dados" que representa um conjunto de informação de variáveis qualitativas ou quantitativas, um cientista de dados pode ser definido literalmente como o profissional que estuda sistematicamente a organização e as propriedades da informação. Como descrito por Anjul Bhambari em o papel de um cientista de dados, um cientista de dados atua como um analista e também como um artista, de forma a revolucionar a maneira como os dados são analisados e utilizados.
A crescente demanda por cientistas de dados
O sucesso do LinkedIn é um excelente exemplo dos benefícios que os cientistas de dados estão trazendo para inteligência de negócios. Como uma empresa que depende quase exclusivamente dos dados transferidos de seus 380 milhões de usuários que se conectam uns com os outros, o LinkedIn está utilizando esses profissionais com a formação e a curiosidade para fazer descobertas no mundo de Big Data.
O LinkedIn, ao lado de outras indústrias do conhecimento de grande porte como Facebook e Google, estão utilizando o papel dos cientistas de dados para estruturar grandes quantidades de dados, e assim, determinar a significância dos valores e das relações sistemáticas entre as variáveis.
Uma recente pesquisa realizada pela KPMG revela que 99% dos entrevistados pensavam que análise de Big Data era importante para sua estratégia no próximo ano. Em uma época na qual se espera que até 2020, os dados empresariais ultrapassem diariamente 240 exabytes, a necessidade de cientistas com as competências necessárias para extrair informações valiosas a partir destes dados é mais importante do que nunca. No entanto, um artigo escrito por Travis Wright para o Venture Beat sugere que a demanda por cientistas de dados é superior a oferta destes profissionais. Além disso, relata que as empresas americanas precisarão contratar entre 140.000 e 190.000 cientistas de dados para que possam manter-se como a nova economia de dados.
Ironicamente, há um grande conflito a respeito do salário médio dos cientistas de dados, no entanto, o que está claro é que o salário médio tende a ser inerentemente concomitante com a demanda de alto nível para os cientistas de dados. Os empregadores estão solicitando candidatos com experiência em algoritmos de mineração de dados, fluentes em linguagens como R e Python, com experiência em grandes bases de dados (SQL ou similares), experiência em programação de aplicações em Java e manipulação de bancos de dados NoSQL (para citar cerca de 10% de uma especificação de trabalho), somado com a capacidade de comunicar tudo isso a um público não técnico. Considerando essas exigências, um salário anual médio de aproximadamente 120.000,00 dólares não parece muito longe da realidade.
O papel de um cientista de dados
Mesmo havendo uma intersecção entre os papéis dos cientistas de dados com os demais profissionais convencionais, existem algumas diferenças que se destacam. Um analista convencional de dados ou arquiteto pode extrair informações de grandes conjuntos de dados. No entanto, esses profissionais dependem das consultas SQL e dos pacotes de software de análise utilizados para segmentar esses conjuntos de dados. Através de um conhecimento avançado de aprendizado de máquina e programação/engenharia, cientistas de dados podem manipular dados com mais autonomia e explorar com uma visão mais profunda. Sendo assim, os cientistas de dados não são dependentes desses pacotes de software.
Enquanto um analista convencional de dados olha para o passado, um cientista de dados deve ir mais além e olhar para o futuro. Através da aplicação de métodos estatísticos avançados e da modelagem de dados complexos, os cientistas são capazes de descobrir padrões e fazer previsões futuras.
As habilidades necessárias para um cientista de dados
A execução de uma análise de dados implica em limpar, integrar e transformar os dados. Dessa forma, os cientistas de dados devem possuir as habilidades necessárias para executar estas etapas. Ao combinar uma formação científica com habilidades computacionais e analíticas, pode-se considerar o profissional em um quartil superior. A Figura 2 mostra as áreas de atuação da disciplina de ciência de dados.
Figura 2. Áreas de atuação da disciplina de ciência de dados
Ainda a respeito das habilidades necessárias para atuar como cientista de dados, Mark van Rijmenam, CEO da Data Floq, recomenda que estes profissionais tenham as seguintes habilidades: estatística, matemáticas e ética, bem como um elevado grau de experiência em modelagem preditiva, a fim de construir os algoritmos necessários para fazer as perguntas certas e encontrar as respostas desejadas.
Ferris Jumah do LinkedIn vai mais longe em sua lista, apesar da enorme variedade de habilidades e diferentes papéis de trabalho, um cientista de dados deve:
- Olhar para os dados através de uma perspectiva matemática. É fundamental adquirir as habilidades referentes a aprendizagem de máquina, mineração de dados, análise de dados e estatística. Um cientista de dados deve interpretar e representar dados matematicamente.
- Usar uma linguagem padrão para acessar, explorar e modelar os dados. O conhecimento de uma linguagem de programação estatística é fundamental. Linguagens como R, Python ou MATLAB, e uma linguagem de consulta de banco de dados como SQL são algumas das habilidades mais populares. A extração e exploração de dados e testes de hipóteses, são fundamentais para a prática da ciência de dados.
- Desenvolver um forte background em ciência da computação e engenharia de software. Isso envolve o desenvolvimento de um conjunto de habilidades que poderia incluir Java, C++ ou conhecimento de algoritmos e Hadoop.
Ferramentas de um cientista de dados
Ao contrário de um programador típico, que utiliza um conjunto ferramentas padronizadas, os cientistas de dados tendem a usar uma grande variedade de ferramentas que estão sempre em mudança. Isso ocorre porque a ciência de dados está evoluindo rapidamente, com muitas e novas ferramentas ainda longe da maturidade. A seguir, é apresentada uma série de ferramentas populares e alinhadas às práticas específicas para os cientistas de dados:
Análise de dados:
Aqui, as ferramentas representam apenas as linguagens de programação que um cientista de dados utiliza para extrair e analisar dados. As linguagens tipicamente utilizadas são: Python, R e SQL.
Data Warehousing:
A extração e analise de dados pode utilizar como fonte um banco de dados relacional. MySQL é um dos SGBD (Sistemas de Gerenciamento de Banco de Dados) mais populares para lidar com conjuntos de dados de tamanho médio. Movendo-se para os domínios de Big Data, os cientistas de dados se voltam para opções como Hive ou Redshift. Além disso, é surpreendente o quão longe a maioria dos cientistas de dados podem chegar com um simples arquivo CSV.
A visualização de dados:
As ferramentas para visualização de dados mais mencionadas são: D3.js e Tableau. Com o D3.js, um cientista de dados pode realizar diversas visualizações de dados. Tableau é a ferramenta mais popular para visualização de dados. O Tableau permite que dados compilados provenientes de centenas de entradas sejam transformados facilmente em visualizações.
Aprendizagem de máquina:
Esta é talvez a área com o maior número de novas ferramentas. A ferramenta mais estabelecida e amplamente utilizada é o Scikit-learn, que utiliza Python para a aprendizagem de máquina. Além disso, há o Spark MLlib, que é a biblioteca de aprendizagem de máquina do Apache Spark e do Hadoop.
Sobre o autor
Ed Jones trabalha para Firebrand Training, uma aceleradora de TI e fornecedora de treinamentos em Gerenciamento de Projetos. Ele tem trabalhado nos últimos 4 anos em treinamentos e certificações para indústrias de TI. É um entusiasta de tecnologia com experiência em SharePoint, Windows Server e Windows desktop.