Lançado em 2018 o Google Dataset Search deixou de ser uma versão beta neste último dia 23 de janeiro, agora a solução passa a ser oferecida com aproximadamente 25 milhões de bases de dados indexadas. Segundo a pesquisadora Natasha Noy, a ferramenta promete ajudar os analistas a encontrarem bases digitando termos simples como "ônibus" ou "ciclovias", filtrar pelo tipo de arquivo como texto, tabela ou imagens e ainda segmentar entre pagos e gratuitos. Isso foi possível pois o serviço recebeu melhorias a partir dos feedbacks recebidos na versão beta.
Termo "ônibus" com tem 37 bases de dados encontradas
Além de estar disponível para plataformas mobile, outra novidade é a possibilidade de qualquer pessoa poder disponibilizar sua própria base para que seja indexada pelo Dataset Search, para isso é preciso estruturar a base por meio dos padrões abertos (schema.org). Em sua página de desenvolvedores é possível ainda encontrar ferramentas para testar para dados estruturados usando JSON-LD schema.org.
Conjunto de dados que usa a sintaxe na Ferramenta de teste de dados estruturado (link)
O schema.org foi fundado pelas gigantes da tecnologia Google, Microsoft, Yahoo e Yandex, mas o vocabulário da ferramenta é desenvolvido em um processo comunitário organizado no GitHub. Maiores detalhes sobre a disponibilizacao de bases para a indezacao podem ser encontrados https://developers.google.com/search/docs/data-types/dataset.
Em uma busca pelo termo "ciclovias" foram encontrados 27 bases de dados, cidades como Bogotá, Lisboa e até Rio de Janeiro foram sugeridos. Quando digitado em inglês o resultado é ainda mais expressivo com mais de 100 bases encontradas. A tentativa de encontrar o mapa cicloviário da cidade de São Paulo, disponível na página de dados abertos da prefeitura de SP, não retornou resultados, mostrando possibilidades para a melhoria do serviço uma vez que ainda existem bases não indexadas. Durante a pesquisa o usuário podem ainda optar por explorar os dados através da ferramenta ArcGIS Hub e obter o mapa da cidade com o status de cada ciclovia no estado do Rio de Janeiro.
Mapa Digital das Rotas Cicloviárias do Rio de Janeiro (link)
As bases estão armazenadas em repositórios aleatórios espalhados pelo mundo, o que deixa as informações mais acessíveis e úteis em diferentes situações. De acordo com o Google, as bases mais comuns estão relacionadas a geociência, biologia e agricultura, publicados por governos em sua grande maioria. Ainda segundo o Google, somente os Estados Unidos possuem mais de 2 milhões de bases dados disponíveis.
Outro exemplo da versatilidade da ferramenta se dá pela associação entre produtos do próprio Google, ao buscar termos específicos o Dataset Search sugere artigos científicos sobre o tema pesquisado. Na imagem abaixo o termo 'Coronavírus' vem com 9 sugestões de artigos a partir do Google Scholar (Google Acadêmico), o que pode ser útil para o entendimento das bases que serão trabalhadas.
Embora a as descrições das bases de dados tenham melhorado de forma significativa, o Google se propõe a continuar melhorando o produto independente deste estar pronto. Maiores informações sobre o lançamento podem ser encontradas no blog do Google.