BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias Prévias de “deep image” em Redes Neurais sem treinamento

Prévias de “deep image” em Redes Neurais sem treinamento

No final do ano passado, pesquisadores da Universidade Oxford e do Instituto de Ciência e Tecnologia Skolkovo detalharam seu trabalho sobre prévias de "deep-images". O conceito de uma "prévia de deep-image" é baseado intuitivamente a partir de exemplos fornecidos; pegue uma imagem distorcida ou com ruídos e a faça parecer tão normal quanto a original. Mas seu trabalho dá um passo além por fazê-lo sem uma referência à imagem original e também sem uma rede neural treinada.

Uma enorme quantidade de estatísticas de imagem são capturadas pela estrutura de um gerador de imagem convolutivo no lugar de qualquer capacidade aprendida; e nenhum aspecto da rede neural é aprendido a partir dos dados. Ao invés disso, os pesos da rede são sempre iniciados aleatoriamente, assim a única informação prévia está dentro da própria estrutura da rede.

A pesquisa foca em super-resolução, remoção de ruídos, reconstrução de imagem e inpaiting. Foi criada e demonstrada uma rede geradora sem pré-treinamento e banco de dados, capaz de renderizar imagens de qualidade original. Seus resultados são comparáveis aos padrões referenciados em seu artigo de pesquisa baseado no treinamento redes neurais convolutivas profundas ou, simplesmente, ConvNets. Os pesquisadores Ulyanov, Vedaldi e Lempitsky afirmam que:

A estrutura de uma rede geradora é suficiente para capturar uma grande quantidade de estatísticas de imagem de baixo nível antes de qualquer aprendizado. Mostramos que uma rede neural aleatoriamente inicializada pode ser usada como uma prévia manual com resultados excelentes em problemas de padrões inversos como remoção de ruídos, super-resolução e inpainting; e faz uma ponte entre duas famílias muito populares de métodos de restauração de imagens: métodos baseados em aprendizado usando ConvNets, e métodos de aprendizado livre baseados em prévias manuais de imagem como a auto-semelhança (self-similarity).

A equipe implementou as redes geradoras usando a biblioteca Torch em Python. Desenvolveram módulos para processamento de ruídos, distorção e interferência em uma imagem a partir de coisas como "ruído de TV", pixel scrambling e máscaras de imagem. O inpaiting é o processo de remover "a máscara" de uma imagem. As máscaras podem ser simples marcas d'àgua em imagens compradas, mas demonstrações de máscaras de imagem genéricas foram usadas no código de exemplo. Os exemplos de saída a partir de arquivos PNG processados pela rede neural mostram que a rede identifica a máscara com sucesso e a remove como se houvesse uma área sobreposta em cima da imagem original.

A própria rede alterna filtrando operações como convolução, aumento artificial da taxa de amostragem (upsampling) e ativação não-linear… A escolha da arquitetura de rede tem um efeito maior em como o espaço de solução é buscado por métodos como o gradiente descendente. Em particular, mostramos que a rede resiste a "más" soluções e descende muito mais rapidamente em direção a imagens aparentemente naturais.

Suas descobertas podem desafiar a noção de que ConvNets derivam seus sucessos pela habilidade de aprender prévias realísticas a partir de dados. A equipe notou que sua "abordagem de canivete suíço" é computacionalmente intensiva, requerendo vários minutos de tempo de GPU para uma simples imagem de 512 x 512 pixel. O código Python, incluindo Jupyter notebooks e dados de amostra podem ser encontrados no Github.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT