O que é visão computacional? Um guia para iniciantes em análise de imagens

Descubra como os computadores veem imagens e vídeos e como a inteligência artificial e o aprendizado de máquina estão revolucionando rapidamente a visão computacional.

Atualizado 23 de jan. de 2025 · 8 min lido

As imagens estão em toda parte. Vivemos em uma época em que imagens e vídeos contêm muitas informações que, às vezes, são difíceis de obter. É por isso que a análise de imagens, também conhecida como visão computacional, tornou-se uma habilidade altamente valiosa aplicável em muitos casos de uso.

Este guia apresenta o interessante campo da visão computacional. Ele explica os fundamentos dessa disciplina científica, suas principais aplicações e como a aprendizagem automática e a aprendizagem profunda estão revolucionando a visão computacional, abrindo as portas para novas e revolucionárias possibilidades.

O que é visão computacional?

Em termos simples, a visão computacional é um ramo da IA que estuda como os computadores podem ver e entender o conteúdo de imagens e vídeos digitais.

O objetivo final da visão computacional é replicar os recursos de visão humana em máquinas. No entanto, enquanto os seres humanos usam retinas, nervos ópticos e partes dedicadas de seus cérebros para coletar e processar informações visuais, esse processo é completamente diferente nas máquinas. Em vez disso, para ensinar as máquinas a enxergar, contamos com uma variedade de componentes tecnológicos, incluindo:

Sensores. Câmeras e outros dispositivos equipados com sensores especializados são essenciais para a captura de dados visuais ao nosso redor.
Dados. A maioria das pessoas já está familiarizada com dados de imagem e vídeo e seus formatos tradicionais associados, como .jpg e .png para imagens e .mov e .avi para vídeos. No entanto, vale a pena mencionar que a gama de dados de imagem pode assumir muitas formas, como visualizações de várias câmeras, dados multidimensionais de um scanner 3D ou dispositivos de digitalização médica.
Algoritmos. Como em qualquer outra análise de dados, uma etapa anterior à análise é a preparação dos dados. Há uma infinidade de técnicas e algoritmos que os pesquisadores de visão computacional desenvolveram para limpar e preparar dados de imagens, incluindo filtragem, redimensionamento ou normalização de imagens. Depois que os dados visuais estiverem preparados, é hora da parte divertida. Após o surgimento da aprendizagem profunda, podemos treinar modelos avançados de aprendizagem profunda que superam rapidamente as capacidades humanas em uma ampla gama de tarefas, como veremos na próxima seção.

Aplicativos de visão computacional

A visão é um sentido fundamental que muitos de nós usamos para uma variedade de tarefas todos os dias. Diante desse cenário, não devemos nos surpreender com as muitas aplicações do mundo real da visão computacional disponíveis atualmente.

Abaixo, você encontra uma lista não exaustiva das aplicações mais importantes da visão computacional.

Detecção de objetos

Muitos aplicativos populares de visão computacional envolvem o reconhecimento de elementos em imagens. Um ótimo exemplo são os carros autônomos. Os fabricantes de carros autônomos usam várias câmeras para adquirir imagens do ambiente para que seus carros autônomos possam detectar objetos, marcações de pista e sinais de trânsito para dirigir com segurança. Como a detecção de objetos funciona na prática? É altamente recomendável que você leia nosso tutorial sobre detecção de objetos com o algoritmo YOLO.

Reconhecimento facial

Usado para segurança e vigilância, o reconhecimento facial analisa os principais recursos para identificar pessoas. Isso é feito por meio do treinamento de redes neurais em vastos bancos de dados biométricos que permitem que os modelos identifiquem características faciais exclusivas em seres humanos. Leia nosso tutorial separado para descobrir como realizar a detecção de faces com Python.

Tradução automática

Ferramentas como o Google Translate permitem que os usuários apontem a câmera do smartphone para uma placa em outro idioma e obtenham quase imediatamente uma tradução da placa no idioma de sua preferência.

Geração de imagens

Os aplicativos de visão computacional não apenas conseguem entender imagens, mas também estão no ponto em que podem criar imagens realistas usando IA generativa. Esse é o caso do DALL-E, um modelo de genAI que cria imagens a partir de descrições de texto, ou do Sora, que faz o mesmo, mas com vídeos. Outro exemplo são as falsificações profundas. Um deep fake é um software usado para retratar pessoas em vídeos falsos nos quais elas não apareceram de fato. Ao entender o que compõe um rosto humano, as falsificações profundas podem gerar novos rostos.

Você está curioso para conhecer outras aplicações da visão computacional? Confira nosso artigo dedicado para saber mais sobre 19 projetos de visão computacional, do iniciante ao avançado.

Visão computacional em IA

As aplicações exclusivas de visão computacional que temos hoje não seriam possíveis sem a IA, em particular, os modelos de aprendizagem profunda. Para entender o motivo, primeiro precisamos entender o que é uma imagem digital, a unidade mais básica de informação em visão computacional.

Uma imagem digital é composta de centenas, se não milhares de pixels, que contêm informações sobre cor e intensidade. Em imagens em tons de cinza, a intensidade de cada pixel pode ser representada por um número entre 0 e 255.

Imagens em escala de cinza. Fonte: DataCamp

Por outro lado, as imagens coloridas geralmente são armazenadas no sistema RGB. RGB significa Red (vermelho), Green (verde) e Blue (azul). Você pode pensar em cada imagem como sendo representada por três rasters, um para cada canal de cor. Isso significa que você precisa de três vezes a quantidade de dados para armazenar uma imagem colorida em comparação com uma imagem em escala de cinza.

Imagens coloridas. Fonte: DataCamp

Portanto, as imagens digitais podem ser vistas como um conjunto de números. Há pouco tempo, não tínhamos as ferramentas poderosas necessárias para processar e extrair informações de imagens. Isso mudou no início da década de 2010, quando os pesquisadores de aprendizagem profunda conseguiram desenvolver novas redes neurais que eram particularmente adequadas para tarefas de visão computacional.

Hoje, graças aos avanços na aprendizagem profunda e ao progresso das GPUs, da computação em nuvem e da grande disponibilidade de dados de imagem, os profissionais de dados podem treinar redes neurais avançadas capazes de realizar tarefas complexas em visão computacional.

Após o boom da IA generativa, os modelos de linguagem de visão (VLM) de última geração podem compreender e processar dados visuais e textuais, possibilitando novas tarefas, como legendas de imagens, respostas a perguntas visuais e geração de texto para imagens.

Você tem curiosidade sobre redes neurais? Confira nosso curso Introdução à aprendizagem profunda com Python para você começar hoje mesmo.

Rede neural para visão computacional. Fonte: NVIDIA

Diferença entre visão mecânica e visão computacional

Um equívoco comum entre os recém-chegados ao campo é a diferença entre visão mecânica e visão computacional.

A visão mecânica refere-se ao uso de câmeras, sensores e algoritmos para ajudar computadores e robôs a analisar imagens e tomar decisões informadas durante o processo de fabricação. As aplicações da visão mecânica abrangem tarefas como inspeção automática, controle de qualidade e orientação de robôs.

O termo é usado com frequência em ambientes industriais e de manufatura, portanto, seu escopo é específico para aplicações e mais restrito em comparação com a visão computacional, que tem uma gama mais ampla de aplicações em vários setores. Da mesma forma, em termos de complexidade, a visão computacional geralmente envolve processamento e interpretação mais complexos em comparação com a visão mecânica.

Você pode ver as diferenças entre visão mecânica e visão computacional na tabela abaixo:

Aspecto	Visão mecânica	Visão computacional
Definição	Uso de câmeras, sensores e algoritmos para analisar imagens e tomar decisões, geralmente em ambientes industriais.	Um campo da IA focado em permitir que os computadores interpretem e entendam imagens e vídeos digitais.
Casos de uso primário	Controle de qualidade, detecção de defeitos, monitoramento da linha de montagem e orientação de robôs.	Detecção de objetos, reconhecimento facial, geração de imagens, veículos autônomos e imagens médicas.
Complexidade	Geralmente mais simples e específico para a tarefa em questão.	Envolve processamento complexo, geralmente usando IA e modelos de aprendizagem profunda.
Escopo	Estreito, específico para aplicativos (principalmente manufatura e automação industrial).	Amplo, abrangendo vários setores, como saúde, varejo, automotivo e entretenimento.
Foco em tecnologia	Câmeras, iluminação e hardware para capturar e analisar imagens em ambientes controlados.	Algoritmos, redes neurais e grandes conjuntos de dados para compreensão avançada de imagens.
Exemplos	Inspeção automatizada de placas de circuito, orientação de braços robóticos em fábricas.	Treinamento de carros autônomos, criação de falsificações profundas ou identificação de doenças em exames médicos.

Introdução à visão computacional

A visão computacional é uma das disciplinas mais empolgantes e demandadas em IA. Se você deseja começar a trabalhar na área, o DataCamp está aqui para ajudar. Trabalhamos com afinco para oferecer aos profissionais de dados cursos valiosos e atualizados e materiais dedicados.

É altamente recomendável que você comece com nossa trilha de habilidades de processamento de imagens em Python. Este curso aborda os fundamentos, desde o pré-processamento de imagens até a aprendizagem profunda. Você começará com o aprimoramento e a restauração de imagens e passará para imagens biomédicas para analisar tipos de imagens mais complexos, como exames de ressonância magnética e raios X. O curso é concluído com um curso sobre redes neurais convolucionais, no qual você aprenderá a criar classificadores de imagem avançados de aprendizagem profunda.

Para recursos técnicos, considere o seguinte:

Conclusão

Esperamos que você tenha gostado desta introdução amigável à visão computacional. O campo está cheio de entusiasmo, com novos aplicativos de visão computacional chegando ao mercado todos os dias. Se você deseja se tornar um especialista em visão computacional, o curso de habilidades em processamento de imagens em Python é o lugar ideal para começar.

Author

Javier Canales Luna

Sou analista de dados freelancer, colaborando com empresas e organizações em todo o mundo em projetos de ciência de dados. Também sou instrutor de ciência de dados com mais de 2 anos de experiência. Escrevo regularmente artigos relacionados à ciência de dados em inglês e espanhol, alguns dos quais foram publicados em sites consagrados, como DataCamp, Towards Data Science e Analytics Vidhya Como cientista de dados com formação em ciência política e direito, meu objetivo é trabalhar na interação de políticas públicas, direito e tecnologia, aproveitando o poder das ideias para promover soluções e narrativas inovadoras que possam nos ajudar a enfrentar desafios urgentes, como a crise climática. Eu me considero uma pessoa autodidata, um aprendiz constante e um firme defensor da multidisciplinaridade. Nunca é tarde demais para aprender coisas novas.

Tópicos

Inteligência Artificial

Aprendizado de máquina

Principais cursos da DataCamp

Curso

Processamento de Imagens em Python

4 h

53.6K

Aprenda a processar, transformar e manipular imagens conforme suas necessidades.

Ver detalhes

Iniciar curso

Curso

Aprendizagem profunda intermediária com PyTorch

4 h

23.4K

Conheça as principais arquiteturas de aprendizagem profunda, como CNNs, RNNs, LSTMs e GRUs, para modelar imagens e dados sequenciais.

Ver detalhes

Iniciar curso

Curso

Deep Learning para Imagens com PyTorch

4 h

10K

Use o PyTorch em imagens e aproveite os modelos de aprendizado profundo pra detectar objetos com caixas delimitadoras e gerar segmentação de imagens.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

O que é reconhecimento de imagens?

O reconhecimento de imagens usa algoritmos e modelos para interpretar o mundo visual, convertendo imagens em informações simbólicas para uso em vários aplicativos.

Abid Ali Awan

8 min

blog

O que é computação cognitiva?

A computação cognitiva é um subcampo da IA que visa simular os processos de pensamento humano e tomar decisões de forma semelhante à dos seres humanos.

Abid Ali Awan

5 min

blog

Explicação dos modelos de visão de linguagem (VLMs)

Os modelos de linguagem visual (VLMs) são modelos de IA que podem compreender e processar dados visuais e textuais, permitindo tarefas como legendas de imagens, respostas a perguntas visuais e geração de texto para imagem.

Bhavishya Pandit

8 min

Tutorial

Vendo como uma máquina: Guia para iniciantes em análise de imagens em aprendizado de máquina

Descubra como os computadores "veem" e interpretam imagens, as técnicas usadas para manipular imagens e como o aprendizado de máquina mudou o jogo.

Amberle McKee

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.

Arunn Thevapalan

Ver mais Ver mais

O que é visão computacional?

Aplicativos de visão computacional

Detecção de objetos

Reconhecimento facial

Tradução automática

Geração de imagens

Visão computacional em IA

Diferença entre visão mecânica e visão computacional

Introdução à visão computacional

Conclusão

O que é reconhecimento de imagens?

O que é computação cognitiva?

Explicação dos modelos de visão de linguagem (VLMs)

Vendo como uma máquina: Guia para iniciantes em análise de imagens em aprendizado de máquina

Visão GPT-4: Um guia abrangente para iniciantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Processamento de Imagens em Python

Aprendizagem profunda intermediária com PyTorch

Deep Learning para Imagens com PyTorch

O que é reconhecimento de imagens?

O que é computação cognitiva?

Explicação dos modelos de visão de linguagem (VLMs)

Vendo como uma máquina: Guia para iniciantes em análise de imagens em aprendizado de máquina

Visão GPT-4: Um guia abrangente para iniciantes

Processamento de Imagens em Python