Curso
As imagens estão em toda parte. Vivemos em uma época em que imagens e vídeos contêm muitas informações que, às vezes, são difíceis de obter. É por isso que a análise de imagens, também conhecida como visão computacional, tornou-se uma habilidade altamente valiosa aplicável em muitos casos de uso.
Este guia apresenta o interessante campo da visão computacional. Ele explica os fundamentos dessa disciplina científica, suas principais aplicações e como a aprendizagem automática e a aprendizagem profunda estão revolucionando a visão computacional, abrindo as portas para novas e revolucionárias possibilidades.
O que é visão computacional?
Em termos simples, a visão computacional é um ramo da IA que estuda como os computadores podem ver e entender o conteúdo de imagens e vídeos digitais.
O objetivo final da visão computacional é replicar os recursos de visão humana em máquinas. No entanto, enquanto os seres humanos usam retinas, nervos ópticos e partes dedicadas de seus cérebros para coletar e processar informações visuais, esse processo é completamente diferente nas máquinas. Em vez disso, para ensinar as máquinas a enxergar, contamos com uma variedade de componentes tecnológicos, incluindo:
- Sensores. Câmeras e outros dispositivos equipados com sensores especializados são essenciais para a captura de dados visuais ao nosso redor.
- Dados. A maioria das pessoas já está familiarizada com dados de imagem e vídeo e seus formatos tradicionais associados, como .jpg e .png para imagens e .mov e .avi para vídeos. No entanto, vale a pena mencionar que a gama de dados de imagem pode assumir muitas formas, como visualizações de várias câmeras, dados multidimensionais de um scanner 3D ou dispositivos de digitalização médica.
- Algoritmos. Como em qualquer outra análise de dados, uma etapa anterior à análise é a preparação dos dados. Há uma infinidade de técnicas e algoritmos que os pesquisadores de visão computacional desenvolveram para limpar e preparar dados de imagens, incluindo filtragem, redimensionamento ou normalização de imagens. Depois que os dados visuais estiverem preparados, é hora da parte divertida. Após o surgimento da aprendizagem profunda, podemos treinar modelos avançados de aprendizagem profunda que superam rapidamente as capacidades humanas em uma ampla gama de tarefas, como veremos na próxima seção.
Aplicativos de visão computacional
A visão é um sentido fundamental que muitos de nós usamos para uma variedade de tarefas todos os dias. Diante desse cenário, não devemos nos surpreender com as muitas aplicações do mundo real da visão computacional disponíveis atualmente.
Abaixo, você encontra uma lista não exaustiva das aplicações mais importantes da visão computacional.
Detecção de objetos
Muitos aplicativos populares de visão computacional envolvem o reconhecimento de elementos em imagens. Um ótimo exemplo são os carros autônomos. Os fabricantes de carros autônomos usam várias câmeras para adquirir imagens do ambiente para que seus carros autônomos possam detectar objetos, marcações de pista e sinais de trânsito para dirigir com segurança. Como a detecção de objetos funciona na prática? É altamente recomendável que você leia nosso tutorial sobre detecção de objetos com o algoritmo YOLO.
Reconhecimento facial
Usado para segurança e vigilância, o reconhecimento facial analisa os principais recursos para identificar pessoas. Isso é feito por meio do treinamento de redes neurais em vastos bancos de dados biométricos que permitem que os modelos identifiquem características faciais exclusivas em seres humanos. Leia nosso tutorial separado para descobrir como realizar a detecção de faces com Python.
Tradução automática
Ferramentas como o Google Translate permitem que os usuários apontem a câmera do smartphone para uma placa em outro idioma e obtenham quase imediatamente uma tradução da placa no idioma de sua preferência.
Geração de imagens
Os aplicativos de visão computacional não apenas conseguem entender imagens, mas também estão no ponto em que podem criar imagens realistas usando IA generativa. Esse é o caso do DALL-E, um modelo de genAI que cria imagens a partir de descrições de texto, ou do Sora, que faz o mesmo, mas com vídeos. Outro exemplo são as falsificações profundas. Um deep fake é um software usado para retratar pessoas em vídeos falsos nos quais elas não apareceram de fato. Ao entender o que compõe um rosto humano, as falsificações profundas podem gerar novos rostos.
Você está curioso para conhecer outras aplicações da visão computacional? Confira nosso artigo dedicado para saber mais sobre 19 projetos de visão computacional, do iniciante ao avançado.
Visão computacional em IA
As aplicações exclusivas de visão computacional que temos hoje não seriam possíveis sem a IA, em particular, os modelos de aprendizagem profunda. Para entender o motivo, primeiro precisamos entender o que é uma imagem digital, a unidade mais básica de informação em visão computacional.
Uma imagem digital é composta de centenas, se não milhares de pixels, que contêm informações sobre cor e intensidade. Em imagens em tons de cinza, a intensidade de cada pixel pode ser representada por um número entre 0 e 255.

Imagens em escala de cinza. Fonte: DataCamp
Por outro lado, as imagens coloridas geralmente são armazenadas no sistema RGB. RGB significa Red (vermelho), Green (verde) e Blue (azul). Você pode pensar em cada imagem como sendo representada por três rasters, um para cada canal de cor. Isso significa que você precisa de três vezes a quantidade de dados para armazenar uma imagem colorida em comparação com uma imagem em escala de cinza.
Imagens coloridas. Fonte: DataCamp
Portanto, as imagens digitais podem ser vistas como um conjunto de números. Há pouco tempo, não tínhamos as ferramentas poderosas necessárias para processar e extrair informações de imagens. Isso mudou no início da década de 2010, quando os pesquisadores de aprendizagem profunda conseguiram desenvolver novas redes neurais que eram particularmente adequadas para tarefas de visão computacional.
Hoje, graças aos avanços na aprendizagem profunda e ao progresso das GPUs, da computação em nuvem e da grande disponibilidade de dados de imagem, os profissionais de dados podem treinar redes neurais avançadas capazes de realizar tarefas complexas em visão computacional.
Após o boom da IA generativa, os modelos de linguagem de visão (VLM) de última geração podem compreender e processar dados visuais e textuais, possibilitando novas tarefas, como legendas de imagens, respostas a perguntas visuais e geração de texto para imagens.
Você tem curiosidade sobre redes neurais? Confira nosso curso Introdução à aprendizagem profunda com Python para você começar hoje mesmo.

Rede neural para visão computacional. Fonte: NVIDIA
Diferença entre visão mecânica e visão computacional
Um equívoco comum entre os recém-chegados ao campo é a diferença entre visão mecânica e visão computacional.
A visão mecânica refere-se ao uso de câmeras, sensores e algoritmos para ajudar computadores e robôs a analisar imagens e tomar decisões informadas durante o processo de fabricação. As aplicações da visão mecânica abrangem tarefas como inspeção automática, controle de qualidade e orientação de robôs.
O termo é usado com frequência em ambientes industriais e de manufatura, portanto, seu escopo é específico para aplicações e mais restrito em comparação com a visão computacional, que tem uma gama mais ampla de aplicações em vários setores. Da mesma forma, em termos de complexidade, a visão computacional geralmente envolve processamento e interpretação mais complexos em comparação com a visão mecânica.
Você pode ver as diferenças entre visão mecânica e visão computacional na tabela abaixo:
|
Aspecto |
Visão mecânica |
Visão computacional |
|
Definição |
Uso de câmeras, sensores e algoritmos para analisar imagens e tomar decisões, geralmente em ambientes industriais. |
Um campo da IA focado em permitir que os computadores interpretem e entendam imagens e vídeos digitais. |
|
Casos de uso primário |
Controle de qualidade, detecção de defeitos, monitoramento da linha de montagem e orientação de robôs. |
Detecção de objetos, reconhecimento facial, geração de imagens, veículos autônomos e imagens médicas. |
|
Complexidade |
Geralmente mais simples e específico para a tarefa em questão. |
Envolve processamento complexo, geralmente usando IA e modelos de aprendizagem profunda. |
|
Escopo |
Estreito, específico para aplicativos (principalmente manufatura e automação industrial). |
Amplo, abrangendo vários setores, como saúde, varejo, automotivo e entretenimento. |
|
Foco em tecnologia |
Câmeras, iluminação e hardware para capturar e analisar imagens em ambientes controlados. |
Algoritmos, redes neurais e grandes conjuntos de dados para compreensão avançada de imagens. |
|
Exemplos |
Inspeção automatizada de placas de circuito, orientação de braços robóticos em fábricas. |
Treinamento de carros autônomos, criação de falsificações profundas ou identificação de doenças em exames médicos. |
Introdução à visão computacional
A visão computacional é uma das disciplinas mais empolgantes e demandadas em IA. Se você deseja começar a trabalhar na área, o DataCamp está aqui para ajudar. Trabalhamos com afinco para oferecer aos profissionais de dados cursos valiosos e atualizados e materiais dedicados.
É altamente recomendável que você comece com nossa trilha de habilidades de processamento de imagens em Python. Este curso aborda os fundamentos, desde o pré-processamento de imagens até a aprendizagem profunda. Você começará com o aprimoramento e a restauração de imagens e passará para imagens biomédicas para analisar tipos de imagens mais complexos, como exames de ressonância magnética e raios X. O curso é concluído com um curso sobre redes neurais convolucionais, no qual você aprenderá a criar classificadores de imagem avançados de aprendizagem profunda.
Para recursos técnicos, considere o seguinte:
- IA para dados visuais: Visão computacional nos negócios
- Vendo como uma máquina: Guia para iniciantes sobre análise de imagens em aprendizado de máquina
- O que é percepção de máquina?
- Explicação sobre a detecção de objetos YOLO: Um guia para iniciantes
- OpenCV Tutorial: Desbloqueie o poder do processamento visual de dados
Conclusão
Esperamos que você tenha gostado desta introdução amigável à visão computacional. O campo está cheio de entusiasmo, com novos aplicativos de visão computacional chegando ao mercado todos os dias. Se você deseja se tornar um especialista em visão computacional, o curso de habilidades em processamento de imagens em Python é o lugar ideal para começar.

Sou analista de dados freelancer, colaborando com empresas e organizações em todo o mundo em projetos de ciência de dados. Também sou instrutor de ciência de dados com mais de 2 anos de experiência. Escrevo regularmente artigos relacionados à ciência de dados em inglês e espanhol, alguns dos quais foram publicados em sites consagrados, como DataCamp, Towards Data Science e Analytics Vidhya Como cientista de dados com formação em ciência política e direito, meu objetivo é trabalhar na interação de políticas públicas, direito e tecnologia, aproveitando o poder das ideias para promover soluções e narrativas inovadoras que possam nos ajudar a enfrentar desafios urgentes, como a crise climática. Eu me considero uma pessoa autodidata, um aprendiz constante e um firme defensor da multidisciplinaridade. Nunca é tarde demais para aprender coisas novas.



