Glossário de ciência de dados : Definições para termos comuns de ciência de dados
Redes Neurais Artificiais (ANN)
Compensação de viés e variância
Classificação de variáveis categóricas
Validação cruzada (não validada)
Sistema de gerenciamento de banco de dados (DBMS)
Falso negativo (FN, erro do tipo II)
Falso positivo (FP, erro do tipo I)
Processamento de linguagem natural (NLP)
Análise de componentes principais (PCA)
Raiz do erro quadrático médio (RMSE)
Aprendizado não supervisionado
A
Pontuação de precisão
Uma pontuação de precisão é uma métrica de avaliação usada para estimar o desempenho de um modelo de aprendizado de máquina e mostra a proporção entre o número de previsões corretas e o número total de previsões.
Função de ativação
Uma função de ativação é usada em redes neurais artificiais (RNA) que determina se um neurônio deve ser ativado ou não, calculando sua saída para a próxima camada oculta (ou camada de saída) com base na entrada da camada anterior (ou camada de entrada). A função de ativação é responsável pela transformação não linear de uma rede neural.
Algoritmo
Um algoritmo é uma sequência de etapas repetíveis, geralmente expressas matematicamente, escritas por um ser humano e executadas por um computador, para resolver um determinado tipo de problema de ciência de dados. Os algoritmos variam de muito simples a extremamente complexos. Diferentes algoritmos são adequados para várias tarefas e tecnologias. O conceito principal é que um algoritmo recebe alguma entrada e produz uma saída, e a mesma entrada sempre produzirá a mesma saída. No aprendizado de máquina, os algoritmos recebem entradas na forma de dados e hiperparâmetros, identificam e aprendem padrões comuns a partir dos dados e produzem saídas na forma de previsões.
Apache Spark
O Apache Spark é uma estrutura de processamento paralelo multifuncional de código aberto para análise e modelagem de big data. O Spark permite que você distribua dados e cálculos em clusters com vários nós (pense em cada nó como um computador separado). A divisão de seus dados facilita o trabalho com conjuntos de dados muito grandes, pois cada nó trabalha apenas com uma pequena quantidade de dados. Como cada nó trabalha em seu próprio subconjunto dos dados totais, ele também executa uma parte dos cálculos totais necessários, de modo que tanto o processamento de dados quanto a computação são realizados em paralelo com os nós do cluster. É fato que a computação paralela pode tornar certos tipos de tarefas de programação muito mais rápidos.
API
API é um acrônimo de Application Programming Interface (Interface de Programação de Aplicativos), um intermediário de software que garante uma conexão entre aplicativos ou computadores. Um exemplo de API é a incorporação do Google Maps em um aplicativo Rideshare. Os cientistas de dados geralmente trabalham com APIs para acessar dados (por exemplo, a API do Twitter para fazer download de tweets) ou para empacotar uma solução que criaram (por exemplo, uma API que chama um modelo de aprendizado de máquina em produção).
Inteligência Artificial (IA)
A inteligência artificial é um ramo da ciência da computação que envolve o uso de técnicas de aprendizado de máquina, programação e ciência de dados que permitem que os computadores se comportem de forma inteligente. Os sistemas de IA são amplos e têm graus variados de complexidade. Eles podem variar de sistemas baseados em regras a sistemas baseados em aprendizado de máquina e podem executar habilidades como detecção de fraudes, reconhecimento de objetos, tradução de idiomas, previsão de preços de ações e muito mais.
Redes Neurais Artificiais (ANN)
Uma rede neural artificial é um modelo de aprendizado de máquina inspirado livremente nas redes neurais biológicas do cérebro humano. As redes neurais consistem em até centenas de camadas de unidades interconectadas chamadas neurônios. Conceitualmente, uma rede neural artificial tem os seguintes tipos de camadas: entrada, saída e camadas ocultas usadas para filtrar os dados, processá-los com uma função de ativação e fazer previsões na saída. As RNAs são os blocos de construção de um subconjunto de aprendizagem automática chamado de aprendizagem profunda, que fornece resultados complexos, como reconhecimento de imagem ou som, detecção de objetos, tradução de idiomas e muito mais.
B
Retropropagação (BP)
A retropropagação é uma técnica usada no treinamento de redes de aprendizagem profunda e se baseia na implementação de descida gradiente para ajustar iterativamente os pesos e as tendências para aumentar a precisão de uma rede. O algoritmo calcula o erro da saída em cada iteração de treinamento e, em seguida, o propaga de volta para a rede, permitindo assim que ela minimize o erro em iterações de treinamento futuras.
Rede Bayesiana
Uma rede bayesiana é um gráfico probabilístico que mostra a relação entre variáveis aleatórias para um domínio incerto, em que os nós do gráfico representam essas variáveis e os links entre cada par de nós (as bordas) representam a probabilidade condicional das variáveis correspondentes. Um exemplo de redes bayesianas está nos diagnósticos médicos, em que os pesquisadores preveem resultados de saúde levando em conta todos os fatores que podem afetar um resultado.
Teorema de Bayes
O Teorema de Bayes é uma equação matemática para o cálculo da probabilidade condicional, ou seja, a probabilidade de ocorrência do evento B, dado que o evento relacionado A já aconteceu. Uma das aplicações desse teorema na ciência de dados é a criação de redes bayesianas para grandes conjuntos de dados.
Preconceito
O viés refere-se à tendência dos modelos de não se ajustarem aos dados, o que leva a previsões imprecisas no aprendizado de máquina e na ciência de dados. Essa é a definição de viés que é frequentemente discutida na troca entre viés e variância. Além disso, preconceito também pode significar preconceito algorítmico, que se refere à propensão dos modelos de aprendizado de máquina de reproduzir preconceitos sociais prejudiciais, tratando diferentes grupos de indivíduos de forma diferente com base em atributos protegidos, como raça, orientação sexual, identificação de gênero, idade, gravidez, status de veterano, entre outros.
Compensação de viés e variância
A compensação entre viés e variância é a compensação entre viés e variância ao criar um modelo de aprendizado de máquina. O viés e a variância são dois tipos de erro de previsão ao criar modelos de aprendizado de máquina, em que um viés alto indica subadaptação do modelo e uma variância alta indica superadaptação do modelo. A minimização desses dois fatores em um nível ideal diminui o erro geral das previsões.
Big Data
Big Data é o campo que gira em torno do processamento, tratamento e extração de informações de conjuntos de dados que são muito grandes ou complexos para as ferramentas tradicionais de processamento de dados. O big data é definido pelos cinco Vs: velocidade - a velocidade de geração de dados; volume - a quantidade de dados gerados; variedade - a variedade de tipos de dados, por exemplo, texto, imagens, dados tabulares etc.; veracidade - a qualidade e a veracidade dos dados; e valor - a propensão dos dados a serem traduzidos em insights comerciais valiosos.
Distribuição binomial
A distribuição binomial é a distribuição de probabilidade discreta dos resultados de tentativas independentes, com dois resultados possíveis mutuamente exclusivos (sucesso e fracasso), um número finito de tentativas e uma probabilidade constante de sucesso. Em termos simples, uma distribuição binomial pode ser considerada como a probabilidade de um resultado específico (sucesso ou fracasso) em um evento que se repete várias vezes (por exemplo, a probabilidade de obter 3 em um dado que é lançado 5 vezes).
Analista de negócios
Os analistas de negócios são responsáveis por vincular insights de dados a resultados acionáveis que aumentam a lucratividade ou a eficiência. Eles têm profundo conhecimento do domínio dos negócios e, muitas vezes, usam SQL juntamente com ferramentas que não são de codificação para comunicar percepções derivadas dos dados.
Análise de negócios (BA)
A análise de negócios é um subcampo da análise que se concentra no uso de dados históricos e atuais para descobrir insights operacionais valiosos, prever possíveis tendências futuras e tomar decisões de negócios orientadas por dados. O conjunto de ferramentas da análise de negócios geralmente inclui análise estatística, análise descritiva e visualização de dados, e pode ser cruzado com a análise preditiva e o aprendizado de máquina.
Business Intelligence (BI)
O business intelligence é um subcampo da análise que combina análise descritiva, análise de negócios, visualização de dados, análise estatística, geração de relatórios e muito mais. Destina-se a ajudar as organizações a tomar decisões orientadas por dados. O BI geralmente utiliza ferramentas que não são de codificação, como o Tableau e o Power BI, para explorar tendências em dados históricos e atuais. Diferentemente da análise de negócios, o foco principal do BI é a análise descritiva.
C
Variável categórica
Uma variável categórica é uma variável que pode ter um de um número limitado de valores possíveis (categorias) sem qualquer ordenação intrínseca envolvida. Um exemplo de uma variável categórica seria o estado civil (por exemplo, casado, solteiro, divorciado). Ela também é chamada de variável nominal ou qualitativa.
Classificação
A classificação é um problema de aprendizado supervisionado quando é necessário prever resultados categóricos com base em recursos de entrada. Exemplos de problemas de classificação são a detecção de fraudes (por exemplo, essa transação é fraudulenta dado o conjunto de recursos de entrada?) e os filtros de spam de e-mail (por exemplo, esse e-mail é spam ou não?). Os algoritmos de classificação comumente usados são k-vizinhos mais próximos, árvores de decisão, floresta aleatória, etc.
Agrupamento
O agrupamento é um problema de aprendizado não supervisionado que se preocupa em agrupar todas as observações de um conjunto de dados de acordo com sua semelhança por algumas características comuns. Diferentemente de um problema de classificação, esses grupos (chamados de clusters) não são predefinidos por humanos, mas identificados por algoritmos de aprendizado de máquina enquanto aprendem os dados de entrada. Os elementos em cada cluster são semelhantes entre si e diferentes de todos os outros. Os algoritmos comuns de agrupamento são k-means, agrupamento hierárquico, agrupamento espectral, etc.
Ciência da Computação
A Ciência da Computação é um campo de estudo multifacetado que se concentra nos aspectos teóricos e práticos do processamento de informações em computadores digitais, no projeto de hardware e software de computadores e nas aplicações de computadores. Em particular, a ciência da computação lida com inteligência artificial, sistemas computacionais, algoritmos, estruturas de dados, modelagem de dados, segurança, projeto de computadores e redes, etc.
Visão computacional
A visão computacional é uma área da ciência da computação que se preocupa em permitir que os computadores alcancem um entendimento de alto nível a partir de imagens ou vídeos digitais, próximo ao modo como os seres humanos podem vê-los. A visão computacional tornou-se especialmente popular com a evolução da aprendizagem profunda e o acúmulo de big data. Algumas de suas aplicações são reconhecimento facial e de objetos, análise de movimento, carros autônomos e reconhecimento óptico de caracteres.
Matriz de confusão
Uma matriz de confusão é uma tabela que ilustra o desempenho preditivo de um modelo de classificação. Normalmente, uma matriz de confusão é criada para uma saída binária (ou seja, problemas de previsão com apenas dois tipos de previsão - por exemplo, se uma transação é fraudulenta ou não), de modo que a tabela resultante é uma tabela dois por dois. Uma matriz de confusão representa as relações entre as previsões e os rótulos reais para ambas as classes. Ele mostra facilmente a quantidade de previsões precisas feitas (verdadeiros positivos e verdadeiros negativos) e a quantidade de falsos positivos (erro tipo I) e falsos negativos (erro tipo II) feitos.
Variável contínua
Uma variável contínua é uma variável que pode assumir um conjunto infinito de valores em um intervalo específico. Exemplos de variáveis contínuas são altura e peso.
Correlação
A correlação é a força e a direção da relação entre duas ou mais variáveis, medida por um coeficiente de correlação, ou coeficiente de Pearson. Estatisticamente, um coeficiente de correlação é a razão entre a covariância de duas variáveis e o produto de seus desvios padrão. Ele pode assumir os valores de -1 (uma correlação negativa perfeita) a 1 (uma correlação positiva perfeita). A presença de correlação entre duas variáveis não implica em uma relação de causa e efeito.
Função de custo
A função de custo é uma função de aprendizado de máquina usada para medir a média das diferenças entre os valores previstos e reais no conjunto de treinamento, e deve ser minimizada.
Covariância
A covariância é uma medida da relação entre duas variáveis. Diferentemente da variância, que mede as variações dentro da mesma variável, a covariância mostra como as variações em uma variável influenciam as mudanças na segunda. A covariância é usada para calcular um coeficiente de correlação.
Validação cruzada (não validada)
A validação cruzada é um método de reamostragem ao treinar modelos de aprendizado de máquina que dividem os dados rotulados em conjuntos de treinamento e teste. Em cada iteração de validação cruzada, diferentes partes dos dados são usadas para treinar e testar o modelo. O conjunto de treinamento é usado para treinar um modelo, e o conjunto de teste é usado para fazer previsões e compará-las com os rótulos reais dessas entradas. Em seguida, uma métrica de precisão geral é calculada para estimar o desempenho preditivo do modelo resultante.
D
Painel de controle
Um painel é uma interface gráfica de usuário interativa usada para visualizar, resumir e relatar indicadores-chave de desempenho (KPI), métricas de progresso e informações sobre processos de negócios que permitem que o público-alvo compreenda facilmente os insights mais importantes em vários níveis. Os painéis são criados usando ferramentas que não são de codificação, como Excel, Tableau ou PowerBI, ou até mesmo ferramentas de codificação, como Python e R. Um painel é frequentemente vinculado a bancos de dados e serviços atualizados regularmente.
Análise de dados (DA)
A análise de dados é uma disciplina focada na limpeza, transformação, visualização e exploração de dados com o objetivo de extrair padrões e percepções significativas e comunicar os resultados às partes interessadas. A análise de dados geralmente é o primeiro marco em todos os projetos de ciência de dados, mas também pode representar um projeto autônomo. No entanto, diferentemente da ciência de dados, ela lida mais com a análise descritiva do que com a análise preditiva.
Analista de dados
Um analista de dados é semelhante aos analistas de negócios; os analistas de dados são responsáveis por analisar os dados e relatar os insights de suas análises. Eles têm um profundo conhecimento do fluxo de trabalho de análise de dados e obtêm e relatam suas percepções usando uma combinação de ferramentas de codificação e não codificação.
Banco de dados
Um banco de dados é um espaço de armazenamento estruturado em que os dados são organizados em várias tabelas diferentes, de forma que as informações necessárias possam ser facilmente acessadas e resumidas. Os bancos de dados são usados principalmente com um sistema de gerenciamento de banco de dados relacional (RDBMS), como Oracle ou PostgreSQL. A linguagem de programação mais comum usada para interagir com os dados de um banco de dados é a SQL.
Sistema de gerenciamento de banco de dados (DBMS)
Um sistema de gerenciamento de banco de dados é um pacote de software usado para executar facilmente diferentes operações nos dados: acessar, manipular, recuperar, gerenciar e armazenar os dados em um banco de dados. Com base na forma como os dados são organizados e estruturados, existem diferentes tipos de DBMS: relacional, gráfico, hierárquico, etc. Alguns exemplos de DBMS: Oracle, MySQL, PostgreSQL, Microsoft SQL Server, MongoDB.
Consumidor de dados
Os consumidores de dados geralmente têm funções não técnicas, mas consomem insights e análises de dados fornecidos por profissionais de dados para tomar decisões orientadas por dados. Os consumidores de dados geralmente precisam conversar com profissionais de dados e devem ser capazes de distinguir quando os dados podem ou não ser usados para responder a perguntas comerciais.
Engenheiro de dados
Um engenheiro de dados é um especialista responsável por fornecer os dados corretos aos cientistas e analistas de dados. Eles projetam e mantêm a infraestrutura de armazenamento e os pipelines de dados que levam grandes quantidades de dados brutos provenientes de várias fontes para um local centralizado com dados limpos e corretamente formatados que são relevantes para a organização.
Engenharia de dados (DE)
A engenharia de dados é uma especialização que se concentra no dimensionamento do acesso aos dados dentro da organização. Os engenheiros de dados trabalham na aquisição, coleta, gerenciamento e armazenamento de dados, bem como na configuração de pipelines de dados e na transformação de dados em dados de alta qualidade e utilizáveis pelo restante da organização.
Enriquecimento de dados
O enriquecimento de dados é o processo de aprimorar, refinar e aumentar os dados brutos para torná-los mais úteis para a organização e, como resultado, obter insights comerciais mais significativos e otimizar a análise preditiva.
Quadro de dados
Um dataframe é a estrutura de dados tabulares com eixos rotulados (linhas e colunas) de tipos potencialmente diferentes.
Governança de dados
A DAMA define a Governança de Dados como "O planejamento, a supervisão e o controle sobre o gerenciamento de dados e fontes relacionadas a dados". A governança de dados define as funções, as responsabilidades e os processos para garantir a disponibilidade, a relevância, a qualidade, a usabilidade, a integridade e a segurança dos dados. A governança de dados inclui um corpo diretivo, uma estrutura de regras e práticas para atender às necessidades de informações da empresa e um programa para executar essas práticas.
Jornalismo de dados
O jornalismo de dados é um tipo de jornalismo que se preocupa com o processamento e a análise de grandes quantidades de dados numéricos, com o objetivo de criar uma história sobre os dados ou sobre as informações derivadas desses dados. Essa função surgiu como resultado de um fluxo de informações em constante crescimento e da crescente interação do jornalismo moderno com esferas como estatística, tecnologias de TI e ciência de dados.
Lago de dados
Um lago de dados é um repositório de armazenamento único que contém uma grande quantidade de dados brutos e não processados de qualquer tipo, provenientes de várias fontes, que ainda não têm uma finalidade definida. Um lago de dados inclui dados estruturados de diferentes estruturas sem qualquer relação entre si e, mais frequentemente, dados não estruturados, como documentos e arquivos de texto. Os dados brutos são mantidos como uma fonte original de informações, sem a necessidade de estruturá-los e manipulá-los, a menos que os dados sejam necessários.
Alfabetização em dados
A alfabetização em dados é a capacidade de ler, escrever, analisar, comunicar e raciocinar com dados para tomar melhores decisões baseadas em dados. Do ponto de vista organizacional, trata-se de um espectro de habilidades de dados que vai desde a tomada de decisões orientada por dados até habilidades técnicas avançadas em ciência de dados, engenharia de dados e aprendizado de máquina, o que faz com que todos na organização tenham as competências relevantes e gerem valor a partir dos dados em escala.
Mineração de dados
A mineração de dados é o processo de coletar dados relevantes de várias fontes, limpá-los e transformá-los no formato correto, detectar e extrair tendências ocultas significativas, padrões e interconexões entre os dados e comunicar percepções acionáveis para ajudar a organização a tomar decisões orientadas por dados e desenvolver estratégias melhores. Para isso, são usadas várias técnicas analíticas e de modelagem, incluindo análise estatística, visualização de dados, regressão e classificação.
Modelagem de dados
A modelagem de dados é o processo de desenvolvimento de uma representação visual de todo um sistema de TI ou de partes dele, para comunicar as conexões entre pontos e estruturas de dados. Os modelos de dados mostram os tipos de dados usados e armazenados no sistema, as relações entre essas diferentes fontes de dados e como os dados são agrupados de acordo com diferentes atributos e características. Uma definição ligeiramente ajustada que você pode encontrar na ciência de dados para modelagem de dados é: criar modelos confiáveis que transformem os dados brutos em insights preditivos, consistentes e acionáveis. A principal intenção é entender claramente as necessidades críticas do negócio, as fontes de dados disponíveis e os prazos, e fornecer uma estrutura relevante, orientada por dados e corretamente formatada para atender a essas necessidades.
Data Pipeline
Um pipeline de dados é um conjunto de scripts de processamento de dados vinculados, automatizando assim o fluxo de dados em uma organização onde os dados são extraídos, transformados e carregados para que estejam prontos para serem usados.
Ciência de dados (DS)
A ciência de dados é um campo de estudo interdisciplinar e multifacetado que usa vários métodos científicos, técnicas avançadas de análise e algoritmos de modelagem preditiva para extrair percepções significativas dos dados e ajudar a responder a perguntas estratégicas de negócios ou científicas em várias esferas. Ele combina uma ampla gama de habilidades técnicas e não técnicas e, normalmente, exige um sólido conhecimento de domínio no setor específico em que é aplicado, para que seja possível interpretar corretamente os dados disponíveis e os resultados obtidos.
Cientista de dados
Os cientistas de dados investigam, extraem e relatam insights significativos sobre os dados da organização. Eles comunicam esses insights às partes interessadas não técnicas e têm um bom entendimento dos fluxos de trabalho de aprendizado de máquina e de como vinculá-los aos aplicativos de negócios. Eles trabalham quase que exclusivamente com ferramentas de codificação, realizam análises e frequentemente trabalham com ferramentas de big data.
Conjunto de dados
Um conjunto de dados é uma coleção de dados de um ou vários tipos que representam observações da vida real ou geradas sinteticamente e são usados para análise estatística ou modelagem de dados. Os dados de um conjunto de dados podem ser coletados de muitas fontes e normalmente são armazenados em algum tipo de estrutura de dados, mais comumente uma tabela, em que as colunas correspondem a diferentes variáveis e as linhas a diferentes entradas de dados.
Estrutura de dados
Uma estrutura de dados é uma forma de organizar e armazenar dados para que possam ser acessados e trabalhados com eficiência. A estrutura de dados define a relação entre os dados e as operações que podem ser realizadas com eles. As estruturas de dados comuns encontradas na ciência de dados são dataframes, listas, matrizes e muito mais.
Visualização de dados
A visualização de dados é um campo interdisciplinar que lida com a condensação e a representação de informações em formato visual. Os dados podem ser visualizados de acordo com uma variedade de gráficos, como mapas, histogramas, gráficos de barras e gráficos de linhas, e podem ser combinados em infográficos, painéis e muito mais. A visualização de dados é frequentemente usada para ajudar o público-alvo a entender melhor os dados subjacentes e os resultados obtidos.
Data Warehouse
Um data warehouse é um repositório central para armazenar dados estruturados, limpos e transformados coletados de várias fontes por meio do processo de ETL (extração, transformação e carregamento). Os profissionais de dados podem acessar facilmente as informações necessárias do data warehouse por meio de ferramentas de business intelligence, consultas SQL, etc., e usá-las para análises e modelagens adicionais para responder a perguntas comerciais.
Organização de dados
A organização de dados também é chamada de "data munging". As tarefas de organização de dados estão relacionadas à limpeza, reestruturação, fusão, agregação e transformação de dados em um formato apropriado para uma finalidade específica. Em suma, é um processo de preparação de dados para facilitar o acesso e a análise dos dados.
Árvore de decisão
Uma árvore de decisão é um algoritmo de aprendizado de máquina supervisionado usado principalmente para classificação, mas também para problemas de regressão. As árvores de decisão fazem uma sequência de perguntas if-else sobre recursos individuais, com o objetivo de inferir os rótulos de classe. Uma árvore de decisão se beneficia de uma possível representação gráfica semelhante a uma árvore, da imitação da capacidade humana de tomar decisões e de uma lógica intuitivamente compreensível, mas esse tipo de modelo tende a se ajustar demais.
Aprendizagem profunda (DL)
A aprendizagem profunda é um subconjunto de algoritmos de aprendizagem de máquina baseados em redes neurais artificiais (RNA) de múltiplas camadas que são amplamente inspiradas na estrutura do cérebro. As RNAs são muito flexíveis e podem aprender com grandes quantidades de dados para fornecer resultados altamente precisos. Eles geralmente estão por trás de alguns casos de uso de ciência de dados e aprendizado de máquina, como reconhecimento de imagem ou som, tradução de idiomas e outros problemas avançados.
Redução de dimensionalidade
A redução da dimensionalidade é o processo de reduzir o número de recursos do conjunto de treinamento, deixando apenas os recursos mais relevantes que capturam a maior parte da variação, a fim de aprimorar o desempenho do modelo. A redução da dimensionalidade é especialmente útil para grandes conjuntos de dados com muitas variáveis. Isso ajuda a otimizar o espaço de armazenamento e o tempo de computação, além de corrigir um problema de multicolinearidade. A técnica mais popular de redução de dimensionalidade é a PCA (análise de componentes principais).
E
EDA
EDA é um acrônimo para análise exploratória de dados e se refere à primeira fase da análise de dados, focada na exploração básica dos dados disponíveis, resumindo suas principais características e encontrando padrões e tendências iniciais, problemas a serem corrigidos e questões a serem investigadas posteriormente. Nesse estágio, um analista ou cientista de dados obtém um entendimento geral dos dados como base para a análise subsequente e mais detalhada dos dados.
ELT
O ELT (extrair, carregar, transformar) é um sistema de pipeline de dados projetado por engenheiros de dados, uma alternativa à abordagem mais popular ETL (extrair, transformar, carregar). Antes de aplicar qualquer transformação, os dados brutos são carregados no lago de dados e, em seguida, transformados no local. A vantagem do ELT sobre o ETL é que ele requer menos tempo, é adequado para processar grandes conjuntos de dados e é mais econômico.
ETL
ETL (extrair, transformar, carregar) é um sistema de pipeline de dados projetado por engenheiros de dados. Os dados são extraídos de várias fontes, transformados de sua forma bruta em um formato adequado para serem consistentes com os dados de outras fontes e carregados no data warehouse de destino. A partir daí, ele pode ser usado para análise e modelagem de dados adicionais para resolver vários problemas de negócios.
Métricas de avaliação
As métricas de avaliação são uma coleção de métricas usadas para estimar o desempenho de um modelo estatístico ou de aprendizado de máquina. Alguns exemplos de métricas de avaliação são: pontuação de precisão, pontuação f, recall e RMSE.
F
Falso negativo (FN, erro do tipo II)
Um falso negativo é um resultado quando um modelo de classificação prevê incorretamente a classe negativa para uma variável de destino binária (por exemplo, se estivermos prevendo a rotatividade de clientes, um falso negativo gera uma previsão de "não haverá rotatividade", enquanto o rótulo real é "haverá rotatividade").
Falso positivo (FP, erro do tipo I)
Um falso positivo é um resultado quando um modelo de classificação prevê incorretamente a classe positiva para uma variável-alvo binária. Por exemplo, se estivermos prevendo a rotatividade de clientes, um falso positivo gerará uma previsão de "haverá rotatividade", enquanto o rótulo real é "não haverá rotatividade".
Recurso
Um recurso é uma variável independente usada como entrada em um modelo de aprendizado de máquina. Por exemplo, se estivermos prevendo a probabilidade de diabetes usando altura, peso e ingestão de açúcar - altura, peso e ingestão de açúcar são recursos.
Engenharia de recursos
A engenharia de recursos é o processo de usar o conhecimento do domínio e a experiência no assunto para transformar recursos brutos em recursos que reflitam melhor o problema subjacente e sejam mais adequados aos algoritmos de aprendizado de máquina. Isso inclui a extração de novos recursos dos dados disponíveis ou a manipulação dos recursos existentes. Por exemplo, se estivermos tentando prever um resultado de saúde, como a probabilidade de ter diabetes, calcular um recurso de IMC usando recursos de altura e peso é engenharia de recursos.
Seleção de recursos
A seleção de recursos é o processo de seleção de um subconjunto de recursos do conjunto de dados que são os mais relevantes para a previsão da variável-alvo. Um processo inteligente de seleção de recursos é especialmente importante para grandes conjuntos de dados, pois reduz a complexidade do modelo, o excesso de ajuste e o tempo de computação, além de aumentar a precisão do modelo.
F-Score
O F-Score é uma métrica de avaliação para estimar o desempenho do modelo que combina precisão e recuperação. Normalmente, é usada a pontuação F1, que é a média harmônica da precisão e da recuperação. O caso mais genérico é Fβ, em que um peso adicional é aplicado à precisão ou à recuperação.
G
Descida de gradiente
A descida de gradiente é um processo de otimização iterativo usado no aprendizado de máquina para minimizar a função de custo, encontrando os valores ideais para os parâmetros da função.
H
Hadoop
O Hadoop é uma estrutura de software de código aberto baseada em Java que permite o processamento paralelo e o armazenamento distribuído de big data em clusters de vários computadores. O Hadoop permite economizar tempo e lidar com quantidades muito maiores de dados do que seria possível usando apenas um computador.
Hiperparâmetro
Os hiperparâmetros são atributos pertencentes a um modelo de aprendizado de máquina cujo valor é definido manualmente antes de iniciar o processo de treinamento. Ao contrário dos outros parâmetros, os hiperparâmetros não podem ser estimados ou aprendidos diretamente com os dados. Ajustando os hiperparâmetros e estimando o desempenho do modelo resultante, podemos determinar seus valores ideais para obter o modelo mais preciso. Intuitivamente falando, o ajuste de um hiperparâmetro é semelhante ao ajuste de um botão de rádio quando se tenta alcançar um sinal perfeito. Um exemplo de hiperparâmetros é o número de árvores no algoritmo de floresta aleatória.
Hipótese
Uma hipótese é uma suposição sobre algum problema ou evento que precisa ser testada e, dependendo do resultado do experimento, comprovada ou rejeitada.
I
Imputação
A imputação é o processo de preenchimento de valores ausentes em um conjunto de dados. As técnicas de imputação podem ser estatísticas (imputação de média/modo) ou técnicas de aprendizado de máquina (imputação KNN).
K
K-Means
O K-Means é o algoritmo de agrupamento mais popular que identifica K centros de agrupamento (chamados de centroides) com coordenadas provisórias nos dados e atribui iterativamente cada observação a um dos centroides com base em seus recursos até que os centroides convirjam. Os pontos de dados são semelhantes em um cluster e diferentes dos pontos de dados em outros clusters.
K-Nearest Neighbors (KNN)
Os K-nearest neighbors são algoritmos de aprendizado supervisionado que classificam as observações com base na semelhança com seus vizinhos mais próximos. Os parâmetros mais importantes do KNN que podem ser ajustados são o número de vizinhos mais próximos e a métrica de distância (Minkowski, Euclidean, Manhattan etc.).
L
Linear Algebra
A álgebra linear é um ramo da matemática relacionado a sistemas lineares: linhas, planos, espaços vetoriais, matrizes e operações sobre eles, como adição ou multiplicação. A álgebra linear é muito útil na ciência de dados e no aprendizado de máquina, pois os conjuntos de dados e muitos modelos de aprendizado de máquina podem ser representados em forma de matriz.
Regressão linear
A regressão linear é um algoritmo de regressão que lida com a modelagem de uma relação linear entre uma variável-alvo contínua e um ou vários recursos contínuos. Um exemplo típico de ciência de dados usando regressão linear é a previsão de preços com base em vários atributos de entrada.
Regressão logística
A regressão logística é um algoritmo de regressão que usa uma função logística nos recursos de entrada para prever a probabilidade da classe ou diretamente o rótulo da classe para a variável de destino. No segundo caso, o resultado representa um conjunto de categorias em vez de valores contínuos, o que significa que a regressão logística atua aqui como uma técnica de classificação. Um caso de uso típico de ciência de dados para regressão logística é prever a probabilidade de rotatividade de clientes.
M
Aprendizado de máquina (ML)
O aprendizado de máquina é um ramo da inteligência artificial (IA) que fornece um conjunto de algoritmos projetados para aprender padrões e tendências a partir de dados históricos. O objetivo do ML é prever resultados futuros e generalizar além dos pontos de dados do conjunto de treinamento sem ser explicitamente programado. Há dois tipos principais de algoritmos de aprendizado de máquina: supervisionado e não supervisionado, cada um representado por várias técnicas aplicáveis a diferentes casos de uso.
Média
A média é o valor médio aritmético de um conjunto de números, ou seja, a soma de todos os valores dividida pelo número de valores. Geralmente, é usado em conjunto com outras estatísticas para obter uma compreensão geral de todo o conjunto de dados.
Erro absoluto médio (MAE)
O erro absoluto médio (MAE) é a média aritmética de todos os erros absolutos dos valores previstos em comparação com os valores reais.
Erro médio quadrático (MSE)
O erro quadrático médio (MSE) é a média aritmética dos quadrados de todos os erros dos valores previstos em comparação com os valores reais.
Mediana
A mediana é o valor médio em um conjunto de números classificados em ordem crescente ou decrescente. Se houver um número par de valores no conjunto, a mediana é a média aritmética dos dois valores intermediários. A mediana é normalmente usada em conjunto com outras estatísticas para obter uma compreensão geral de todo o conjunto de dados e é especialmente útil para detectar possíveis outliers.
Modo
A moda é o valor (ou valores) mais frequente em um conjunto de dados.
Ajuste de modelo
O ajuste do modelo é o processo de ajuste dos hiperparâmetros para maximizar a precisão do modelo sem superajustá-lo.
Modelagem multivariada
A modelagem multivariada é o processo de modelagem da relação entre várias variáveis (preditores) definidas na etapa de seleção de recursos e a variável-alvo.
N
Naive Bayes
Naive Bayes é um grupo de algoritmos de classificação baseados no teorema de Bayes e em uma suposição de independência entre os recursos usados no classificador. Apesar de, na realidade, os recursos nem sempre serem independentes, os algoritmos Naive Bayes podem ser aplicados com sucesso em vários casos de uso de ciência de dados, como filtragem de spam ou análise de sentimentos.
Processamento de linguagem natural (NLP)
O Processamento de Linguagem Natural (PLN) é um ramo da ciência da computação que trata de fazer com que os aplicativos de computador entendam e analisem a linguagem humana escrita ou falada. As técnicas de PNL recebem dados de texto de entrada, geralmente não estruturados, convertem-nos em um formato estruturado, procuram padrões linguísticos e contextuais, categorizam-nos e extraem percepções valiosas desses dados. A PNL também envolve o aproveitamento da aprendizagem automática e da aprendizagem profunda para gerar linguagem, categorizá-la e realizar outras tarefas cognitivas usando a linguagem. Alguns exemplos de aplicativos de NLP são chatbots, conversores de fala para texto, análise de sentimentos e tradução automática.
Normalização
A normalização é o processo de redimensionamento dos dados para que todos os atributos tenham a mesma escala. A normalização é necessária para fazer uma comparação significativa entre os atributos e também é necessária para alguns algoritmos de aprendizado de máquina.
NoSQL
NoSQL significa "não apenas SQL". Um sistema de gerenciamento de banco de dados usado para armazenamento e recuperação de bancos de dados não relacionais (ou seja, não tabulares). Alguns exemplos de modelos de dados não relacionais são os bancos de dados de gráficos, documentos e valores-chave. Os sistemas NoSQL se beneficiam da alta flexibilidade e da velocidade operacional, além da possibilidade de serem dimensionados em muitos servidores".
Hipótese nula
A hipótese nula é um tipo de hipótese que afirma o oposto da hipótese alternativa a ser verificada, ou seja, que não existe relação estatística significativa entre as duas variáveis e que as observações são todas baseadas no acaso. Uma hipótese nula pode ser rejeitada ou confirmada durante um experimento estatístico.
O
Código aberto
Código aberto refere-se a software e recursos de licença livre disponíveis para outras modificações e compartilhamento. As ferramentas de código aberto facilitam a colaboração entre os usuários e geralmente são mais estáveis, pois os pesquisadores podem adicionar recursos novos e úteis ou corrigir problemas técnicos e bugs relatados pela comunidade.
Variável ordinal
Uma variável ordinal é uma variável que pode ter um de um número limitado de valores possíveis com uma ordenação intrínseca envolvida. Um exemplo seria uma coluna de resposta de pesquisa em que as respostas são ordenadas por intensidade (por exemplo, "Discordo totalmente", "Discordo", "Neutro", "Concordo" ou "Concordo totalmente").
Excedente
Um outlier é um valor anormal em um conjunto de dados que se desvia consideravelmente do restante das observações. Os valores atípicos podem ser evidência de um erro de medição ou de um evento extraordinário.
Ajuste excessivo
Overfitting refere-se a quando um modelo aprende muitas informações do conjunto de treinamento, incluindo possíveis ruídos e outliers. Como resultado, ele se torna muito complexo, muito condicionado ao conjunto de treinamento específico e não consegue ter um desempenho adequado em dados não vistos. O ajuste excessivo leva a uma alta variação na troca de viés-variância.
P
Parâmetro
Um parâmetro é uma variável nomeada passada para uma função em programação e ciência de dados. No aprendizado de máquina, os parâmetros são um componente interno de um algoritmo a ser aprendido com os dados. Alguns algoritmos de aprendizado de máquina são paramétricos com um conjunto fixo de parâmetros (por exemplo, regressões lineares e logísticas), enquanto outros são não paramétricos (por exemplo, k-nearest neighbors).
Precisão
A precisão é uma métrica de avaliação usada para estimar o desempenho de um modelo de aprendizado de máquina, mostrando a proporção do número de casos positivos previstos corretamente em relação ao número total de casos positivos previstos.
Análise preditiva
A análise preditiva é o processo de análise de dados históricos usando várias ferramentas de análise estatística, mineração de dados, visualização de dados e aprendizado de máquina, para fazer previsões sobre eventos futuros em um determinado negócio.
Análise de componentes principais (PCA)
A análise de componentes principais (PCA) é uma técnica estatística de análise de fatores e redução de dimensionalidade que transforma um conjunto de recursos iniciais possivelmente correlacionados em um conjunto menor de recursos linearmente não correlacionados chamados de componentes principais. Dessa forma, a PCA preserva o máximo possível de variação no conjunto de dados e, ao mesmo tempo, minimiza o número de recursos.
Python
Python é uma linguagem de programação de alto nível, de código aberto e orientada a objetos. O Python é muito popular no campo da ciência de dados, mas também é amplamente usado para programação de uso geral na ciência da computação. Ele é intuitivamente compreensível e fácil de aprender e usar, ao mesmo tempo em que continua sendo uma fonte muito poderosa para resolver problemas complexos. O Python oferece uma extensa biblioteca padrão e muitos módulos adicionais úteis, além de ser constantemente desenvolvido, aprimorado e expandido.
R
R
O R é uma linguagem de programação popular e um software gratuito amplamente utilizado para solucionar problemas de ciência de dados e aprendizado de máquina, especialmente famoso por seu poder de computação estatística e soluções incríveis de visualização de dados. Ele inclui várias ferramentas e pacotes de ciência de dados, pode ser usado em muitos sistemas operacionais e tem uma forte comunidade on-line.
Floresta aleatória
O Random Forest é um algoritmo de aprendizado supervisionado usado para problemas de regressão ou classificação. O Random Forest combina os resultados de muitas árvores de decisão em um único modelo. As previsões de uma floresta aleatória representam essencialmente o resultado médio de todas as árvores de decisão, portanto, esse algoritmo fornece resultados mais precisos do que apenas uma única árvore de decisão.
Recall
A revocação é uma métrica de avaliação usada para estimar o desempenho de um modelo de aprendizado de máquina, mostrando a proporção do número de casos positivos previstos corretamente em relação ao número total de casos positivos reais.
Regressão
A regressão é um problema de aprendizado supervisionado em que é necessário prever resultados contínuos com base em recursos de entrada. Um modelo de regressão aprende a relação entre um ou vários recursos independentes e a variável-alvo e, em seguida, usa a função estabelecida para prever dados não vistos. Exemplos do algoritmo de regressão são a regressão linear e a regressão de cumeeira. Um problema típico de regressão é a previsão de preços.
Aprendizado por reforço (RL)
O aprendizado por reforço (RL) é um ramo autônomo do aprendizado de máquina (nem supervisionado nem não supervisionado) em que um algoritmo aprende gradualmente ao interagir com um ambiente. A RL toma decisões com base em sua experiência anterior sobre quais ações podem aproximá-la de um objetivo declarado. Ao receber recompensas pelas ações corretas e penalidades pelas erradas, o algoritmo descobre a estratégia ideal para maximizar seu desempenho. Exemplos de algoritmos de RL incluem sistemas de aprendizado de máquina para jogos, como mecanismos de xadrez e agentes de videogame.
Banco de dados relacional
Um banco de dados relacional é um tipo de banco de dados que armazena dados em várias tabelas relacionadas entre si por meio de IDs (chaves) exclusivas, a partir das quais os dados podem ser acessados, extraídos, resumidos ou remontados de diferentes maneiras.
Raiz do erro quadrático médio (RMSE)
A raiz do erro quadrático médio (RMSE) é a raiz quadrada do erro quadrático médio. Essa métrica de avaliação é mais intuitiva do que a MSE porque o resultado pode ser entendido mais facilmente, usando as mesmas unidades de medida que os dados originais.
S
Erro de amostragem
O erro de amostragem é a diferença estatística entre a população inteira dos dados e seu subconjunto (uma amostra), devido ao fato de a amostra não incluir todos os elementos da população inteira.
SQL
SQL (structured query language) é uma linguagem de programação projetada para interagir com sistemas de gerenciamento de bancos de dados relacionais (RDBMS). O SQL tem várias variantes, incluindo SQLite, PostgreSQL e MySQL. Alguns deles são gratuitos e de código aberto. Todas as variantes têm uma sintaxe bastante semelhante, com pequenas variações na funcionalidade adicional.
Desvio padrão
O desvio padrão é a raiz quadrada da variação de uma população. O desvio padrão mostra a quantidade de dispersão dos valores e é mais intuitivo do que a variação, pois está nas mesmas unidades de medida que os dados.
Aprendizagem supervisionada
O aprendizado supervisionado é um ramo do aprendizado de máquina que se preocupa em ensinar um modelo em um conjunto de treinamento rotulado de dados históricos. O aprendizado supervisionado aprende a relação entre entradas e saídas e, em seguida, mede a precisão com que prevê as saídas de um conjunto de testes com as saídas reais conhecidas. Dessa forma, ele pode ser usado posteriormente para fazer previsões com base em dados completamente novos. Os algoritmos de aprendizado supervisionado incluem regressões lineares e logísticas, árvores de decisão e SVM. Exemplos de tarefas comuns incluem a previsão de preços de imóveis e a classificação de mensagens como spam ou ham.
SVM
O SVM (Support Vector Machine) é um algoritmo de aprendizado supervisionado usado principalmente para classificação, mas também para problemas de regressão. Em um problema de classificação, o SVM fornece um hiperplano ideal que separa as observações de ambas as classes (no caso de uma classificação multiclasse, o algoritmo divide o problema em um conjunto de problemas binários). Em um problema de regressão, o SVM fornece o hiperplano de melhor ajuste dentro de um limite definido.
Dados sintéticos
Dados sintéticos são dados criados artificialmente. Os dados sintéticos geralmente refletem as propriedades estatísticas do conjunto de dados inicial, de modo que podem ser usados em esferas de alta privacidade, como bancos e saúde, ou para aumentar um conjunto de dados existente com observações adicionais de dados estatisticamente representativos.
T
Variável-alvo
Uma variável-alvo (também chamada de variável dependente) é a variável a ser prevista em um algoritmo de aprendizado de máquina usando recursos; por exemplo, se estivermos prevendo a probabilidade de diabetes usando altura, peso e ingestão de açúcar, o status do diabetes é a variável-alvo que queremos prever.
Conjunto de teste
Um conjunto de teste é um subconjunto dos dados disponíveis isolados antes da criação de um modelo, geralmente entre 20 e 30% de todo o conjunto de dados. Os conjuntos de teste são usados para avaliar a precisão dos modelos ajustados em um conjunto de treinamento.
Séries temporais
Uma série temporal é uma sequência de observações de uma variável tomada em momentos diferentes e classificada em ordem temporal. Normalmente, as medições de séries temporais são feitas em pontos sucessivos e igualmente espaçados no tempo. Alguns exemplos de séries temporais são os preços do mercado de ações ou a temperatura em um determinado período de tempo.
Conjunto de treinamento
Um conjunto de treinamento é um subconjunto dos dados disponíveis isolados antes da criação de um modelo, geralmente de 70 a 80% do conjunto de dados inteiro. Um conjunto de treinamento é usado para ajustar o modelo que será posteriormente testado no conjunto de teste.
Negativo verdadeiro (TN)
Verdadeiro negativo (TN) é um resultado em que o modelo prevê corretamente a classe negativa para uma variável de destino binária (ou seja, prevê "Falso" para um rótulo real de Falso).
Verdadeiro positivo (TP)
Verdadeiro positivo (TP) é um resultado em que o modelo prevê corretamente a classe positiva para uma variável de destino binária (ou seja, prevê "Verdadeiro" para um rótulo real de Verdadeiro).
U
Ajuste insuficiente
Subajuste é quando um modelo não consegue detectar os padrões do conjunto de treinamento porque foi criado com base em informações insuficientes. Como resultado, o modelo é muito simples e não apresenta bom desempenho em dados não vistos, nem no próprio conjunto de treinamento. Os modelos não ajustados têm alta tendência.
Modelagem univariada
A modelagem univariada é o processo de modelagem da relação entre uma única variável (um preditor) e a variável-alvo. A modelagem univariada é normalmente usada com séries temporais.
Dados não estruturados
Dados não estruturados são aqueles que não se encaixam em uma estrutura de dados predefinida, como a estrutura típica de linha-coluna de um banco de dados. Exemplos de tais dados são imagens, e-mails, documentos de texto, vídeos e áudio.
Aprendizado não supervisionado
O aprendizado não supervisionado é uma classe de algoritmos de aprendizado de máquina que aprende a estrutura subjacente de um conjunto de dados sem receber uma variável de destino. O aprendizado não supervisionado é usado para descobrir padrões comuns nos dados, agrupar os valores com base em seus atributos e, posteriormente, fazer previsões sobre dados não vistos. O algoritmo de aprendizado não supervisionado mais comum é o k-means. Exemplos de tarefas comuns são a detecção de anomalias e a segmentação de clientes com base em características comuns.
V
Variação
A variação é a diferença média ao quadrado entre os valores individuais e a média de todo o conjunto de valores em matemática e estatística. Em outras palavras, a variância mostra a dispersão dos valores. No aprendizado de máquina, a variação é um erro causado pela sensibilidade de um modelo a pequenas variações no conjunto de treinamento. A alta variância reflete uma tendência do modelo de aprender ruídos aleatórios dos recursos de entrada, o que leva ao superajuste do modelo.
W
Raspagem da Web
Web scraping é o processo de extração de dados específicos de sites para uso posterior. A raspagem da Web pode ser feita automaticamente, escrevendo um programa para capturar as informações necessárias de um site.
Z
Z-Score
O Z-Score (também chamado de pontuação padronizada, pontuação padrão ou pontuação normal) é o número de unidades de desvio padrão pelo qual o valor de uma observação de dados está acima ou abaixo do valor médio de todo o conjunto de valores. Um escore z igual a 0 significa que a observação dos dados está próxima da média.
blog
Guia de casos de uso de ciência de dados
blog
O que é alfabetização em dados? Um guia para líderes de dados e análise
blog
O que é ciência de dados? Definição, exemplos, ferramentas e mais
blog
As 10 principais ferramentas de ciência de dados a serem usadas em 2024
blog
O que significa cultura de dados? Guia abrangente para uma organização mais orientada por dados
blog
Um roteiro de ciência de dados para 2024
Mark Graus
15 min