Pular para o conteúdo principal

Regressão linear no Excel: Um guia abrangente para iniciantes

Um guia passo a passo sobre como realizar regressão linear no Excel, interpretar resultados e visualizar dados para obter insights acionáveis.
Actualizado 16 de jan. de 2025  · 11 min de leitura

O que é regressão linear?

A regressão linear é uma das técnicas mais simples de aprendizado de máquina. Envolve a previsão do valor de uma variável dependente com base em uma ou mais variáveis independentes.

Por exemplo, a regressão linear pode ser aplicada para prever os preços das casas com base no tamanho da casa ou para prever o peso de uma pessoa com base em sua altura. Os modelos de regressão linear são categorizados principalmente em dois tipos: regressão linear simples e múltipla.

  • A regressão linear simples se concentra na modelagem da relação entre uma variável dependente e uma variável independente.
  • A regressão linear múltipla envolve várias variáveis independentes para prever a variável dependente.

Linha de regressão que exibe a relação entre o preço do imóvel e o tamanho.

Imagem da OpenAI

O gráfico acima representa uma regressão linear simples, modelando a relação entre o tamanho da casa (variável independente) e o preço da casa (variável dependente). Conforme observado na visualização, quanto maior a casa, mais cara ela é.

A equação da linha de regressão é:

y = mx + c + ⍷

Se a fórmula acima parece familiar, é porque você provavelmente aprendeu na escola que y = mx + c é a equação de uma linha reta. Nessa equação:

  • Y é a variável dependente
  • X é a variável independente
  • M é a inclinação, quantificando a alteração na variável dependente para uma alteração de uma unidade na variável independente.
  • C é o intercepto y, que representa o valor de y quando x é 0.

⍷ representa o termo residual ou de erro. Essa é a diferença entre o valor real e o valor previsto pelo valor da regressão. distingue uma linha de regressão de uma linha reta puramente determinística, fazendo com que a relação entre x e y não seja perfeitamente previsível.

Para obter um guia mais detalhado sobre o assunto, leia nosso artigo que explica os fundamentos da regressão linear.

Por que usar o Excel para regressão linear?

Aqui estão alguns fatores que tornam o Excel uma ferramenta eficaz para a realização de regressão linear:

1. Plataforma unificada

Em 2024, o Excel era usado por mais de 731.000 empresas nos Estados Unidos e por inúmeras outras em todo o mundo, conforme relatado pelo Statista. Os executivos de todos os níveis organizacionais usam o Excel para fins de gerenciamento de dados e geração de relatórios.

Ao criar modelos preditivos como regressão linear no Excel, as empresas podem consolidar seus relatórios e atividades de modelagem preditiva em uma única plataforma. Isso permite que as organizações otimizem os fluxos de trabalho em vez de precisar alternar constantemente entre ambientes de programação e planilhas do Excel.

2. Facilidade de uso

Se você for um iniciante no setor de dados, a simples ideia de criar um modelo preditivo pode parecer intimidadora devido à codificação envolvida. O Excel simplifica esse processo, permitindo que você trabalhe em uma interface com a qual já está familiarizado. Com o Excel, a construção de um modelo de regressão linear se torna um processo simples, que pode ser realizado com apenas alguns cliques.

3. Relatórios e visualização

O Excel oferece recursos avançados de visualização, permitindo que você faça gráficos da relação entre diferentes variáveis para entendê-las melhor. Além disso, ele simplifica a criação de relatórios, garantindo que as visualizações possam ser facilmente incorporadas em apresentações do PowerPoint para uma comunicação eficaz com as partes interessadas.

Como implementar a regressão linear no Excel

Antes de se aprofundar neste tutorial, baixe o conjunto de dados disponível neste repositório do GitHub. Esse conjunto de dados foi criado especificamente pela OpenAI para fins educacionais. Se você dominar as operações básicas de planilhas, como inserir dados, aplicar fórmulas simples e navegar pelas planilhas, poderá acompanhar melhor este tutorial.

Etapa 1: Conjunto de ferramentas de análise de dados no Excel

Primeiro, precisamos ativar o Data Analysis ToolPak no Excel. Esse é um programa suplementar do Excel que fornece várias ferramentas de análise de dados, incluindo a que usaremos para regressão linear.

Para fazer isso, primeiro abra o arquivo do Excel e navegue até Arquivo -> Opções. Na caixa de diálogo Opções, selecione Suplementos -> Suplementos do Excel e clique em Ir:

Localizando suplementos do Excel

Na caixa de diálogo Add-ins, marque a opção Analysis ToolPak e clique em OK.

Como ativar o Analysis ToolPak no Excel

Agora você deve ver as ferramentas de análise de dados na guia Data (Dados).

Etapa 2: Execução de regressão linear no Excel

Agora que ativamos o Data Analysis ToolPak, podemos continuar a executar a regressão linear no conjunto de dados. Abra o conjunto de dados de vendas de sorvete e navegue até a guia Data (Dados ). No grupo Análise, clique em Análise de dados.

Selecionando as ferramentas de "Análise de dados" no grupo "Análise" do Excel

Em seguida, selecione Regressão na lista de ferramentas de análise e clique em OK.

Localizando a ferramenta de regressão do Excel

Na caixa de diálogo de regressão, para o intervalo Y de entrada, selecione a coluna que contém os dados de vendas de sorvete. Para o intervalo Input X, selecione as colunas que contêm dados de temperatura e preço. Certifique-se de que a caixa Rótulos esteja marcada, pois isso ajudará o Excel a reconhecer os cabeçalhos e a tratar as linhas restantes como dados numéricos. Na seção Opções de saída , selecione New Worksheet Ply para ver os resultados exibidos em uma nova planilha.

Realização de regressão linear no Excel

Em seguida, clique em OK para executar a análise de regressão no conjunto de dados.

Etapa 3: Interpretação dos resultados

Depois de realizar a regressão, você verá uma nova planilha aparecer automaticamente no arquivo do Excel, mostrando uma série de tabelas de resultados com a seguinte aparência:

Tabela de saída do Excel após realizar a regressão linear

Os resultados da saída da regressão foram divididos em vários componentes: estatísticas de regressão, ANOVA, coeficientes, erro padrão, t Stat, valor P e intervalo de confiança.

Vamos examinar cada um desses componentes com mais detalhes:

1. Resumo das estatísticas

O Excel informa as seguintes estatísticas resumidas como resultado da análise de regressão:

Múltiplo R

Esse é um coeficiente de correlação que mede a força e a direção de uma relação linear entre variáveis. Ele varia de -1 a 1, sendo que valores próximos a -1 ou 1 indicam uma relação forte e valores próximos a 0 sugerem que não há correlação.

Em nossa análise, o coeficiente de correlação é de aproximadamente 0,65, mostrando uma correlação positiva moderada entre nossa variável dependente (vendas de sorvete) e as variáveis independentes (preço e temperatura).

R Quadrado

O R2 é uma medida estatística que nos informa quão bem os dados se ajustam ao modelo de regressão. É o quadrado do coeficiente de correlação, Multiple R, e representa a proporção da variação na variável dependente que pode ser explicada pelas variáveis independentes.

O R2 varia de 0 a 1, sendo que os valores mais próximos de 1 sugerem um melhor ajuste do modelo. NossoR2 é de aproximadamente 0,419, o que significa que cerca de 41,9% da variação nas vendas de sorvete pode ser explicada pelo modelo.

Quadrado R ajustado

Esse é o valor R-quadrado ajustado para o número de preditores no modelo. Em geral, é uma medida melhor ao comparar modelos com diferentes números de preditores. Em nosso caso, oR2 ajustado é de 0,418. Isso é muito semelhante ao nossoR2, sugerindo que as variáveis independentes que incluímos (temperatura e preço) são relevantes para o modelo e não introduziram uma grande penalidade.

Erro padrão

O erro padrão mede a distância média que os valores observados ficam da linha de regressão. Um erro padrão menor é melhor, pois significa que a linha de regressão é um ajuste mais próximo dos dados.

Em nosso caso, o erro padrão é de aproximadamente 98,05, indicando que os valores reais de vendas de sorvete se desviam dos valores previstos em cerca de 98,05 unidades.

Observações

Refere-se ao número total de pontos de dados (linhas) analisados no conjunto de dados, excluindo os cabeçalhos.

2. ANOVA (Análise de Variância)

ANOVA significa Análise de Variância. É uma técnica estatística que fornece informações sobre o nível de variabilidade em um modelo de regressão:

Graus de liberdade (df)

Isso representa o número de valores no cálculo final que podem variar livremente. No contexto da ANOVA, "Regressão" df refere-se ao número de variáveis independentes no modelo, que é 2. O df "residual" é calculado subtraindo-se o número de variáveis independentes e 1 do número total de observações. No nosso caso, é 997.

Soma de quadrados (SS)

Isso quantifica a variação. O "SS de regressão" mede a variação na variável dependente que pode ser explicada pelo modelo. O "SS residual" representa a variação não explicada.

Quadrado médio (MS)

Isso é obtido dividindo-se a soma dos quadrados (SS) pelos graus de liberdade (df).

Estatística F (F)

Essa estatística determina a importância geral do modelo. Um valor F mais alto indica que o modelo se ajusta melhor aos dados.

Significância F

Esse é o valor P associado à estatística F. Um valor p muito pequeno (menor que 0,05) indica que seu modelo se ajusta melhor aos dados do que um modelo sem variáveis independentes. Em nosso caso, o valor de significância F é menor que 0,05, indicando que o modelo se ajusta bem aos dados.

3. Coeficientes

Coeficientes de interceptação, temperatura e preço

Os coeficientes representam a quantidade estimada de alteração na variável dependente para uma alteração de uma unidade na variável independente.

O coeficiente de temperatura indica que, a cada aumento de uma unidade na temperatura, as vendas aumentam em cerca de 9,66 unidades. Por outro lado, o coeficiente do preço indica que as vendas diminuem em aproximadamente 37,69 unidades com um aumento de uma unidade no preço.

4. Erro padrão

O erro padrão mede a distância média entre os valores observados e a linha de regressão. Um erro padrão menor indica um modelo melhor.

5. t Stat

A estatística t é o coeficiente dividido por seu erro padrão. Uma estatística t maior indica que o coeficiente é diferente de zero, o que significa que ele tem um impacto maior sobre a variável dependente.

6. Valor de p

Os valores de P nos informam a probabilidade de observar uma estatística t tão extrema quanto a observada sob a suposição de que a hipótese nula é verdadeira (ou seja, o coeficiente de uma variável independente é 0).

Em termos simples, quanto maior for a estatística t e menor for o valor P, maior será a evidência contra a hipótese nula, apoiando a conclusão de que as variáveis independentes (preço e temperatura) têm um impacto estatisticamente significativo sobre a variável dependente (vendas de sorvete).

7. Intervalos de confiança (95% inferior e 95% superior)

Intervalos de confiança da interceptação, temperatura e preço.

Os intervalos de confiança fornecem os limites inferior e superior dentro dos quais se espera que os coeficientes verdadeiros das variáveis independentes caiam, com um nível de confiança de 95%. Como os intervalos de confiança para preço e temperatura são diferentes de zero, esses coeficientes têm um impacto estatisticamente significativo na previsão de vendas de sorvete.

Como visualizar uma regressão linear no Excel

Visualizar a relação entre duas variáveis pode melhorar muito a compreensão que você tem do conjunto de dados. Embora o Analysis ToolPak do Excel forneça estatísticas resumidas detalhadas, uma representação gráfica pode mostrar instantaneamente a você a força e a direção de uma relação entre variáveis.

A criação de um gráfico de dispersão com uma linha de tendência é uma maneira eficaz de visualizar essa relação e pode ser feita em menos de cinco minutos. Essa técnica de visualização permite que você veja rapidamente como uma variável afeta outra.

Veja como você pode visualizar a relação entre "Vendas de sorvete" e "Temperatura":

1. Inserir um gráfico de dispersão

Primeiro, destaque as células que contêm as variáveis "Ice Cream Sales" (Vendas de sorvete) e "Temperature" (Temperatura). Em seguida, navegue até a guia "Insert" (Inserir) e clique no ícone do gráfico "Scatter" (Dispersão):

Inserção de um gráfico de dispersão no Excel

Você verá um gráfico de dispersão simples com a seguinte aparência:

Imagem de um gráfico de dispersão básico no Excel

2. Reetiquetar o gráfico e os eixos

Vamos agora renomear o gráfico para descrever com precisão a relação que estamos visualizando. Basta clicar no título do gráfico e alterá-lo para "Relação entre as vendas de sorvete e a temperatura".

Em seguida, para alterar o rótulo do eixo x, navegue até "Chart Design". No menu suspenso "Add Chart Element" (Adicionar elemento de gráfico), selecione "Axis Titles" (Títulos de eixo) -> "Primary Horizontal" (Horizontal primário):

Como estilizar um gráfico de dispersão no Excel

Clique no título padrão do eixo que aparece e digite "Ice Cream Sales" (Vendas de sorvete) para rotular o eixo com precisão. Faça o mesmo com o eixo y selecionando "Primary Vertical" e substituindo o título do eixo por "Temperature:"

Alterando os títulos dos eixos de um gráfico de dispersão no Excel

3. Adicionar uma linha de tendência

Observe que, embora o gráfico de dispersão revele uma direção geral na relação entre a temperatura e as vendas de sorvete, os pontos de dados parecem estar amplamente dispersos. Para resumir melhor essa relação, incluindo sua direção geral e inclinação, vamos incorporar uma linha de tendência ou uma linha de melhor ajuste.

Para adicionar uma linha de tendência a esse gráfico, basta clicar em qualquer ponto de dados nesse gráfico de dispersão. Essa ação selecionará todos os pontos de dados no gráfico. Em seguida, clique com o botão direito do mouse nos pontos de dados selecionados. No menu que aparece, escolha "Add Trendline:" (Adicionar linha de tendência).

Adição de uma linha de tendência ao gráfico de dispersão

Você deverá ver uma linha pontilhada aparecer no gráfico, ilustrando a direção geral da relação entre as variáveis:

Imagem de um gráfico de dispersão com uma linha de tendência

4. Formatar a linha de tendência

A linha de tendência parece fraca e sutil. Vamos ajustar sua formatação para melhorar a visibilidade.

Primeiro, clique na linha de tendência para selecioná-la. O painel de tarefas "Formatar linha de tendência" aparecerá no lado direito da janela do Excel. Nesse painel de tarefas, selecione a opção "Fill & Line" (Preenchimento e linha). Em seguida, aumente a largura da linha de tendência para 3 pontos e altere sua cor para vermelho:

Formatação de uma linha de tendência no Excel

Agora, criamos com sucesso uma visualização para entender melhor a relação entre as vendas de sorvete e a temperatura.

Apenas observando o gráfico acima, podemos dizer que há uma relação positiva entre a temperatura e as vendas de sorvete. Conforme a temperatura aumenta, parece que as vendas de sorvete também aumentam, indicando que a temperatura é um indicador significativo das vendas de sorvete.

Observe que essa observação é semelhante à que derivamos dos resultados da análise de regressão na seção anterior.

Considerações finais

Agora você tem uma sólida noção de como realizar a regressão linear no Excel, interpretar várias medidas estatísticas para avaliar o ajuste de um modelo e visualizar a análise de regressão usando gráficos de dispersão e linhas de tendência.

Mas a jornada não termina aqui.

Acredite você ou não, a modelagem preditiva está apenas começando, e há muito mais a aprender. Aqui estão algumas possíveis próximas etapas para você aprofundar seu conhecimento sobre o assunto.

Prática

Pratique os conceitos que você aprendeu neste artigo para garantir que não os esqueça. Por exemplo, pegue o conjunto de dados usado neste tutorial e crie um gráfico de dispersão para ilustrar a relação entre as vendas e os preços do sorvete.

Você pode até mesmo dar um passo adiante, aprendendo a exibir a equação de regressão na linha de tendência.

Domínio do Excel

Como já foi dito anteriormente neste artigo, o uso extensivo do Excel em várias organizações faz com que ele seja muito requisitado. Ter um bom domínio do Excel pode aumentar significativamente suas chances de emprego em vários setores, devido à sua ampla aplicação.

Se você encontrou dificuldades ao seguir este tutorial ou se ainda não se sente confortável com as fórmulas do Excel, considere a possibilidade de se inscrever em nosso curso de aprendizado de Fundamentos do Excel. Este curso apresentará a você várias técnicas de visualização de dados, tabelas dinâmicas e funções lógicas, como COUNTIFs e IFs aninhados, preparando o caminho para o domínio do Excel.

Avance em sua carreira com o Excel

Adquira as habilidades para maximizar o Excel - não é necessário ter experiência.

Comece hoje gratuitamente

Aprenda Python ou R

Embora o Excel seja uma excelente ferramenta para geração de relatórios, visualização de dados e criação de apresentações, seus recursos de pré-processamento e modelagem de dados são um tanto limitados.

Por exemplo, a criação de uma divisão de treinamento-teste para avaliar o desempenho do seu modelo de regressão - um procedimento padrão em projetos de ciência de dados - pode consumir muito tempo com o Excel. A ferramenta não foi criada para lidar com fluxos de trabalho complexos de ciência de dados.

Por isso, você deve considerar incorporar linguagens de programação como Python ou R ao seu conjunto de habilidades para aprimorar seus recursos de modelagem e ampliar suas perspectivas de carreira.

Se você não sabe por onde começar a programar, considere fazer o curso Introduction to Python. Como alternativa, se você preferir uma linguagem de programação com maior foco em pacotes estatísticos, nosso curso Introduction to R seria uma excelente opção.

Torne-se um cientista de ML

Domine as habilidades em Python para se tornar um cientista de aprendizado de máquina

Natassha Selvaraj's photo
Author
Natassha Selvaraj
LinkedIn
Twitter

Natassha é uma consultora de dados que trabalha na interseção da ciência de dados e do marketing. Ela acredita que os dados, quando usados com sabedoria, podem inspirar um enorme crescimento para indivíduos e organizações. Como uma profissional de dados autodidata, Natassha adora escrever artigos que ajudem outros aspirantes à ciência de dados a entrar no setor. Seus artigos em seu blog pessoal, bem como em publicações externas, obtêm uma média de 200 mil visualizações mensais.

Temas

Comece sua jornada de regressão hoje mesmo!

Certificação disponível

curso

Inferência para regressão linear no R

4 hr
14.2K
Neste curso, você aprenderá a fazer inferência usando modelos lineares.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow