Vai al contenuto principale

Regressione lineare semplice: tutto quello che devi sapere

Impara la regressione lineare semplice. Padroneggia l’equazione del modello, comprendi ipotesi e diagnostiche chiave e scopri come interpretare efficacemente i risultati.
Aggiornato 3 giu 2026  · 7 min leggi

Ogni storia inizia da qualche parte e, per l’analista o lo scienziato dei dati, spesso l’inizio è la regressione lineare semplice. Di fatto, la regressione lineare semplice è forse il modello più fondamentale di tutti. Quindi, se vuoi davvero diventare data analyst o data scientist, la regressione lineare semplice (e le regressioni in generale) è qualcosa che devi assolutamente conoscere.

La regressione vale la pena di essere imparata non solo perché è una tecnica preziosissima per rispondere a domande pressanti in praticamente ogni campo, ma anche perché apre la porta a una comprensione più profonda di una grande varietà di altri argomenti, come il test d’ipotesi, l’inferenza causale e la previsione. Dai un’occhiata oggi stesso ai nostri corsi Introduction to Regression in R e Introduction to Regression with statsmodels in Python.

Che cos’è la regressione lineare semplice? 

La regressione lineare semplice è una regressione lineare con una variabile indipendente, detta anche variabile esplicativa, e una variabile dipendente, detta anche variabile di risposta. Nella regressione lineare semplice, la variabile dipendente è continua. 

Stimatore dei minimi quadrati ordinari 

Il modo più comune per fare una regressione lineare semplice è tramite la stima a minimi quadrati ordinari (OLS). Poiché l’OLS è di gran lunga il metodo più usato, la parte “minimi quadrati ordinari” è spesso sottintesa quando si parla di regressione lineare semplice.

I minimi quadrati ordinari funzionano minimizzando la somma delle differenze al quadrato tra i valori osservati (i dati reali) e i valori predetti dalla retta di regressione. Queste differenze sono chiamate residui e, elevandole al quadrato, ci si assicura che residui positivi e negativi siano trattati allo stesso modo. 

Come si usa la regressione lineare semplice

La regressione lineare semplice aiuta a fare previsioni e a capire le relazioni tra una variabile indipendente e una dipendente. Per esempio, potresti voler sapere come l’altezza di un albero (variabile indipendente) influisce sul numero di foglie che ha (variabile dipendente). Raccogliendo dati e adattando un modello di regressione lineare semplice, potresti predire il numero di foglie in base all’altezza dell’albero. Questa è la parte del “fare previsioni”. Ma questo approccio rivela anche di quanto cambia, in media, il numero di foglie man mano che l’albero cresce in altezza, ed è così che la regressione lineare semplice viene usata anche per comprendere le relazioni.  

Equazione della regressione lineare semplice

Diamo un’occhiata all’equazione della regressione lineare semplice. Possiamo iniziare guardando la forma esplicita della retta, usando la notazione comune nei libri di geometria o algebra. Cioè, partiamo dall’inizio.

slope-intercept equation

Qui

  • m è la pendenza della retta
  • b è l’intercetta

Nel contesto della data science, è più probabile vedere invece questa equazione: 

simple linear regression equation

Dove

  • b0 è l’intercetta sull’asse y 
  • b1 è la pendenza

La notazione con b0 e b1 ci aiuta a capire che stiamo facendo una previsione su y, motivo per cui la chiamiamo ŷ, o y-cappello, dato che non ci aspettiamo che la retta di regressione passi davvero per tutti i punti. 

La seguente visualizzazione mostra la differenza concettuale tra la forma esplicita della retta, a sinistra, e l’equazione di regressione, a destra. Nel linguaggio dell’algebra lineare, diremmo che il sistema di equazioni lineari è sovradeterminato, cioè ci sono più equazioni (una trentina) che incognite (due), quindi non ci aspettiamo di trovare una soluzione.

slope-intercept form vs. simple linear regressionForma esplicita vs. equazione della regressione lineare semplice. Immagine dell’autore

Coefficienti del modello di regressione lineare semplice

Se usassimo soltanto l’equazione della retta, troveremmo i valori di m (pendenza) e b (intercetta) calcolando prima la pendenza come “salita su corsa” (rise over run), cioè misurando la variazione di y sulla variazione di x tra due punti della retta. Poi, una volta trovata la pendenza, troveremmo l’intercetta b sostituendo le coordinate di un punto della retta nell’equazione e risolvendo per b. Questo passaggio finale ti dà il punto in cui la retta incrocia l’asse y.

Questo non funziona nella regressione perché non esiste una retta che passi per tutti i punti, ed è per questo che cerchiamo invece la retta di miglior adattamento. Fortunatamente, esistono equazioni pulite in forma chiusa per trovare pendenza e intercetta. 

La pendenza si può calcolare moltiplicando la correlazione r per il rapporto tra la deviazione standard di y e la deviazione standard di x. Questo ha senso intuitivamente perché stiamo sostanzialmente riconvertendo il coefficiente di correlazione nelle unità delle variabili originali. Nell’equazione qui sotto, a indica la pendenza e sy e sx si riferiscono rispettivamente alla deviazione standard di y e alla deviazione standard di x.

simple linear regression slope equation

L’intercetta della retta di miglior adattamento per la regressione lineare semplice può essere calcolata dopo aver calcolato la pendenza. Lo facciamo sottraendo dal valore medio di y il prodotto tra la pendenza e il valore medio di x. Nell’equazione seguente, i indica l’intercetta e la lineetta sopra i valori di x e y è un modo per riferirsi alla media di x e alla media di y rispettivamente; ci riferiamo a questi termini come x-barra e y-barra.

simple linear regression intercept equation

Per completezza, possiamo esplorare modi alternativi di scrivere queste equazioni. Ricorda che la deviazione standard è la radice quadrata della varianza, quindi invece di riferirci alla deviazione standard di y e di x, potremmo anche riferirci alla radice quadrata della varianza di y e alla radice quadrata della varianza di x. La varianza, ricordiamo, è la media della somma dei quadrati. 

Nell’equazione della pendenza, a, potremmo anche esprimere sy e sx in termini di deviazione standard, e potremmo anche scrivere la forma estesa della correlazione r. Potremmo quindi moltiplicare in croce e semplificare l’equazione rimuovendo i termini comuni e ottenere il seguente insieme di equazioni per pendenza e intercetta. Il punto qui non è tanto mostrare come un’equazione diventi l’altra, quanto sottolineare che entrambe sono equivalenti, dato che potresti imbatterti nell’una o nell’altra. 

simple linear regression slope and intercept equations

Un’altra conseguenza interessante è che la retta di regressione lineare semplice passerà per il punto centrale, cioè la media di x e la media di y. In altre parole, la regressione lineare semplice interseca la media sia della variabile indipendente sia di quella dipendente, indipendentemente dalla distribuzione dei punti, il che conferisce alla regressione semplice una sorta di proprietà di “bilanciamento”.

Altri modi per trovare i coefficienti del modello di regressione lineare semplice 

Abbiamo visto come trovare i coefficienti del modello di regressione lineare semplice usando comode equazioni. Qui guardiamo più in dettaglio altri metodi che coinvolgono algebra lineare e calcolo. Gli ambienti di programmazione, in particolare, risolvono con tecniche più avanzate perché più rapide e precise (il discorso dell’elevamento al quadrato per trovare la varianza può ridurre la precisione).

  • Algebra lineare: Esistono tecniche di algebra lineare per trovare i coefficienti di una regressione lineare semplice. Possiamo trovare i coefficienti in un modello di regressione semplice risolvendo quella che è nota come equazione normale. L’equazione normale è interessante ma poco consigliabile con dataset grandi perché implica l’inversione di matrici, che può essere costosa. Un’altra tecnica di algebra lineare è risolvere tramite decomposizione QR, che non richiede inversione di matrici ed è nota per essere numericamente stabile.
  • Calcolo: Potremmo trovare pendenza e intercetta di un modello di regressione semplice prendendo le derivate parziali della somma degli errori al quadrato (SSE) rispetto a pendenza e intercetta e ponendole uguali a zero per risolvere i coefficienti. Questa è un’opzione. Un’altra opzione legata al calcolo è la discesa del gradiente, una tecnica iterativa di ottimizzazione che può essere usata per minimizzare l’SSE e trovare pendenza e intercetta. La discesa del gradiente è strettamente legata al calcolo perché si basa sul gradiente, ovvero il vettore delle derivate parziali.

Assunzioni del modello di regressione lineare semplice

Vediamo ora le principali assunzioni del modello di regressione lineare semplice. Se queste assunzioni vengono violate, potremmo voler considerare un approccio diverso. Le prime tre, in particolare, sono assunzioni forti e non andrebbero ignorate.

  1. Linearità: La relazione tra variabile indipendente e dipendente deve essere lineare. Se la relazione è non lineare, il modello non la catturerà bene.
  2. Indipendenza degli errori: I residui dovrebbero essere indipendenti tra loro. Questo significa che non dovrebbero esserci schemi o correlazioni tra i residui. È qualcosa da monitorare con attenzione nei dati ordinati nel tempo.
  3. Omoschedasticità: I residui dovrebbero avere varianza costante per tutti i valori della variabile indipendente. Se la varianza cambia (eteroschedasticità), le previsioni in alcune fasce di x possono diventare meno accurate.
  4. Normalità dei residui: I residui idealmente dovrebbero seguire una distribuzione normale, o gaussiana. Questo è importante per i test statistici e per affermare livelli di confidenza nella nostra stima. È meno critico per fare previsioni. 

Valutazione del modello di regressione lineare semplice

Supponiamo di aver creato un modello di regressione lineare semplice. Come facciamo a sapere se si adatta bene? Per rispondere, possiamo guardare i grafici diagnostici e le statistiche del modello. 

Grafici diagnostici per la regressione lineare semplice

I grafici diagnostici ci aiutano a vedere se un modello di regressione lineare semplice si adatta bene e non viola le nostre assunzioni. Qualsiasi schema o deviazione in questi grafici suggerisce problemi di modello da affrontare o informazioni non catturate. Un grafico diagnostico specifico per la regressione semplice è quello dei valori di x contro i residui, come puoi vedere sotto. Altri grafici includono il Q-Q plot, lo scale-location plot, il numero dell’osservazione vs. distanza di Cook e altri. 

simple linear regression diagnostic plotGrafico diagnostico valori di x vs. residui. Immagine dell’autore

Statistiche del modello di regressione lineare semplice

Statistiche come R-quadro e R-quadro aggiustato quantificano quanto bene la variabile indipendente spiega la varianza della variabile dipendente. L’F-statistic testa la significatività complessiva del modello e i p-value dei coefficienti ci dicono l’impatto dei singoli predittori. 

Come interpretare un modello di regressione lineare semplice

Quando interpreti i risultati della regressione lineare semplice, è bene essere precisi nel modo in cui si parla della relazione tra variabile indipendente e variabile dipendente.

Come interpretare pendenza e intercetta

In particolare, bisogna fare attenzione a come si parla dei due elementi chiave: la pendenza e l’intercetta.

  • L’intercetta indica dove la retta di regressione incrocia l’asse y. In termini pratici, rappresenta il valore della variabile dipendente quando la variabile indipendente è zero. È importante sapere che l’intercetta non è sempre interpretabile. Nel nostro esempio con gli alberi, il modello potrebbe aver predetto un certo numero di foglie per alberi con altezza zero. Non avrebbe avuto senso cercare di interpretare l’intercetta in questo contesto. 
  • La pendenza indica di quanto ci si aspetta che cambi la variabile dipendente al crescere di un’unità della variabile indipendente. Una pendenza positiva suggerisce una relazione positiva, in cui la variabile dipendente aumenta all’aumentare della variabile indipendente. Una pendenza negativa indica l’opposto.

Una cosa importante da considerare è che correlazione non implica causalità. Anche gli analisti che conoscono questo concetto possono comunque sbagliare nell’interpretare una regressione semplice perché non hanno molta dimestichezza con le parole da usare. Non diresti che l’altezza dell’albero causa più foglie, ma piuttosto potresti dire che un aumento di un’unità dell’altezza è associato a un aumento di un certo numero di foglie. 

Un’altra considerazione importante è che l’extrapolazione oltre l’intervallo dei dati potrebbe non fornire previsioni affidabili. Un modello che predice il numero di foglie dall’altezza dell’albero potrebbe non essere molto accurato per alberi molto bassi o molto alti, soprattutto se alberi così bassi o alti non sono stati considerati nella creazione del modello. 

Come pensare alle trasformazioni

I modelli lineari si chiamano così perché sono lineari nella loro forma funzionale. In particolare, nella regressione lineare semplice, la relazione tra la variabile risposta y e la variabile predittiva x è modellata come una combinazione lineare del predittore e di una costante. Detto questo, potresti sorprenderti da quanto si possa fare con una semplice regressione. Anche se il modello assume una relazione lineare tra le variabili, puoi introdurre trasformazioni per catturare relazioni non lineari.

Per esempio, considera la relazione non lineare che rappresenta la crescita degli antenati per generazione, dove il numero di antenati sembra crescere esponenzialmente a ogni generazione: due genitori, quattro nonni, otto bisnonni e così via. Non ti aspetteresti che un modello lineare catturi una crescita esponenziale, ma predicendo il log(y) invece di y, linearizzi la relazione. 

Pensandoci meglio, tuttavia, ti rendi conto che la crescita degli antenati non è esponenziale a causa di qualcosa chiamato “collasso dell’albero genealogico”, in cui il tasso di crescita rallenta drasticamente nel tempo perché antenati lontani compaiono in più punti dell’albero. Per questo motivo, prendere il log(y) potrebbe aver amplificato eccessivamente il nostro modello. Ora, per attenuare questo effetto, possiamo creare una nuova variabile come trasformazione radice quadrata su x e usarla come predittore. Non sto dicendo che questo modello sia corretto, né sto cercando di interpretarlo pienamente, ma voglio mostrare come log(y) e la radice quadrata di x siano trasformazioni non lineari che entrano nell’equazione in modo lineare rispetto ai coefficienti, quindi abbiamo comunque una regressione lineare semplice.  

Regressione lineare semplice in R e Python

Consideriamo la regressione lineare semplice in R e Python.

R programming

R è un’ottima opzione per la regressione lineare semplice.

Calcolare manualmente pendenza e intercetta

Possiamo trovare noi stessi i coefficienti calcolando media e deviazione standard delle nostre variabili. 

# Manually calculate the slope and intercept in R

# Sample data
X <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)

# Calculate means
mean_X <- mean(X)
mean_y <- mean(y)

# Calculate standard deviations
sd_X <- sd(X)
sd_y <- sd(y)

# Calculate correlation
correlation <- cor(X, y)

# Calculate slope (b1) using the formula: b1 = (correlation * sd_y) / sd_X
slope <- (correlation * sd_y) / sd_X

# Calculate intercept (b0) using the formula: b0 = mean_y - slope * mean_X
intercept <- mean_y - slope * mean_X

# Print the slope and intercept
cat("Slope (b1):", slope, "\n")
cat("Intercept (b0):", intercept, "\n")

# Use the manually calculated coefficients to predict y values
y_pred <- intercept + slope * X
cat("Predicted values:", y_pred, "\n")

Usare la funzione lm()

In R, possiamo creare una regressione usando la funzione lm(), accessibile senza dover usare librerie. 

# Fit the model 
model <- lm(y ~ X) 

# Print the summary of the regression 
summary(model)

Python

Anche Python è un’ottima opzione per la regressione lineare semplice. 

Calcolare manualmente pendenza e intercetta

Qui troviamo media e deviazione standard per ciascuna variabile. 

import numpy as np

# Sample data
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])

# Calculate means
mean_X = np.mean(X)
mean_y = np.mean(y)

# Calculate standard deviations
sd_X = np.std(X, ddof=1)
sd_y = np.std(y, ddof=1)

# Calculate correlation
correlation = np.corrcoef(X, y)[0, 1]

# Calculate slope (b1) using the formula: b1 = (correlation * sd_y) / sd_X
slope = (correlation * sd_y) / sd_X

# Calculate intercept (b0) using the formula: b0 = mean_y - slope * mean_X
intercept = mean_y - slope * mean_X

# Print the slope and intercept
print(f"Slope (b1): {slope}")
print(f"Intercept (b0): {intercept}")

# Use the manually calculated coefficients to predict y values
y_pred = intercept + slope * X

print(f"Predicted values: {y_pred}")

Usare statsmodels

statsmodels è un’opzione per la regressione lineare semplice.

import statsmodels.api as sm

# Adding a constant for the intercept
X = sm.add_constant(X)

# Fit the model
model = sm.OLS(y, X)
results = model.fit()

# Print the summary of the regression
print(results.summary())

Regressione lineare semplice, t-test e ANOVA

La regressione lineare semplice è usata nel test d’ipotesi ed è centrale nei t-test e nell’analisi della varianza (ANOVA). 

Regressione lineare semplice e t-test

Il t-test è spesso usato per determinare se la pendenza della retta di regressione è significativamente diversa da zero. Questo test ci aiuta a capire se la variabile indipendente ha un effetto statisticamente significativo. In pratica, formuliamo un’ipotesi nulla che afferma che la pendenza della retta è uguale a zero, cioè non c’è relazione lineare, e il t-test valuta questa ipotesi. La regressione semplice si collega qui perché una regressione semplice con variabile indipendente binaria equivale a una differenza di medie, come nel t-test.

Regressione lineare semplice e ANOVA

L’analisi della varianza (ANOVA) è un metodo statistico usato per valutare l’adattamento complessivo del modello e determinare se la variabile indipendente spiega una quota significativa della varianza della variabile dipendente. Ciò che facciamo è suddividere la varianza totale della variabile dipendente in due componenti: la varianza spiegata dal modello di regressione (tra i gruppi) e la varianza dovuta ai residui o errore (all’interno dei gruppi). Il test F in ANOVA verifica essenzialmente se il modello di regressione, nel suo complesso, si adatta ai dati meglio di un modello senza predittori. Per esempio, nel nostro caso di altezza dell’albero e numero di foglie, l’ANOVA aiuterebbe a determinare se includere l’altezza migliora significativamente la capacità di predire il numero di foglie.

Alternative all’OLS nella regressione lineare semplice 

Abbiamo detto che i minimi quadrati ordinari sono di gran lunga lo stimatore più comune nella regressione semplice, e in questo articolo ci siamo concentrati sull’OLS. Tuttavia, dovremmo considerare che lo stimatore OLS è sensibile, o non robusto, agli outlier. Quindi aggiungere un punto dati altamente influente o ad alta leva potrebbe cambiare drasticamente pendenza e intercetta della retta.  

Per questo motivo, esistono opzioni non parametriche. La visualizzazione seguente mostra i minimi quadrati ordinari insieme a tre alternative non parametriche: deviazione assoluta mediana (MAD), minimi quadrati mediani (LMS) e Theil-Sen. Nota che pendenza e intercetta sono diverse per ciascuno stimatore. Se aggiungessimo un punto altamente influente, per esempio con coordinate x = 7 e y = 70, la retta OLS cambierebbe di più.

simple linear regression optionsQuattro opzioni di regressione lineare semplice. Immagine dell’autore

Considerazioni finali

La regressione lineare semplice è il punto di partenza per comprendere relazioni più complesse nei dati. Per aiutarti, DataCamp offre tutorial con cui continuare a fare pratica, tra cui il nostro tutorial Essentials of Linear Regression in Python, il tutorial How to Do Linear Regression in R e il tutorial Linear Regression in Excel: A Comprehensive Guide For Beginners.

Queste risorse ti guideranno nell’uso di diversi strumenti per eseguire la regressione lineare e capirne le applicazioni. Infine, se sei pronto ad ampliare le tue competenze, dai un’occhiata al nostro Multiple Linear Regression in R: Tutorial With Examples, che copre modelli più complessi con predittori multipli. Puoi anche guardare il nostro video su YouTube Regression in Excel Made Easy per una guida pratica, adatta ai principianti e specifica per Excel. 

Regressione lineare semplice in Excel

Josef Waples's photo
Author
Josef Waples

Sono uno scrittore e editor di data science, con contributi a articoli di ricerca su riviste scientifiche. Sono particolarmente interessato ad algebra lineare, statistica, R e affini. Inoltre, gioco anche parecchio a scacchi! 

Domande frequenti sulla regressione lineare semplice

Che cos’è la regressione lineare semplice?

La regressione lineare semplice è un tipo di regressione che coinvolge una variabile indipendente (variabile esplicativa) e una variabile dipendente (variabile di risposta). Si usa per predire un risultato continuo basandosi su una relazione lineare tra queste due variabili.

Come si calcola la pendenza in una regressione lineare semplice?

La pendenza può essere calcolata moltiplicando il coefficiente di correlazione (r) per il rapporto tra la deviazione standard della variabile dipendente (sy) e la deviazione standard della variabile indipendente (sx). Questo mostra di quanto ci si aspetta che cambi la variabile dipendente per una variazione unitaria della variabile indipendente.

Quali sono alcuni metodi per trovare i coefficienti di un modello di regressione?

 I coefficienti in una regressione lineare semplice possono essere trovati con metodi come la stima a minimi quadrati ordinari, la risoluzione dell’equazione normale (usando l’algebra lineare), la decomposizione QR o la discesa del gradiente (usando il calcolo).

Quali assunzioni devono valere per la regressione lineare semplice?

 La regressione lineare semplice si basa su diverse assunzioni. Primo, la relazione tra le variabili deve essere lineare. Secondo, i residui dovrebbero essere indipendenti. Terzo, i residui dovrebbero avere varianza costante (omoschedasticità). Quarto, idealmente i residui dovrebbero essere distribuiti normalmente.

Come si può valutare un modello di regressione lineare semplice?

Puoi valutare un modello di regressione lineare semplice usando grafici diagnostici (come residui vs. valori di x e Q-Q plot) e statistiche del modello come R-quadro, R-quadro aggiustato e F-statistic. Questi strumenti aiutano a valutare quanto bene il modello si adatta ai dati e quanto sono affidabili le previsioni.

Argomenti

Impara la regressione lineare semplice con DataCamp

Corso

Inference for Linear Regression in R

4 h
15.9K
In this course you'll learn how to perform inference using linear models.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

Mostra altroMostra altro