Skip to content

Case Study Automatidata

Data Analyst: Michele Bedin (www.michelebedin.com)

Introduzione

La società di consulenza dati Automatidata ti ha recentemente assunto come nuovo membro del suo team di analisi dei dati. Il loro nuovo cliente, la NYC Taxi and Limousine Commission (New York City TLC), vuole che il team di Automatidata costruisca un modello di regressione lineare multipla per prevedere le tariffe dei taxi utilizzando i dati esistenti raccolti nel corso di un anno. Il team si sta avvicinando al completamento del progetto, dopo aver completato un piano d'azione iniziale, il lavoro iniziale di codifica Python, l'EDA e il test A/B.

Il team Automatidata ha esaminato i risultati dei test A/B. Ora è il momento di lavorare sulla previsione degli importi delle tariffe dei taxi. Hai impressionato i tuoi colleghi di Automatidata con il tuo duro lavoro e la tua attenzione ai dettagli. Il team dati ritiene che tu sia pronto a costruire il modello di regressione e ad aggiornare il cliente New York City TLC sui tuoi progressi.

Fase 5: costruire un modello di regressione lineare multipla

In questa attività costruirai un modello di regressione lineare multipla. Come hai imparato, la regressione lineare multipla ti aiuta a stimare la relazione lineare tra una variabile dipendente continua e due o più variabili indipendenti. Per i professionisti della scienza dei dati, si tratta di un'abilità utile perché ti permette di considerare più di una variabile rispetto alla variabile che stai misurando. In questo modo è possibile completare un'analisi molto più approfondita e flessibile.

Completare questa attività ti aiuterà ad esercitarti nella pianificazione e nella costruzione di un modello di regressione lineare multipla basato su una specifica esigenza aziendale. La struttura di questa attività è pensata per emulare le proposte che probabilmente ti verranno assegnate nella tua carriera di professionista dei dati. Completare questa attività ti aiuterà a prepararti per queste situazioni.

Lo scopo di questo progetto è dimostrare la conoscenza dell'EDA e di un modello di regressione lineare multipla.

L'obiettivo è costruire un modello di regressione lineare multipla e valutare il modello.
Questa attività si articola in tre parti:

Parte 1: EDA e verifica delle ipotesi del modello

  • Quali sono gli scopi dell'EDA prima di costruire un modello di regressione lineare multipla?

Parte 2: Costruzione e valutazione del modello

  • Quali risorse ti ritrovi a utilizzare mentre completi questa fase?

Parte 3: Interpretazione dei risultati del modello

  • Quali intuizioni chiave sono emerse dai tuoi modelli?

  • Quali raccomandazioni commerciali proponi sulla base dei modelli costruiti?

framework PACE

In questo notebook (come in quelli delle fasi precedenti) si fa riferimento al framework di problem-solving PACE: Pianificare, Analizzare, Costruire ed Eseguire.

Pace: Pianificazione

Compito 1: importazione e caricamento

Importare i pacchetti necessari per costruire il modello di regressione lineare.

# Imports
# Packages for numerics + dataframes
import pandas as pd
import numpy as np

# Packages for visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Packages for date conversions for calculating trip durations
from datetime import datetime
from datetime import date
from datetime import timedelta

# Packages for OLS, MLR, confusion matrix
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import sklearn.metrics as metrics # For confusion matrix
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error,r2_score,mean_squared_error
# Load dataset into dataframe 
df0=pd.read_csv("data/2017_Yellow_Taxi_Trip_Data.csv") # index_col parameter specified to avoid "Unnamed: 0" column when reading in data from csv