Data Analyst: Michele Bedin (www.michelebedin.com)
- Fase 1 - Proposta di progetto
- Fase 2 - Comprendere i dati (attuale)
- Fase 3 - EDA
- Fase 4 - Test Statistici
- Fase 5 - Analisi di regressione
- Fase 6 - Modelli di apprendimento automatico
- Fase 7 - Consegna lavori
Introduzione
Benvenuto nel progetto Automatidata!
Hai appena iniziato a lavorare come professionista dei dati in una società di consulenza fittizia, Automatidata. Il loro cliente, la New York City Taxi and Limousine Commission (New York City TLC), ha assunto il team di Automatidata per la sua reputazione nell’aiutare i clienti a sviluppare soluzioni basate sui dati.
Il team è ancora nelle fasi iniziali del progetto. In precedenza (fase 1), il tuo supervisore, DeShawn Washington, ti aveva chiesto di completare una proposta di progetto. Hai ricevuto la notizia che la tua proposta di progetto è stata approvata e che la TLC di New York ha concesso al team di Automatidata l’accesso ai suoi dati. Per ottenere informazioni chiare, i dati di New York TLC devono essere analizzati, le variabili chiave devono essere identificate e il set di dati deve essere pronto per l’analisi.
Fase 2 - Comprendere i dati
Per lo svolgimento di questo progetto, verrà utilizzato il framework di problem-solving PACE.
Obiettivo: identificare i tipi di dati e le variabili rilevanti usando Python
Pace: fase di Pianificazione
Compito 1: comprendere la situazione
- Come possiamo preparararci al meglio per comprendere e organizzare le informazioni fornite sui taxi?
Iniziamo ad esplorare il set di dati e prendiamo in considerazione la possibilità di rivedere il Dizionario dei dati. Ci si può preparare a comprendere le informazioni leggendo i campi dei dati e l’impatto di ciascuno di essi. Anche la lettura della scheda informativa può fornire utili informazioni di base. Tuttavia, l’obiettivo principale è quello di inserire i dati in Python, esaminarli e fornire a DeShawn le prime osservazioni. Il passo successivo sarà quello di approfondire la conoscenza dei dati e verificare la presenza di eventuali anomalie.
Nello specifico, per prepararsi al meglio a comprendere e organizzare le informazioni fornite sui taxi, si potrebbero seguire i seguenti passaggi:
- Esaminare il dataset: prima di tutto, è importante esaminare il dataset per avere un’idea generale dei dati. Questo può includere la visualizzazione delle prime righe del dataset, la comprensione del numero di righe e colonne, e l’identificazione dei tipi di dati presenti.
- Comprendere le variabili: ogni colonna del dataset rappresenta una variabile diversa. È importante comprendere cosa rappresenta ciascuna variabile e come può essere utilizzata nell’analisi. Le descrizioni delle variabili fornite possono essere molto utili in questo senso.
- Identificare i dati mancanti: i dati mancanti possono influenzare l’analisi dei dati. È importante identificare eventuali dati mancanti e decidere come gestirli.
- Pianificare l’organizzazione dei dati: dopo aver compreso le variabili e identificato i dati mancanti, è possibile pianificare come organizzare i dati per l’analisi. Questo può includere la decisione su quali variabili utilizzare nell’analisi, come gestire i dati mancanti, e come strutturare i dati per l’analisi.
- Utilizzare strumenti di analisi dei dati: strumenti come Python e Pandas possono essere molto utili per organizzare e analizzare i dati. Questi strumenti possono aiutare a manipolare i dati, eseguire calcoli e creare visualizzazioni.
- Documentare il processo: infine, è importante documentare il processo di comprensione e organizzazione dei dati. Questo può includere la registrazione di osservazioni, decisioni, e passaggi del processo. Questa documentazione può essere utile per riferimento futuro e per comunicare i risultati dell’analisi ad altri.
pAce: fase di Analisi
Compito 2a: costruisci il dataframe