Data Analyst: Michele Bedin (www.michelebedin.com)
- Fase 1 - Proposta di progetto
- Fase 2 - comprendere i dati
- Fase 3 - EDA (attuale)
- Fase 4 - Test Statistici
- Fase 5 - Analisi di regressione
- Fase 6 - Modelli di apprendimento automatico
- Fase 7 - Consegna lavori
Introduzione
Sei il nuovo professionista dei dati in una società di consulenza fittizia: Automatidata. Il team è ancora all'inizio del progetto, avendo appena completato un piano d'azione iniziale e alcuni primi lavori di codifica in Python.
Luana Rodriquez, l'analista senior di Automatidata, è soddisfatta del lavoro che hai già svolto e ti chiede di assisterla in alcune attività di EDA e di visualizzazione dei dati per il progetto della Commissione Taxi e Limousine della città di New York (New York City TLC), al fine di ottenere una comprensione generale dell'aspetto dei passeggeri dei taxi. Il team di gestione chiede un notebook Python che mostri la strutturazione e la pulizia dei dati, oltre a qualsiasi visualizzazione matplotlib/seaborn per aiutare a comprendere i dati. Come minimo, è necessario includere un box plot della durata delle corse e alcuni grafici delle serie temporali, come una ripartizione per trimestre o mese.
Inoltre, il team di gestione ha recentemente chiesto a tutti gli EDA di includere visualizzazioni Tableau. Per questi dati sui taxi, crea una dashboard Tableau che mostri una mappa della città di New York con le corse dei taxi per mese. Assicurati che sia facile da capire per chi non è esperto di dati e ricorda che l'assistente del direttore del TLC di New York è una persona con problemi di vista.
Fase 3: analisi esplorativa dei dati (EDA)
In questa attività esaminerai i dati forniti e li preparerai per l'analisi. Progetterai inoltre una visualizzazione professionale dei dati che racconti una storia e aiuti a prendere decisioni basate sui dati per le esigenze aziendali.
Lo scopo di questo progetto è quello di condurre un'analisi esplorativa dei dati su un set di dati fornito. La tua missione è quella di continuare l'indagine iniziata nella Fase 2 ed eseguire un'ulteriore EDA su questi dati con l'obiettivo di saperne di più sulle variabili.
L'obiettivo è pulire il set di dati e creare una visualizzazione.
Questa attività è composta da 4 compiti:
- Compito 1: importazione, collegamenti e caricamento
- Compito 2: esplorazione dei dati (pulizia dei dati)
- Compito 3: costruzione di visualizzazioni
- Compito 4: valutare e condividere i risultati
PACE
Framework di problem-solving PACE: Pianificare, Analizzare, Costruire ed Eseguire.
Pace: Pianificare
- Identificare i valori anomali (
outlier):
- Quali sono i metodi migliori per identificare gli outlier?
Esistono diverse tecniche per identificare gli outlier nei dati. Un metodo comune è l'analisi statistica, utilizzando funzioni di numpy per esaminare la media() e la mediana() dei dati per comprendere l'intervallo dei valori dei dati. Inoltre, la visualizzazione dei dati attraverso un boxplot o un istogramma può aiutare a identificare visivamente gli outlier.
- Come si decide di mantenere o escludere gli outlier da qualsiasi modello futuro?
La decisione di mantenere o escludere gli outlier dipende da vari fattori, tra cui la natura dei dati e le ipotesi del modello che si sta costruendo. Se si è certi che gli outlier siano errori o anomalie, e i dati saranno utilizzati per la modellazione o l'apprendimento automatico, potrebbe essere opportuno eliminare gli outlier. Se il set di dati è piccolo, potrebbe essere più appropriato derivare nuovi valori per sostituire quelli degli outlier. Infine, se si prevede di utilizzare il set di dati solo per l'analisi esplorativa dei dati, o per un modello che è resistente agli outlier, potrebbe essere più sensato lasciare gli outlier nei dati.
Compito 1: importazioni, collegamenti e caricamento
Per l'EDA dei dati, importare i dati e i pacchetti più utili, come pandas, numpy e matplotlib. Quindi, importare il set di dati.
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import datetime as dt
import seaborn as snsdf=pd.read_csv('data/2017_Yellow_Taxi_Trip_Data.csv')