Data Analyst: Michele Bedin (www.michelebedin.com)
- Fase 1 - Proposta di progetto
- Fase 2 - comprendere i dati
- Fase 3 - EDA
- Fase 4 - Test statistici (attuale)
- Fase 5 - Analisi di regressione
- Fase 6 - Modelli di apprendimento automatico
- Fase 7 - Consegna lavori
Introduzione
Sei un professionista dei dati in una società di consulenza, chiamata Automatidata. Il progetto in corso per il loro nuovo cliente, la New York City Taxi & Limousine Commission (New York City TLC), sta raggiungendo il suo punto centrale, dopo aver completato la proposta di progetto (fase 1), il lavoro di codifica Python (fase 2) e l'analisi esplorativa dei dati (fase 3).
Ricevi una nuova e-mail da Uli King, il project manager di Automatidata. Uli informa il tuo team di una nuova richiesta da parte del TLC di New York: analizzare la relazione tra l'importo della tariffa e il tipo di pagamento. Scopri anche le e-mail di follow-up di altri tre membri del team: Deshawn Washington, Luana Rodriguez e Udo Bankole. Queste e-mail discutono i dettagli dell'analisi. Un'ultima email di Luana contiene il tuo incarico specifico: condurre un test A/B.
Fase 4: test statistici
In questa attività ti eserciterai a usare le statistiche per analizzare e interpretare i dati. L'attività copre concetti fondamentali come le statistiche descrittive e i test di ipotesi. Esplorerai i dati forniti e condurrai test A/B e test di ipotesi.
Lo scopo di questo progetto è dimostrare la conoscenza di come si preparano, si creano e si analizzano i test A/B. I risultati dei tuoi test A/B dovranno essere finalizzati a trovare un modo per generare maggiori entrate per i tassisti.
Nota: ai fini di questo esercizio, ipotizziamo che i dati del campione provengano da un esperimento in cui i clienti vengono selezionati in modo casuale e divisi in due gruppi: 1) clienti che devono pagare con carta di credito, 2) clienti che devono pagare in contanti. Senza questo presupposto, non possiamo trarre conclusioni causali su come il metodo di pagamento influisca sull'importo della tariffa.
L'obiettivo è applicare le statistiche descrittive e i test di ipotesi in Python. L'obiettivo di questo test A/B è campionare i dati e analizzare se esiste una relazione tra il tipo di pagamento e l'importo della tariffa. Ad esempio: scoprire se i clienti che usano la carta di credito pagano tariffe più alte rispetto ai clienti che usano i contanti.
Questa attività si compone di quattro compiti.
Compito 1: importazioni e caricamento dei dati:
- Quali pacchetti di dati saranno necessari per la verifica delle ipotesi?
Compiti 2 e 3: conduzione dell'EDA e test di ipotesi:
- In che modo il calcolo delle statistiche descrittive ti ha aiutato ad analizzare i dati?
- Come hai formulato l'ipotesi nulla e l'ipotesi alternativa?
Compito 4: comunicare le intuizioni agli stakeholder
- Quali sono le principali intuizioni aziendali emerse dal tuo test A/B?
- Quali raccomandazioni commerciali proponi in base ai risultati ottenuti?
Condurre un test A/B
PACE
Framework di problem-solving PACE: Pianificare, Analizzare, Costruire ed Eseguire.
Pace: Pianificazione
- Qual è la tua domanda di ricerca per questo progetto di dati? In seguito, dovrai formulare le ipotesi nulle e alternative come primo passo del tuo test di ipotesi. Considera la tua domanda di ricerca ora, all'inizio di questo compito.
La domanda di ricerca per questo progetto sui dati è: "Esiste una relazione tra l'importo totale della tariffa e il tipo di pagamento?" Questa domanda mira a indagare se il metodo di pagamento (carta di credito o contanti) influisce sull'importo totale della tariffa pagata dai clienti dei taxi. In altre parole, stiamo cercando di capire se i clienti che pagano con carta di credito tendono a pagare importi di tariffa più alti rispetto a quelli che pagano in contanti.
Compito 1: importazione e caricamento dei dati
Importa i pacchetti e le librerie necessarie per calcolare le statistiche descrittive e condurre un test di ipotesi:
import pandas as pd
from scipy import stats