Scopri cosa c'è nel tuo set di dati
Attenzione: questa attività è stata elaborata solo per fornire un esempio pratico di supporto all'articolo "EDA: comprendere il processo attraverso il framework PACE" presente sul mio Blog personale.
Introduzione
In questa attività scoprirai le caratteristiche di un set di dati e utilizzerai le visualizzazioni per analizzarli. In questo modo svilupperai e rafforzerai le tue capacità di analisi esplorativa dei dati (EDA) e la tua conoscenza delle funzioni che ti permettono di esplorare e visualizzare i dati.
L'EDA è un processo essenziale nel flusso di lavoro della scienza dei dati. In qualità di professionista dei dati, dovrai condurre questo processo per comprendere meglio i dati a disposizione e determinare come utilizzarli per risolvere il problema che vuoi affrontare. Questa attività ti darà l'opportunità di mettere in pratica questo processo e ti preparerà all'EDA nei progetti futuri.
In questa attività sei un membro di un team di analisi che fornisce informazioni a una società di investimenti. Per aiutarla a decidere in quali aziende investire, l'azienda vuole avere informazioni sulle società unicorno, ovvero quelle che hanno un valore superiore al miliardo di dollari. I dati che utilizzerai per questo compito forniscono informazioni su oltre 1.000 aziende unicorno, tra cui il settore, il paese, l'anno di fondazione e gli investitori selezionati. Utilizzerai queste informazioni per capire come e quando le aziende raggiungono questo prestigioso traguardo e per suggerire le prossime mosse alla società investitrice.
Fase 1: importazioni
Importazione di librerie e pacchetti
Per prima cosa, importa le librerie e i moduli Python pertinenti. Utilizza la libreria pandas
e il modulo matplotlib.pyplot
.
# Import libraries and packages
import pandas as pd
import matplotlib.pyplot as plt
import datetime as dt
Caricare il dataset in un DataFrame
Il set di dati fornito è un file csv chiamato Unicorn_Companies.csv
e contiene un sottoinsieme di dati sulle aziende unicorno. Carica i dati dal file csv in un DataFrame e salvalo in una variabile.
# Load data from the csv file into a DataFrame and save in a variable
companies = pd.read_csv("data/Unicorn_Companies.csv")
Fase 2: esplorazione dei dati
Visualizza le prime 10 righe dei dati
Successivamente, esplora il set di dati e rispondi alle domande che ti guideranno nell'esplorazione e nell'analisi dei dati. Per iniziare, visualizza le prime 10 righe dei dati per capire come è strutturato il dataset.