Skip to content
Analysis of Service Quality Complaints
Name: Geraldo Enrico Semen
Data Analyst Technical Test
Dikarenakan credentials yang diberikan di email tertulis invalid. Maka dari itu saya berinisiatif untuk mencari dataset yang serupa (kolom sama) pada Kaggle. Diharapkan bahwa dataset yang dipilih ini adalah benar.
Data: https://www.kaggle.com/datasets/pandanup/comcast-telecom-consumer-complaints
Disclaimer: Please use light mode.
View > Light Mode
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as pxpd.set_option('display.max_rows', 999)
np.set_printoptions(threshold=np.inf)1. Data Cleaning
1.1 Inspeksi awal
# Initial inspection
df= pd.read_csv('datasets/Comcast.csv')
df.sample(5)# Info of the dataset
df.info()1.2 Cek duplikat
# Cek duplikat baris
duplicate_rows = df.duplicated().sum()
print(f"Jumlah baris yang memiliki duplikat: {duplicate_rows}")# Cek duplikat Ticket # (Karena harusnya unique)
duplicate_tickets = df.duplicated(subset=["Ticket #"]).sum()
print(f"Jumlah baris Ticket # yang duplikat: {duplicate_tickets}")1.3 Cek missing values
missing_values = df.isnull().sum()
print("Missing values per kolom:")
missing_valuesTidak terdapat missing values, sehingga tidak perlu dilakukan imputasi/proses terkait pengisian missing values.
1.4 Pengubahan format datetime
# Ubah format penanggalan agar YYYY-MM-DD
df["Date"] = pd.to_datetime(df["Date"], format="%d-%m-%y").dt.strftime("%Y-%m-%d")
df.head(2)