DA-26-06-24_WebAcademy_Data Analytics Course Examples

Лекція 2

Основи статистики

Функція describe()

Функція describe() в бібліотеці Pandas використовується для генерації різних описових статистик числових даних у DataFrame або Series. Вона надає підсумкову статистику, яка включає такі показники, як:

count — кількість ненульових значень -** mean** — середнє значення
std — стандартне відхилення
min — мінімальне значення
25%— 25-й перцентиль (перший квартиль)
50% — 50-й перцентиль (медіана)
75%— 75-й перцентиль (третій квартиль)
max— максимальне значення

Ця функція корисна для швидкого отримання основної статистичної інформації про набір даних.

import pandas as pd

# Створимо простий DataFrame
data = {
    'age': [23, 45, 12, 35, 37, 29, 49],
    'salary': [50000, 60000, 12000, 35000, 48000, 39000, 70000]
}
df = pd.DataFrame(data)

# Використовуємо функцію describe
description = df.describe()
print(description)

Використання для окремого стовпця

Якщо потрібно отримати описову статистику лише для одного стовпця, можна викликати describe() безпосередньо на цьому стовпці:

# Описова статистика для стовпця 'salary'
salary_description = df['salary'].describe()
print(salary_description)

Функція .value_counts()

Функція .value_counts() у Pandas є важливим інструментом для проведення описової статистики, особливо коли мова йде про аналіз категоріальних даних. Описова статистика дозволяє зрозуміти розподіл даних та їх частоту, що є основою для подальших статистичних досліджень.

Використання .value_counts() у контексті статистики

1)Розподіл частот: Використання .value_counts() допомагає виявити, як часто кожне унікальне значення з’являється у даному стовпці. Це дозволяє дослідникам і аналітикам зрозуміти, які категорії є найбільш поширеними та наскільки різноманітні дані у вибірці.

2)Відносні частоти: Застосування параметра normalize=True дозволяє обчислити відносні частоти або пропорції кожного унікального значення. Це корисно для порівняння частот різних категорій та розуміння їхнього відносного значення.

3) Візуалізація даних: Результати .value_counts() можна легко візуалізувати за допомогою графіків, таких як гістограми або секторні діаграми, що полегшує сприйняття даних та виявлення тенденцій.

Висновок: Функція .value_counts() є потужним інструментом для описової статистики, дозволяючи швидко та ефективно аналізувати розподіл категоріальних і числових даних, що є ключовим кроком у статистичному аналізі даних.

Приклади використання .value_counts() у статистиці

Приклад 1: Аналіз категоріальних даних

Розглянемо набір даних, що містить інформацію про улюблені фрукти людей:

Цей результат показує, що яблука є найпопулярнішими фруктами у вибірці.

import pandas as pd

data = {'fruits': ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']}
df = pd.DataFrame(data)

counts = df['fruits'].value_counts()
print(counts)

Приклад 2: Обчислення відносних частот

Тут ми бачимо, що яблука становлять 50% від усіх вибраних фруктів.

relative_counts = df['fruits'].value_counts(normalize=True)
print(relative_counts)

Приклад 3: Аналіз розподілу числових даних

Розглянемо набір даних, що містить числові значення:

Тут ми бачимо розподіл значень по трьом інтервалам, що допомагає зрозуміти, як числа розподілені у наборі даних.

data = {'numbers': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]}
df = pd.DataFrame(data)

binned_counts = df['numbers'].value_counts(bins=3)
print(binned_counts)

Лекція 3

Збір та підготовка даних

Завантаження CSV

Щоб завантажити дані з файлу CSV з іншим символом розділення (наприклад, крапка з комою або табуляція), потрібно вказати цей символ у параметрі sep функції pd.read_csv(). Ось як це можна зробити:

import pandas as pd

# Встановлення опції для відображення всіх колонок
pd.set_option('display.max_columns', None)

# Для прикладу, якщо розділювач - крапка з комою
#df = pd.read_csv("datasets/us_tax_data_2016.csv", sep=';')

# Для прикладу, якщо розділювач -  кома
df = pd.read_csv("datasets/us_tax_data_2016.csv", sep=',')


# Якщо розділювач - табуляція
# df = pd.read_csv("datasets/us_tax_data_2016.csv", sep='\t')

# Відображення інформації про DataFrame
print(df.info())

# Відображення перших кількох рядків DataFrame з усіма колонками
print(df.head())

print(df.columns)

Цей код завантажує дані з файлу CSV, використовуючи вказаний символ розділення, та виводить інформацію про DataFrame. Заміни 'datasets/us_tax_data_2016.csv' на шлях до вашого файлу та вибери відповідний символ розділення.

‌
‌
‌