Лекція 2
Основи статистики
Функція describe()
Функція describe() в бібліотеці Pandas використовується для генерації різних описових статистик числових даних у DataFrame або Series. Вона надає підсумкову статистику, яка включає такі показники, як:
- count — кількість ненульових значень -** mean** — середнє значення
- std — стандартне відхилення
- min — мінімальне значення
- 25%— 25-й перцентиль (перший квартиль)
- 50% — 50-й перцентиль (медіана)
- 75%— 75-й перцентиль (третій квартиль)
- max— максимальне значення
Ця функція корисна для швидкого отримання основної статистичної інформації про набір даних.
import pandas as pd
# Створимо простий DataFrame
data = {
'age': [23, 45, 12, 35, 37, 29, 49],
'salary': [50000, 60000, 12000, 35000, 48000, 39000, 70000]
}
df = pd.DataFrame(data)
# Використовуємо функцію describe
description = df.describe()
print(description)
Використання для окремого стовпця
Якщо потрібно отримати описову статистику лише для одного стовпця, можна викликати describe() безпосередньо на цьому стовпці:
# Описова статистика для стовпця 'salary'
salary_description = df['salary'].describe()
print(salary_description)
Функція .value_counts()
Функція .value_counts() у Pandas є важливим інструментом для проведення описової статистики, особливо коли мова йде про аналіз категоріальних даних. Описова статистика дозволяє зрозуміти розподіл даних та їх частоту, що є основою для подальших статистичних досліджень.
Використання .value_counts() у контексті статистики
1)Розподіл частот: Використання .value_counts() допомагає виявити, як часто кожне унікальне значення з’являється у даному стовпці. Це дозволяє дослідникам і аналітикам зрозуміти, які категорії є найбільш поширеними та наскільки різноманітні дані у вибірці.
2)Відносні частоти: Застосування параметра normalize=True дозволяє обчислити відносні частоти або пропорції кожного унікального значення. Це корисно для порівняння частот різних категорій та розуміння їхнього відносного значення.
3) Візуалізація даних: Результати .value_counts() можна легко візуалізувати за допомогою графіків, таких як гістограми або секторні діаграми, що полегшує сприйняття даних та виявлення тенденцій.
Висновок: Функція .value_counts() є потужним інструментом для описової статистики, дозволяючи швидко та ефективно аналізувати розподіл категоріальних і числових даних, що є ключовим кроком у статистичному аналізі даних.
Приклади використання .value_counts() у статистиці
Приклад 1: Аналіз категоріальних даних
Розглянемо набір даних, що містить інформацію про улюблені фрукти людей:
Цей результат показує, що яблука є найпопулярнішими фруктами у вибірці.
import pandas as pd
data = {'fruits': ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']}
df = pd.DataFrame(data)
counts = df['fruits'].value_counts()
print(counts)
Приклад 2: Обчислення відносних частот
Тут ми бачимо, що яблука становлять 50% від усіх вибраних фруктів.
relative_counts = df['fruits'].value_counts(normalize=True)
print(relative_counts)
Приклад 3: Аналіз розподілу числових даних
Розглянемо набір даних, що містить числові значення:
Тут ми бачимо розподіл значень по трьом інтервалам, що допомагає зрозуміти, як числа розподілені у наборі даних.
data = {'numbers': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]}
df = pd.DataFrame(data)
binned_counts = df['numbers'].value_counts(bins=3)
print(binned_counts)
Лекція 3
Збір та підготовка даних
Завантаження CSV
Щоб завантажити дані з файлу CSV з іншим символом розділення (наприклад, крапка з комою або табуляція), потрібно вказати цей символ у параметрі sep функції pd.read_csv(). Ось як це можна зробити:
import pandas as pd
# Встановлення опції для відображення всіх колонок
pd.set_option('display.max_columns', None)
# Для прикладу, якщо розділювач - крапка з комою
#df = pd.read_csv("datasets/us_tax_data_2016.csv", sep=';')
# Для прикладу, якщо розділювач - кома
df = pd.read_csv("datasets/us_tax_data_2016.csv", sep=',')
# Якщо розділювач - табуляція
# df = pd.read_csv("datasets/us_tax_data_2016.csv", sep='\t')
# Відображення інформації про DataFrame
print(df.info())
# Відображення перших кількох рядків DataFrame з усіма колонками
print(df.head())
print(df.columns)
Цей код завантажує дані з файлу CSV, використовуючи вказаний символ розділення, та виводить інформацію про DataFrame. Заміни 'datasets/us_tax_data_2016.csv' на шлях до вашого файлу та вибери відповідний символ розділення.