Skip to content
DA-26-06-24_WebAcademy_Data Analytics Course Examples
  • AI Chat
  • Code
  • Report
  • Лекція 2

    Основи статистики

    Функція describe()

    Функція describe() в бібліотеці Pandas використовується для генерації різних описових статистик числових даних у DataFrame або Series. Вона надає підсумкову статистику, яка включає такі показники, як:

    • count — кількість ненульових значень -** mean** — середнє значення
    • std — стандартне відхилення
    • min — мінімальне значення
    • 25%— 25-й перцентиль (перший квартиль)
    • 50% — 50-й перцентиль (медіана)
    • 75%— 75-й перцентиль (третій квартиль)
    • max— максимальне значення

    Ця функція корисна для швидкого отримання основної статистичної інформації про набір даних.

    import pandas as pd
    
    # Створимо простий DataFrame
    data = {
        'age': [23, 45, 12, 35, 37, 29, 49],
        'salary': [50000, 60000, 12000, 35000, 48000, 39000, 70000]
    }
    df = pd.DataFrame(data)
    
    # Використовуємо функцію describe
    description = df.describe()
    print(description)
    

    Використання для окремого стовпця

    Якщо потрібно отримати описову статистику лише для одного стовпця, можна викликати describe() безпосередньо на цьому стовпці:

    # Описова статистика для стовпця 'salary'
    salary_description = df['salary'].describe()
    print(salary_description)
    

    Функція .value_counts()

    Функція .value_counts() у Pandas є важливим інструментом для проведення описової статистики, особливо коли мова йде про аналіз категоріальних даних. Описова статистика дозволяє зрозуміти розподіл даних та їх частоту, що є основою для подальших статистичних досліджень.

    Використання .value_counts() у контексті статистики

    1)Розподіл частот: Використання .value_counts() допомагає виявити, як часто кожне унікальне значення з’являється у даному стовпці. Це дозволяє дослідникам і аналітикам зрозуміти, які категорії є найбільш поширеними та наскільки різноманітні дані у вибірці.

    2)Відносні частоти: Застосування параметра normalize=True дозволяє обчислити відносні частоти або пропорції кожного унікального значення. Це корисно для порівняння частот різних категорій та розуміння їхнього відносного значення.

    3) Візуалізація даних: Результати .value_counts() можна легко візуалізувати за допомогою графіків, таких як гістограми або секторні діаграми, що полегшує сприйняття даних та виявлення тенденцій.

    Висновок: Функція .value_counts() є потужним інструментом для описової статистики, дозволяючи швидко та ефективно аналізувати розподіл категоріальних і числових даних, що є ключовим кроком у статистичному аналізі даних.

    Приклади використання .value_counts() у статистиці

    Приклад 1: Аналіз категоріальних даних

    Розглянемо набір даних, що містить інформацію про улюблені фрукти людей:

    Цей результат показує, що яблука є найпопулярнішими фруктами у вибірці.

    import pandas as pd
    
    data = {'fruits': ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']}
    df = pd.DataFrame(data)
    
    counts = df['fruits'].value_counts()
    print(counts)
    

    Приклад 2: Обчислення відносних частот

    Тут ми бачимо, що яблука становлять 50% від усіх вибраних фруктів.

    relative_counts = df['fruits'].value_counts(normalize=True)
    print(relative_counts)
    

    Приклад 3: Аналіз розподілу числових даних

    Розглянемо набір даних, що містить числові значення:

    Тут ми бачимо розподіл значень по трьом інтервалам, що допомагає зрозуміти, як числа розподілені у наборі даних.

    data = {'numbers': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]}
    df = pd.DataFrame(data)
    
    binned_counts = df['numbers'].value_counts(bins=3)
    print(binned_counts)
    

    Лекція 3

    Збір та підготовка даних

    Завантаження CSV

    Щоб завантажити дані з файлу CSV з іншим символом розділення (наприклад, крапка з комою або табуляція), потрібно вказати цей символ у параметрі sep функції pd.read_csv(). Ось як це можна зробити:

    import pandas as pd
    
    # Встановлення опції для відображення всіх колонок
    pd.set_option('display.max_columns', None)
    
    # Для прикладу, якщо розділювач - крапка з комою
    #df = pd.read_csv("datasets/us_tax_data_2016.csv", sep=';')
    
    # Для прикладу, якщо розділювач -  кома
    df = pd.read_csv("datasets/us_tax_data_2016.csv", sep=',')
    
    
    # Якщо розділювач - табуляція
    # df = pd.read_csv("datasets/us_tax_data_2016.csv", sep='\t')
    
    # Відображення інформації про DataFrame
    print(df.info())
    
    # Відображення перших кількох рядків DataFrame з усіма колонками
    print(df.head())
    
    print(df.columns)
    

    Цей код завантажує дані з файлу CSV, використовуючи вказаний символ розділення, та виводить інформацію про DataFrame. Заміни 'datasets/us_tax_data_2016.csv' на шлях до вашого файлу та вибери відповідний символ розділення.