Skip to content

🧭 Summary (Вступ)

Markdown — це проста й потужна мова розмітки, що дозволяє красиво документувати код, створювати пояснення, таблиці, формули та навіть елементи дизайну без необхідності знати HTML. У середовищі Jupyter Notebook Markdown використовується для створення текстових блоків між комірками коду, що робить аналітичні звіти, дослідження даних і навчальні матеріали читабельними й професійними.

Markdown допомагає структурувати роботу, пояснювати алгоритми, вставляти зображення, посилання, формули LaTeX і навіть форматовані повідомлення (alert boxes).

Success: Data loaded successfully!

https://www.kaggle.com/datasets/yasserh/titanic-dataset

!pip install kagglehub
import pandas as pd

# Завантажуємо датасет Titanic напряму з URL
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

# 1. Подивимось на перші 5 рядків
print("=== Перші 5 рядків датасету ===")
print(df.head())
print("\n")

# 2. Розмір датасету (рядки, колонки)
print(f"=== Розмір датасету ===")
print(f"Кількість рядків: {df.shape[0]}")
print(f"Кількість колонок: {df.shape[1]}")
print("\n")

# 3. Назви всіх колонок
print("=== Назви колонок ===")
print(df.columns.tolist())
print("\n")

# 4. Базова інформація про датасет
print("=== Інформація про датасет ===")
print(df.info())
print("\n")

# 5. Статистика по числових колонках
print("=== Статистика ===")
print(df.describe())
print("\n")

# 6. Скільки людей вижило?
print("=== Виживання пасажирів ===")
print(f"Вижило: {df['Survived'].sum()} людей")
print(f"Загинуло: {len(df) - df['Survived'].sum()} людей")
print("\n")

# 7. Середній вік пасажирів
print("=== Вік пасажирів ===")
print(f"Середній вік: {df['Age'].mean():.1f} років")
print("\n")

# 8. Кількість чоловіків і жінок
print("=== Розподіл за статтю ===")
print(df['Sex'].value_counts())
print("\n")

# 9. Виживання по класах
print("=== Виживання по класах ===")
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100
print(survival_by_class)
print("\n")

# 10. Збереження обробленого датасету
# df.to_csv('titanic_processed.csv', index=False)
# print("Датасет збережено у файл titanic_processed.csv")