Skip to content

База (Последнее обновление 17.07)

to just not forget


1 hidden cell

Take Notes

Add notes about the concepts you've learned and code cells with code you want to keep.

# В чем разница разных merge?
pd.merge_order()
pd.merge()
pd.merge_asof(!!!direction? что это?) # вроде это для джоина, связанного со временем

Seaborn

# Шарим за sns
# Считаем кол-венные
sns.countplot()
# Точечки
sns.scatterplot()
# Можем нарисовать любой график, использовав <kind>
sns.relplot()
# Для категориальных данных
sns.catplot()
# EDA in Python

# фидльтр по типу данных
df.select_dtypes("DATA_TYPE")

# поиск строки в столбке дф
series.str.contains('str')

# чтобы при загрузке df колонки с датой были в нудном формате 
pd.read_csv('file.csv', parse_dates=cols)

# категоризирует колонку. labels - название категорий, bins - критерий категории типа медианы, среднего, и тд
pd.cut(pd.series, labels, bins) 
# Разъеб - разбираем диапозоны по условиям и каждое относим к категории
# Create conditions for values in flight_categories to be created
conditions = [
    (planes["Duration"].str.contains(short_flights)),
    (planes["Duration"].str.contains(medium_flights)),
    (planes["Duration"].str.contains(long_flights))
]

# Apply the conditions list to the flight_categories
planes["Duration_Category"] = np.select(conditions, 
                                        flight_categories,
                                        default="Extreme duration")

# Plot the counts of each category
sns.countplot(data=planes, x="Duration_Category")
plt.show()
from scipy.stats import chisquare

chisquare([18,55,27], [25,50,25])
# Track of marketing

# Добавляем колонку к дф с условием, что если значения строки между колонками равны, то записываем Yes - иначе No
# Import numpy
import numpy as np

# !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
# Add the new column is_correct_lang
marketing['is_correct_lang'] = np.where(marketing['language_displayed']==marketing['language_preferred'], 'Yes', 'No')

Метрики

  1. retention
  2. conveersion