Skip to content
ML_ALkhanov_3.3
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn
Сперва загрузим исходный набор данных:
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()
Сперва следует ознакомиться со структурой тех данных, которые мы получили. Для этого выведем тип полученного объекта:
type(california)
sklearn.utils.Bunch
Это специальный тип данных библиотеки sklearn, который похож по своему устройству на обычный словарь. Поэтому посмотрим, какие ключи есть в этом словаре:
california.keys()
Особый интерес здесь представляют поля data и target, которые содержат именно исходные атрибуты и вектор значений целевой переменной. Выведем их тип:
print(type(california.data), type(california.target))
print(california.data.shape, california.target.shape)
Получается, что в данных более 20 тысяч строк и 8 атрибутов. Дополнительно можно еще вывести описание датасета для получения дополнительной информации.
Теперь с данными можно работать разными способами. Для удобства анализа мы объединим все массивы в датафрейм:
data = pd.DataFrame(california.data, columns = california.feature_names)
data['Price'] = california.target
data.head()