Skip to content
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt 
import sklearn

Сперва загрузим исходный набор данных:

from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()

Сперва следует ознакомиться со структурой тех данных, которые мы получили. Для этого выведем тип полученного объекта:

type(california)
sklearn.utils.Bunch

Это специальный тип данных библиотеки sklearn, который похож по своему устройству на обычный словарь. Поэтому посмотрим, какие ключи есть в этом словаре:

california.keys()

Особый интерес здесь представляют поля data и target, которые содержат именно исходные атрибуты и вектор значений целевой переменной. Выведем их тип:

print(type(california.data), type(california.target))
print(california.data.shape, california.target.shape)

Получается, что в данных более 20 тысяч строк и 8 атрибутов. Дополнительно можно еще вывести описание датасета для получения дополнительной информации.

Теперь с данными можно работать разными способами. Для удобства анализа мы объединим все массивы в датафрейм:

data = pd.DataFrame(california.data, columns = california.feature_names)
data['Price'] = california.target
data.head()