Skip to content

Análisis supervisado: uso de los algoritmos svm(), rpart() y randomForest().

Para la realización de este proyecto se va a utilizar el dataset "PEC3" disponible para los alumnos del Programa en Inteligencia de Negocio y Big Data Analytics de la UOC (https://www.ouc.edu).

El dataset recoge estadísticas de la actividad de tres grupos de Comerciales:

  • Importe: Volumen de Facturación en el Cliente (vinculado a una categoría de Comercial).
  • Margen: Margen por Cliente (vinculado a una categoría de Comercial)
  • Km: Kilómetros recorridos para visitar al Cliente.
  • Visitas: Visitas realizadas al Cliente.
  • Comercial: Categoría de comercial asignada al cliente (Toma valores A, B ó C)

El objetivo de este proyecto es la identificación de las variables que contribuyen más a la diferenciación entre los tres grupos, así como la clasificación de los nuevos empleados en uno de los tres tipos de comercial.

comm = read.csv('PEC3.csv', encoding="UTF-8", stringsAsFactors=TRUE, na.string = c("", "NA"))

Resumen de los estadísticos más importantes para cada variable.

summary(comm)

Histogramas de las variables cuantitativas.

f1 <- hist(comm$Ingresos, main="Histograma Ingresos", col = "gray", labels = TRUE) 
f1
f2 <- hist(comm$Margen, main="Histograma Margen", col = "gray", labels = TRUE)
f2
f4 <- hist(comm$Visitas, main="Histograma Visitas", col = "gray", labels = TRUE)
f4
install.packages("ggplot2")
library(ggplot2)
Hidden output

Estudio de la relación entre variables.

Gráficos de dispersión entre todas las variables.

f6<-plot(comm)