Skip to content
Análisis supervisado: uso de los Algoritmos svm(), rpart() y randomForest().
Análisis supervisado: uso de los algoritmos svm(), rpart() y randomForest().
Para la realización de este proyecto se va a utilizar el dataset "PEC3" disponible para los alumnos del Programa en Inteligencia de Negocio y Big Data Analytics de la UOC (https://www.ouc.edu).
El dataset recoge estadísticas de la actividad de tres grupos de Comerciales:
- Importe: Volumen de Facturación en el Cliente (vinculado a una categoría de Comercial).
- Margen: Margen por Cliente (vinculado a una categoría de Comercial)
- Km: Kilómetros recorridos para visitar al Cliente.
- Visitas: Visitas realizadas al Cliente.
- Comercial: Categoría de comercial asignada al cliente (Toma valores A, B ó C)
El objetivo de este proyecto es la identificación de las variables que contribuyen más a la diferenciación entre los tres grupos, así como la clasificación de los nuevos empleados en uno de los tres tipos de comercial.
comm = read.csv('PEC3.csv', encoding="UTF-8", stringsAsFactors=TRUE, na.string = c("", "NA"))
Resumen de los estadísticos más importantes para cada variable.
summary(comm)
Histogramas de las variables cuantitativas.
f1 <- hist(comm$Ingresos, main="Histograma Ingresos", col = "gray", labels = TRUE)
f1
f2 <- hist(comm$Margen, main="Histograma Margen", col = "gray", labels = TRUE)
f2
f4 <- hist(comm$Visitas, main="Histograma Visitas", col = "gray", labels = TRUE)
f4
install.packages("ggplot2")
library(ggplot2)
Hidden output
Estudio de la relación entre variables.
Gráficos de dispersión entre todas las variables.
f6<-plot(comm)