Course Notes: Exploratory Data Analysis in R

add text here

# Write and run code here

coord_flip()

WE can use the gapminder data set to get people data from aroung the globe.

IQR() es una función que permite evaluar el rango entre el primer y tercer cuartil y evaluar la dispersión de los datos de mejor manera que otros métodos como el sd(), el cual se ve afectado por valores extremos. El mejor método es representar los valores en una gráfica de densidad. En caso de obtener valores muy dispersos es mejor emplear median() e IQR(). Por el contrario, si tenemos valores poco dispersos es mejor emplean mean() y sd(). Para poder comparar los valores de media y mediana entre distintas poblaciones o grupos es mejor normalizar los datos a partir de la función log(). Se puede después comparar los grupos empleando la función geom_density(alpha=0.3). A este respecto, la modalidad de las gráficas de densidad se pueden clasificar como unimodal, bimodal, multimodal o uniforme si tiene uno, dos, muchos o ningún pico de moda específico. También, según la dirección de la cola se puede hablar de right-skewed (si tiene un pico en la izquierda de la gráfica y la cola va hacia la izquierda), left-skewed (si tiene un pico en la derecha y la cola va hacia la izquierda) o symmetric, si no existe pico poblacional.

We can represent several variables employing the facet_grid(a~b) option in ggplot()

A la hora de evaluar un dataset que presente una gran cantidad de casos donde el valor sea 0 nos encontramos ante un caso de "Zer inflation", para lo que deberemos proceder modificando a una variable categorica, presencia/ausencia de valor. Durante este proceso podemos comparar los resultados entre los dos grupos a partir de un gráfico de barras. Si lo que queremos es comparar las proporciones podremos emplear la expresión geom_bar(position="fill")

A la hora de realizar una limpieza de datos podemos emplear un estimador logico de la siguiente manera. Aqwuellos valores que no peuda ser negativos podemos establecere como email $í á$ num_char<0)

Para establecer lineas rectas sobre una gráfica, por ejemplo, indicando ciertos eventos determinados, podemos emplear la sigueinte ecuación:

scatter_plot + geom_vline(aes(xintercept=date), data=data). Este es un buen ejemplo del tipo de gráficas que se pueden generar por este sistema:

plt_cum_confirmed_cases_china_vs_world + geom_vline(aes(xintercept=date), data=who_events, linetype="dashed")+ geom_text(aes(x=date, y=1e5, label =event), data=who_events)

Además, cuando realizamos el análisis de los resultados podemos querer evaluar si, visualmente, los datos se ajustan a una representacion lineal. Para ello podemos emplear la siguiente ecuación: plt_not_china_trend_lin <- ggplot(not_china, aes(x=date, y=cum_cases)) + geom_line() + geom_smooth(method="lm", se=FALSE) + ylab("Cumulative confirmed cases")

la cual podemos modificar si queremos visualizar por ejemplo valores logarítmicos: plt_not_china_trend_lin + scale_y_continuous(trans='log10')