Caso de estudio

Para ilustrar como realizar los diferentes métodos de resúmenes numéricos, tabulares y gráficos, se empleará la siguiente base de datos de EjemploDescriptiva, la cual contiene las siguientes variables

  • Municipio: Municipio de residencia de la persona.
  • Estrato: Estrato socioeconómico de la vivienda.
  • Edad: Edad de la persona en años.
  • Altura: Altura de la persona en metros.
  • Peso: Peso de la persona en kilogramos.
  • Salario: Salario devengado por la persona en pesos.
  • SatisTrabajo: Nivel de satisfacción con el trabajo actual.
  • DeporFavorito: Deporte favorito de la persona.

Los datos contenidos en la base de datos se presentan a continuación:

Municipio Estrato Edad Altura Peso Salario SatisTrabajo DeporFavorito
Caldas 5 17 1.77 66 1635100 Muy satisfecho Fútbol
Bello 4 27 1.65 90 1752500 Insatisfecho Fútbol
Medellín 1 18 1.57 66 1858400 Satisfecho Baloncesto
Caldas 4 22 1.84 87 2131400 Muy satisfecho Fútbol
La Estrella 3 20 1.86 89 1874800 Satisfecho Tenis
Caldas 3 22 1.74 90 2933100 Muy satisfecho Fútbol
Itagüí 1 20 1.91 79 1637200 Muy insatisfecho Fútbol
La Estrella 3 27 1.77 88 1171200 Indiferente Baloncesto
Itagüí 2 20 1.58 61 2574700 Muy satisfecho Baloncesto
Bello 4 39 1.81 70 2739000 Satisfecho Tenis
La Estrella 6 16 1.69 78 2887800 Indiferente Baloncesto
Bello 2 40 1.93 83 2559600 Muy satisfecho Fútbol
Medellín 2 26 1.93 91 1906600 Satisfecho Fútbol
Medellín 2 21 1.87 61 1299700 Satisfecho Baloncesto
Bello 4 23 1.60 84 1950900 Indiferente Fútbol
Itagüí 3 40 1.91 76 2131900 Satisfecho Fútbol
La Estrella 6 31 1.79 66 1085400 Indiferente Voleibol
La Estrella 3 40 1.60 67 1182200 Indiferente Tenis
Medellín 2 32 1.60 88 2541900 Indiferente Baloncesto
Caldas 3 33 1.81 65 1333200 Muy satisfecho Fútbol

Análisis gráfico

Un aspecto importante del análisis descriptivo, es el que se realiza mediante análisis gráfico. El análisis gráfico es una forma de simplificar lo tedioso y complejo de un conjunto de observaciones, además de ser una forma más accesible de presentación de la información cuando se tienen muchas variables, puesto que permiten mostrar el comportamiento de los datos presentados, y hacer juicios respecto a su tendencia central, variabilidad, formas, patrones, tendencias, etc.

El análisis gráfico, puede ser dividido en

  • Gráficos para variables cuantitativa
  • Gráficos para variables cualitativas
  • Gráficos para cruces entre variables cuantitativas y cualitativas

En la siguiente tabla se hace un resumen de qué gráficos pueden ser apropiados para usar en cada uno de los casos

Categoría Tipo de Gráficos
Una Cuantitativa Diagrama de tallo y hojas Gráfico de caja y bigotes Histograma Densidad
Dos Cuantitativas Diagrama de dispersión
Más de Dos Cuantitativas Matriz de dispersión
Una Cualitativa Gráfico de barras Gráfico de pareto Gráfico de pastel Gráfico de puntos
Dos Cualitativas Gráfico de barras Gráfico de puntos Gráfico de balón
Cualitativa - Cuantitativa Gráfico de caja y bigotes Gráfico de medias Gráfico de dispersión

Una variable cuantitativa

Diagrama de tallo y hojas

Este gráfico sirve como medida de resumen de los datos, brinda información de valores máximos, mínimos, área en donde más se centran los datos, dispersión, datos atípicos y asimetría. A pesar de toda la información que puede brindar esta gráfica, su uso es muy limitado, ya que en situaciones en las cuales el rango de la variable es muy grande, ésta no permite visualidad con claridad dichos comportamientos. Este gráfico puede ser realizado mediante la función stem() de la librería graphics de la base del R.

Diagrama de tallo y hojas

# Construcción de diagrama de tallo y hojas
stem(datos$Edad)
  The decimal point is 1 digit(s) to the right of the |

  1 | 678
  2 | 0001223
  2 | 677
  3 | 123
  3 | 9
  4 | 000

Interpretación

En el diagrama de tallo y hojas se aprecia que la edad mínima de los encuestados es de \(16\) años, mientras que la mayor es de \(40\), adicionalmente, se aprecia que la edad posee un comportamiento similar en \(20\) y \(40\) años, donde se aprecian \(3\) ocurrencias para cada valor. También se aprecia un comportamiento asimétrico positivo, en donde se aprecia que el conjunto de las edad se encuentra más reunida para edades más bajas que para edades más altas.

Gráfico de caja y bigotes

Este gráfico sirve para presentar de forma visual, datos numéricos a través de sus cuartiles, además de presentar otras características importantes, tales como el valor de los cuartiles, dispersión, simetría y datos potencialmente atípicos.

Representación de un Gráfico de Caja y Bigotes

Este gráfico puede ser realizado mediante la función boxplot() de la librería graphics de la base del R.

Gráfico de caja y bigotes

# Construcción de gráfico de caja y bigotes
boxplot(datos$Peso, horizontal = T, xlab = "Peso (kg)", main = "Boxplot del Peso de las Personas", 
    col = "lightblue")

Interpretación

En el diagrama de caja y bigotes se aprecia que la mediana del peso de las personas se encuentra alrededor de \(79\) kg, en donde el primer y tercer cuartil se encuentran cercanos a \(66\) y \(88\) kg, respectivamente. No se aprecian observaciones extremas por fuera de los bigotes del gráfico y se observa un comportamiento asimétrico negativo, pues se aprecia que la mediana se encuentra más cercana al tercer cuartil que al primero. Finalmente se evidencia que la caja del gráfico es relativamente grande, presentando un rango intercuartílico cercano a \(22\) kg, lo cual podría considerarse como evidencia sobre que los datos poseen una gran dispersión.

Histograma

Este gráfico muestra la distribución de frecuencia o densidades del grupo de observaciones, brinda información sobre el valor más probables, la dispersión, la asimetría y valores extremos. Adicionalmente, tiene la ventaja de que su interpretación es muy intuitiva y por tanto es de los gráficos más preferidos para resumir información. Este gráfico puede ser realizado mediante la función hist() de la librería graphics de la base del R.

Histograma

## Construcción de histograma de frecuencias
hist(datos$Altura, main = "Histograma de Altura de las Personas", xlab = "Altura (m)", 
    col = "lightblue", freq = T)

Interpretación

En la figura anterior, se aprecia que el histograma realiza una agrupación de personas por categorías, con diferencia de cada una de \(0.05\) metros de diferencia, en donde se evidencia que la categoría para la altura entre \(1.55-1.60\) metros, es la que posee mayor frecuencia con un total de \(5\) entradas. También se puede observar que gran parte de las observaciones están reunidas en la parte derecha del histograma, y en consecuencia, se podría pensar que el conjunto de alturas posee una asimetría negativa.

Adicionalmente, al ser una variable de altura de personas, y ver que hay personas que pueden medir desde \(1.55-1.60\) metros hasta \(1.90-1.95\), entonces se considera que la dispersión de las alturas es relativamente alta, lo cual podría ser corroborarse mediante un análisis numérico. Finalmente, como se aprecia que hay varias observaciones en las dos categorías extremas, no se considerará que hayan observaciones extremas en el conjunto de alturas recaudadas en la encuesta.

Densidad

Este gráfico funciona similar al histograma de densidades, con la diferencia de que en lugar de mostrar la distribución mediante clases (barras), éste muestra el comportamiento de la distribución de las observaciones mediante una curva. Dicha curva, brinda mayor información que el histograma respecto al valor promedio, dispersión y asimetría. Este gráfico puede ser realizado mediante la combinación de las funciones plot() y density(), de la forma plot(density()), siendo plot() y density() funciones de las librerías graphics y stats de la base de R.

Adicionalmente se presenta la función polygon de la librería graphics de la base de R, la cual sirve para generar formas, o en este caso, darle color a la densidad.

Densidad

## Construcción de la densidad
plot(density(datos$Salario), main = "Densidad de Salario de las Personas", xlab = "Salario (Pesos)", 
    lwd = 2)
# Colorea la densidad
polygon(density(datos$Salario), col = "lightblue")

Interpretación

En el gráfico de densidad, se aprecia un comportamiento relativamente simétrico, y por tanto se tendrá que el promedio de los salarios de los encuestados debe estar alrededor de \(2\) millones de pesos, con una desviación estándar de aproximadamente \(500\) mil pesos.

En la distribución de los salarios no se aprecian colas pesadas (valores extremos), a excepción de que hay algunos valores que se encuentran por debajo del salario mínimo, lo cual podría ser explicado si se tuviera información sobre el número de horas de trabajo de las personas, ya que podría ser que en algunos casos podría deberse a que se trabaja medio tiempo o menos horas.

Dos variables cuantitativas

Gráfico de dispersión

Este gráfico se emplea para hacer cruces entre dos variables cuantitativas, y sirve para ver tendencias y relaciones entre dos variables cuantitativas, además de permitir apreciar donde se centra el total de observaciones, y detección de datos atípicos dados dos atributos cuantitativos. Este gráfico puede ser realizado mediante la función plot() de la librería graphics de la base del R.

Gráfico de dispersión

plot(x = datos$Altura, y = datos$Salario, xlab = "Altura (m)", ylab = "Salario (Pesos)", 
    main = "Relación entre Altura y Salario", pch = 19)

Interpretación

En el gráfico de dispersión anterior, no se aprecia ninguna relación clara entre la altura de las personas y el salario que devengan, pues no es posible observar que el conjunto de observaciones tenga alguna tendencia que apunte a una dirección en particular. Adicionalmente, se aprecia una gran dispersión entre el conjunto de observaciones, lo cual no hace posible la detección de datos atípicos entre los puntos.

Más de dos variables cuantitativas

Matriz de dispersión

Cuando se poseen más de dos variables cuantitativas, es posible presentar un matriz que muestre el cruce entre pares de variables, mediante cuadros con versiones simples de la función plot(). Este gráfico puede ser realizado mediante la función pairs() de la librería graphics de la base de R.

Matriz de dispersión básica

## Matriz de dispersión básica
pairs(cbind(datos$Edad, datos$Altura, datos$Peso), labels = c("Edad (Años)", 
    "Altura (m)", "Peso (kg)"))

Interpretación

La matriz de dispersión, no se evidencia relación entre los pares de variables evaluadas, debido a que no es posible apreciar tendencias que apunten a alguna dirección en particular, o aglomeración de observaciones. Adicionalmente, se aprecia gran dispersión entre el conjunto de observaciones, y en consecuencia, no es posible detectar observaciones extremas.

Matriz de dispersión avanzada

Funciones complementarias pueden ser desarrolladas para mejorar la visualización los pares de variables. En el libro de Hernández & Correa (2018, pp. 40-49), se presentan diferentes funciones que pueden ser implementadas. Entre ellas

Hernández & Correa ([2018](#ref-Hernandez2018))

# Función para dibujar la dispersión y agregar la recta de regresión
panel.reg <- function(x, y) {
    points(x, y, pch = 20)
    abline(lm(y ~ x), lwd = 2, col = "dodgerblue2")
}
# Función para crear el histograma
panel.hist <- function(x, ...) {
    usr <- par("usr")
    on.exit(par(usr))
    par(usr = c(usr[1:2], 0, 1.5))
    h <- hist(x, plot = FALSE)
    breaks <- h$breaks
    nB <- length(breaks)
    y <- h$counts
    y <- y/max(y)
    rect(breaks[-nB], 0, breaks[-1], y, col = "dodgerblue2", ...)
}
# Función para obtener la correlación
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor) {
    usr <- par("usr")
    on.exit(par(usr))
    par(usr = c(0, 1, 0, 1))
    r <- abs(cor(x, y))
    txt <- format(c(r, 0.123456789), digits = digits)[1]
    txt <- paste(prefix, txt, sep = "")
    if (missing(cex.cor)) 
        cex <- 0.8/strwidth(txt)
    text(0.5, 0.5, txt, cex = cex * r)
}

pairs(cbind(datos$Edad, datos$Altura, datos$Peso), labels = c("Edad (Años)", 
    "Altura (m)", "Peso (kg)"), upper.panel = panel.reg, diag.panel = panel.hist, 
    lower.panel = panel.cor)

Interpretación

En la matriz de dispersión mejoradas, es posible observar un poco más de información al respecto al conjunto de observaciones. Inicialmente, vemos en la diagonal un histograma de cada variable individual, en donde para la Edad, se aprecia que cada barra está compuesta por bloques de \(5\) años, mostrando que la mayor proporción de personas posee menos de \(20\) años, seguido por personas entre \(35-40\) años, también se aprecia un comportamiento decreciente entre las edades, lo cual podría pensarse en una forma asimetría ligeramente positiva.

Respecto a la altura, vemos que cada barra está compuesta por bloques de \(0.05\) metros de diferencia, comenzando en \(1.55-1.60\) metros y terminando en \(1.95\) metros, en donde, se aprecia que la mayor proporción de personas posee una altura menor a \(1.60\) metros, seguido por una altura mayor a \(1.90\) metros. En ésta se observa una altura relativamente simétrica, con una amplia dispersión.

Para el peso, se observa que las barras del histograma saltan de \(5\) en \(5\) kg, iniciando en \(60\) kg hasta \(95\), siendo la categoría \(85-90\) kg la que posee mayor número de observaciones, seguida por la categoría \(65-70\) kg. No se observan valores atípicos en el conjunto de los pesos, dado los valores planteados son valores comúnmente alcanzables. No es posible asegurar la existencia de una estructura asimétrica definida, debido al comportamiento de las barras que no tiene crecimientos ni decrecimientos uniformes.

En la parte inferior izquierda, se muestran los valores asociados a la correlación entre cada par de variables, en donde se observa que la correlación entre la Edad y la Altura es de \(0.19\), entre la Altura y el Peso de \(0.17\) y entre la Edad y el Peso de prácticamente \(0\). De lo anterior, si usamos los valores de referencia presentados en la Clase 02 sobre Medidas de Asociación, se tendrá que al tener una correlación menores a \(30\%\), se concluirá que la correlación entre cada uno de los pares de variables es débil o nula.

Finalmente, en la parte superior derecha, se presenta el gráfico de dispersión entre cada par de variables junto con su recta de regresión. En el gráfico entre Edad y Altura, no se aprecia ninguna agregación de datos, alguna relación positiva o negativa entre las variables o valores atípicos. Comportamiento similar se observa entre los pares de variables de Edad-Peso, y Altura-Peso.

Una variable cualitativa

Gráfico de barras

Sirve para resumir una o dos variables cualitativas mediante barras de frecuencias absolutas o relativas. Éste permite observar la concentración de observaciones en una o más categorías diferentes. Este gráfico puede ser realizado mediante la función barplot() de la librería graphics de la base de R.

Para realizar estas gráficas deben usarse como insumo, las tablas de frecuencias absolutas o relativas construidas previamente en la subsección de Resumen tabular.

Gráfico de barras una variable para frecuencias absoluta

# Gráfico de barras para una variable de frecuencias absolutas
barplot(tabla1via, main = "Frecuencias absolutas de los Municipios", col = hcl.colors(5))

Interpretación

En el gráfico de barras, se observa que entre el total de los \(20\) encuestados, la mayoría con \(5\) personas viven en la Estrella, seguido por los municipios de Bello, Caldas y Medellín con un total de \(4\) personas, y el municipio de Itagüí con \(3\) personas encuestadas.

Gráfico de barras una variable para frecuencias relativas

# Gráfico de barras para una variable de frecuencias relativas
barplot(prop1via, main = "Frecuencias relativas de los Municipios", col = rainbow(5))

Interpretación

En el gráfico de barra anterior, se aprecia de forma visual el comportamiento de la proporción de encuestados respecto al municipio en donde viven, mostrando que en los municipios de Bello, Caldas y Medellín se realizó en cada una un \(20\%\) de las encuestas, mientras que en la Estrella e Itagüí se realizó un \(25\%\) y \(15\%\) de las encuestas respectivamente.

Gráfico de pareto

Este gráfico es similar al gráfico de barras para una sola variable cualitativa, pero con la ventaja de que presenta las frecuencias absolutas, relativas, y las frecuencias acumuladas absolutas y acumuladas relativas en el mismo gráfico. Este gráfico puede ser realizado mediante la función pareto.chart() de la librería qcc, usando como insumo las tablas de frecuencias absolutas construidas previamente en la subsección de Resumen tabular.

Gráfico de pareto una variable cualitativa

## Instalar y cargar 
# install.packages('qcc') # Instala librería qcc
library(qcc)  # Carga librería qcc

# Gráfico de pareto para una variable cualitativa
pareto.chart(tabla1via, main = "Gráfico Pareto para los Municipios")

Pareto chart analysis for tabla1via
              Frequency Cum.Freq. Percentage Cum.Percent.
  La Estrella         5         5         25           25
  Bello               4         9         20           45
  Caldas              4        13         20           65
  Medellín            4        17         20           85
  Itagüí              3        20         15          100

Interpretación

El gráfico pareto anterior agregada diferente información sobre el municipio de vivienda de las personas encuestadas, en donde, en el eje izquierdo se observa el valor de las frecuencias absolutas, mientras que en el eje derecho se observa el valor de las frecuencias relativas. Las barras representan los valores absolutos o relativos, dependiendo del eje (izquierdo o derecho) que se observe, mientras que los puntos representan los valores acumulados absolutos o relativos dependiendo del eje (izquierdo o derecho) que se observe.

Dicho comportamiento es resumido en la tabla de análisis de pareto, en donde se presentan las frecuencias-proporciones simples en orden descendente, desde la que posee mayor cantidad, hasta la que posee una menor cantidad. En la tabla de salida se observa que \(5\) personas que equivalen a \(25\%\) de los datos totales habitan en la Estrella, \(4\) personas que equivalen a \(20\%\) del total de la población habitan en Bello. Frecuencia y proporción similar a Bello habitan en Caldas y Medellín. Finalmente, con una frecuencia de \(3\) encuestados, que equivale a \(15\%\) del total del total de los encuestados, habita en Itagüí.

Gráfico de pastel

Este gráfico también sirve para representar gráficamente las tablas de frecuencias absolutas y relativas para una variable cualitativa. A pesar de ser un gráfico ampliamente usado en la práctica, éste no muestra bien la información que se desea presentar, debido a que siempre debe estar acompañado de los porcentajes o frecuencias que representa cada área, ya que de otra forma, dicho gráfico puede ser muy engañoso.

Este gráfico puede ser realizado mediante la función pie() de la librería graphics de la base de R, usando como insumo, las tablas de frecuencias absolutas construidas previamente en la subsección de Resumen tabular.

Mientras que las etiquetas de los porcentajes o frecuencias de cada área, puede establecerse mediante la función legend() de la librería graphics de la base de R.

Gráfico de barras una variable para frecuencias absoluta

# Gráfico de pastel una variable de frecuencias absolutas
pie(tabla1via, main = "Frecuencias absolutas por Municipio", col = cm.colors(5))
legend("topleft", legend = round(prop1via, 4), fill = cm.colors(5))

Interpretación

El gráfico de pastel anterior, muestra la frecuencia absoluta de encuestas que se realizaron por municipio, en donde triángulos más grandes representan una mayor frecuencia y triángulos más pequeños una menor frecuencia. Dado que no es posible saber con certeza si los triángulos son iguales o diferentes, se agrega en la parte izquierda un cuadro con el nombre de la categoría y la frecuencia absoluta entre paréntesis. En este cuadro, se aprecia que el municipio de la Estrella es quién posee la mayor frecuencia en la encuesta, con un total de \(5\) encuestados, seguidos por Bello, Caldas y Medellín con un total de \(4\) encuestados cada una, y seguido por \(3\) encuestados pertenecientes al municipio de Itagüí.

Gráfico de barras una variable para frecuencias relativas

# Gráfico de pastel una variable de frecuencias relativas
pie(prop1via, main = "Frecuencia Relativa por Municipio", col = hcl.colors(5))
legend("topleft", legend = round(prop1via, 4), fill = hcl.colors(5))

Interpretación

En el gráfico anterior, se presenta la proporción de encuestas realizadas en cada uno de los municipios de interés, en donde el gráfico de pastel representa el \(100\%\) de las encuesta realizadas, y cada triángulo la proporción asociada a cada uno de los municipios. En donde, como es difícil saber con certeza si los triángulos son o no iguales, se agrega la proporción asociada en la parte izquierda mediante un cuadro que muestra el nombre del municipio y la frecuencia relativa o proporción asociada entre paréntesis. En el cuadro se evidencia que la Estrella posee el \(25\%\) del total del diagrama del pastel, los municipios de Bello, Caldas y Medellín el \(20\%\) cada uno, y el municipio de Itagüí el \(15\%\) restante.

Gráfico de puntos

Este gráfico también es similar al gráfico de barras, sirve para presentar las frecuencias absolutas o relativas de una variable cualitativa, y muestra un punto que representa el conteo del total de observaciones que hay para cada variable. Este gráfico puede ser realizado mediante la función dotchart() de la librería graphics de la base de R, usando como insumo las tablas de frecuencias absolutas construidas previamente en la subsección de Resumen tabular.

Gráfico de puntos para una variable de frecuencias absolutas

# Gráfico de puntos para una variable de frecuencias absolutas
dotchart(tabla1via, main = "Frecuencias absolutas de categorías por Municipio")

Interpretación

El gráfico de puntos, funciona similar al gráfico de barras solo que en lugar de mostrar barras para mostrar el valor que posee cada categoría, éste gráfico muestra un punto asociado a un valor, que puede evidenciarse en el eje inferior. El gráfico anterior muestra un punto para el valor de \(3\) en el caso de Itagüí, un valor de \(4\) en el caso de Bello, Caldas y Medellín, y un valor de \(5\) en el caso de la Estrella. Dichos valores representan el número de encuestados que hay en la base de datos.

Gráfico de puntos para una variable de frecuencias relativas

# Gráfico de puntos para una variable de frecuencias relativas
dotchart(prop1via, main = "Frecuencias relativas de categorías por Municipio")

Interpretación

El gráfico de puntos también puede mostrar la proporción asociada en la categoría en el eje inferior. En este caso vemos que los valores en el eje van saltando de \(0.02\) en \(0.02\), y por ello, en este caso se tendrá que el municipio de Itagüí representa el \(15\%\) de todas todas las encuestas, Bello, Caldas y Bello cada uno representa el \(20\%\), y el municipio de la Estrella representa al \(25\%\) de la totalidad de las encuestas.

Dos variables cualitativas

Gráfico de barras

El gráfico de barras también sirve para resumir dos variable cualitativa mediante barras de frecuencias absolutas o relativas. La interpretación, será la misma que para una sola variable cualitativa, con la diferencia de que en este caso, se podrán hacer comparaciones por categorías adicionales. Este gráfico puede ser realizado mediante la función barplot() de la librería graphics de la base de R, junto a la función legend(), para establecer las etiquetas asociadas a cada una de las barras que se presenten en el gráfico.

Gráfico de barras dos variables para frecuencias absolutas

# Gráfico de barras para dos variables para frecuencias absolutas
barplot(tabla2vias, main = "Frecuencias absolutas categorías de Deporte por Municipio", 
    col = topo.colors(5), beside = T)
legend("topright", rownames(tabla2vias), fill = topo.colors(5))

Interpretación

En el gráfico de barras para el cruce entre el deporte favorito y el municipio de vivienda, se observa que de las \(6\) personas que prefieren Baloncesto sobre otros deportes, hay \(3\) que residen en Medellín, \(2\) en la Estrella y \(1\) en Itagüí. Por su parte, de las \(10\) personas que prefieren el Fútbol, se aprecia que la mayoría de las personas habitan en Caldas, seguido por Bello, Itagüí y Medellín, con una frecuencia de \(4\), \(3\), \(2\) y \(1\) respectivamente. Para las \(3\) personas encuestadas que prefieren Tenis sobre otros deportes, se tiene que \(2\) viven en la Estrella y \(1\) en Bello, mientras que de los encuestados, solo una persona prefiere Voleibol sobre otros deportes, y éste reside en la Estrella.

Gráfico de barras dos variables para frecuencias relativas

# Gráfico de barras para dos variables para frecuencias relativas
barplot(prop2vias, main = "Frecuencias relativa categorías de Deporte por Municipio", 
    col = terrain.colors(5), beside = T)
legend("topright", rownames(prop2vias), fill = terrain.colors(5))

Interpretación

En el gráfico anterior, se ilustra el cruce entre las variables de deporte y municipio, y se observa que el \(30\%\) de los encuestados prefieren baloncesto sobre otros deportes, porcentaje que se divide entre \(15\%\) asociado a personas que habitan en Medellín, \(10\%\) que habitan en la Estrella y \(5\%\) en Itagüí. De forma similar, se aprecia que \(50\%\) de los encuestados prefieren el fútbol, de donde el \(20\%\) habitan en Caldas, \(15\%\) en Bello, \(10\%\) en Itagüí y \(5\%\) en Medellín. Para las personas que prefieren el Tenis y Voleibol sobre otros deportes, se tiene un \(15\%\) y \(5\%\), respectivamente, de donde, de los que prefieren el Tenis, el \(10\%\) habitan en la Estrella y \(5\%\) en Bello, mientras que, los que prefieren Voleibol habitan todos en la Estrella.

Gráfico de puntos

Como se señaló, este gráfico es similar al gráfico de barras, y sirve para resumir dos variable cualitativa a partir de sus frecuencias absolutas o relativas, y muestra un punto que representa el conteo del total de observaciones que hay para cada variable. Este gráfico puede ser realizado mediante la función dotchart() de la librería graphics de la base de R, usando como insumo las tablas de frecuencias absolutas construidas previamente en la subsección de Resumen tabular.

Gráfico de puntos para dos variables de frecuencias absolutas

# Gráfico de barras para dos variables para frecuencias absolutas
dotchart(tabla2vias, main = "Frecuencias absolutas de categorías de Deporte por Municipio")

Interpretación

En el gráfico de puntos anterior, se observan las categorías de municipio de vivienda anidadas dentro del deporte favorito de las personas, en donde, para el deporte baloncesto, se aprecia en el eje inferior, que \(3\) de ellos viven en Medellín, \(2\) en la Estrella y \(1\) en Itagüí.

En el caso de quienes prefieren Fútbol se observa la mayor cantidad de encuestados, en donde se tiene \(1\) habitante con localidad en Medellín, \(2\) en Itagüí, \(4\) en Caldas y \(3\) en Bello. Similarmente, para quienes prefieren practicar Tenis se encuentran \(2\) personas que viven en la Estrella y \(2\) en Bello. Finalmente, la única persona que prefiere el Voleibol sobre otros deportes, se encuentra que vive en la Estrella.

Gráfico de puntos para dos variables de frecuencias relativas

# Gráfico de barras para dos variables para frecuencias relativas
dotchart(prop2vias, main = "Frecuencias relativas de categorías de Deporte por Municipio")

Interpretación

En el gráfico de puntos para frecuencias relativas, se aprecia un cruce entre el municipio de vivienda y el deporte favorito de las personas en el eje \(Y\), mientras la proporción asociada en el eje \(X\). Al observar por deporte, encontramos que el deporte menos popular es el voleibol con solo una persona que lo prefiere sobre los demás, la cual vive en la Estrella y representa el \(5\%\) del totalidad de la encuesta.

El deporte más popular es el fútbol con un total del \(50\%\) de los encuestados los cuales se dividen entre \(5\%\) que reside en la Estrella, \(10\%\) en Itagüí, \(20\%\) en Caldas y \(15\%\) en Bello. También se presenta información sobre las personas que prefieren baloncesto sobre otros deportes con un total de \(30\%\) de la totalidad de las encuestas, porcentaje que se reparte entre Medellín, la Estrella e Itagüí con el \(15\%\), \(10\%\) y \(5\%\), respectivamente. Adicionalmente se evidencia que el \(15\%\) restante de los encuestados prefieren el Tenis sobre otros deportes, siendo un \(10\%\) personas que viven la Estrella y el \(5\%\) personas que viven en Bello.

Gráfico de balón

El gráfico de balón, suele ser un gráfico más avanzado para resumir dos variable cualitativa, en donde se establecen en el cruce de las dos variables, círculos que se asocian al tamaño del cruce de las dos variables cualitativas. Este gráfico puede ser realizado mediante la función ggballoonplot() de la librería ggpubr, la cual depende de la librería ggplot2.

Gráfico de balón

# Carga las librerías
library(ggplot2)
library(ggpubr)

# Establece un tema por defecto para el gráfico
theme_set(theme_pubr())

# Gráfico de balón
ggballoonplot(data.frame(tabla2vias), fill = "value") + scale_fill_viridis_c(option = "C")

Interpretación

En el gráfico de balón, se muestra el número de observaciones que hay entre el cruce de las variables deporte y municipio. En dicho gráfico se observa que la mayor frecuencia de observaciones se da en el cruce entre los encuestados que viven en el municipio de Caldas y que prefieren el fútbol entre los demás deportes, con un tal de \(4\) observaciones, seguido por los cruces entre Bello-Fútbol y Medellín-Baloncesto con un total de \(3\) observaciones. Adicionalmente se observa que de todos los municipios, en el departamento de La Estrella, es donde se evidencia que hay personas que prefieren el Voleibol sobre los demás deportes.

Cualitativa - Cuantitativa

Gráfico de caja y bigotes

Este gráfico sirve para presentar de forma visual, datos numéricos por categorías a través de sus cuartiles, además de presentar otras características importantes, tales como la dispersión, simetría y datos potencialmente atípicos. Este gráfico puede ser realizado mediante la función boxplot() de la librería graphics de R.

Gráfico de caja y bigotes

# Construcción de gráfico de caja y bigotes por categorías
boxplot(datos$Altura ~ datos$Estrato, horizontal = T, xlab = "Altura (m)", ylab = "Estratos", 
    main = "Boxplot de Altura de las personas por Estrato", col = terrain.colors(6))

Interpretación

En el gráfico anterior, se hace una comparación entre la altura de los encuestados y el estrato socioeconómico al que pertenece cada encuestado. En éste se aprecia que de los \(6\) estratos, el estrato \(2\) es el que posee la mayor mediana de estatura respecto a los demás estratos.

También se observa que solo existe una observación en el estrato \(5\), por lo cual solo se aprecia una barra vertical que representa el valor de esa observación. Se evidencia además que la mediana de la altura de los encuestados pertenecientes al estrato \(6\), \(4\) y \(1\) poseen una mediana similar que ronda los \(1.74\) metros.

Asimismo, puede apreciarse que de los \(6\) estratos, los estratos \(1\) y \(2\) poseen la mayor variabilidad entre todos los estratos, pues son los que poseen mayor rango y mayor rango intercuartílico. Se nota además, que para todos los estratos se observa un comportamiento simétrico, a excepción del estrato \(2\), el cual posee una asimetría negativa, dado que el valor de la mediana se encuentra en la parte derecha de la caja.

Finalmente, puede notarse que no se evidencia ningún punto a la derecha o izquierda de los bigotes de las diferentes cajas, lo cual quiere decir, que no se identificaron alturas extremas o atípicas para ninguno de los estratos socioeconómicos.

Adicionalmente puede agregarse el argumento notch = TRUE, lo cual provoca una muesca en cada lado de la caja. McGill, Tukey, & Larsen (1978) señala que estas muescas representan un intervalo del 95% de confianza alrededor de la mediana, y que son construidas a partir de la ecuación

\begin{align*} \tilde{X}\pm 1.57\times \frac{IQR}{\sqrt{n}} \end{align*}

En donde, si las muescas de dos parcelas no se superponen, entonces se tendrá evidencia sólida respecto a que la mediana de los grupos es diferente (Chambers, Cleveland, Kleiner, & Tukey, 1983, p. 62).

Gráfico de caja y bigotes con intervalo de confianza del 95% para la mediana

# Construcción de diagrama de caja y bigotes por categorías con intervalo
# del 95% para la mediana
boxplot(datos$Altura ~ datos$Estrato, horizontal = T, xlab = "Altura (m)", ylab = "Estratos", 
    main = "Boxplot de Altura de las personas por Estrato", col = topo.colors(6), 
    notch = T)

Interpretación

El gráfico de caja y bigotes, presentan un comparativo de la altura de las personas con el estrato socioeconómico, adicionando además intervalos de confianza para la mediana, con el fin de observar si las medianas de cada estrato es significativamente diferente que el de otros estratos o no.

En el gráfico se aprecia que en casi todos los estratos se observa que las bandas de confianza son mayores al primer y tercer cuartil, a excepción de los estratos \(5\) y \(2\) en donde, el primero posee una sola observación, y en consecuencia sus bandas de confianza son iguales a su mediana o único valor registrado, mientras que, para el segundo se aprecia que la banda de confianza solo supera el tercer cuartil.

Se evidencia que de las medianas presentadas, las de los estratos \(6\), \(4\) y \(1\) son muy similares situándose alrededor de \(1.74\) metros, mientras que el estrato que presenta una mayor mediana es el \(2\) con un valor cercano a \(1.86\). La diferencia entre la mediana de los estratos no parece ser significativamente diferente aunque se aprecie que hay unos valores mayores o menores que otros, debido a que los intervalos de confianza del \(95\%\) para la mediana se traslapan unos con otros.

También se nota, que de los estratos propuestos, la altura de los estratos \(1\) y \(2\) parecen ser los que poseen la mayor variabilidad entre todas las categorías, ya que se que tanto su rango, rango intercuartílico como bandas de confianza son las más grandes. Es de anotar, que para ninguno de los estratos se observan valores atípicos, ya que, para ninguno de las categorías se identifican puntos por fuera de los bigotes de las cajas.

Gráfico de medias

Este gráfico sirve para presentar de forma visual, grupos de datos numéricos a través de sus media y desviación estándar. El gráfico está compuesto por un punto que representa el valor promedio del grupo de observaciones y las barras representan dos desviación estándar de la media. En donde, si las barras no se superponen, entonces se tendrá evidencia sólida respecto a que la media de los grupos es diferente.

Este gráfico puede ser realizado mediante la función plotMeans() de la librería RcmdrMisc.

Gráfico de medias

## Instalar y cargar librerías 
# install.packages('RcmdrMisc') # Instala librería RcmdrMisc
library(RcmdrMisc)  # Carga la librería RcmdrMisc

## Construcción de diagrama de caja y bigotes por categorías 
# Recordar escribir en error.bars = 'conf.int' porque por defecto se 
# presenta un intervalo para el error estándar y no para dos desviaciones estándar.
plotMeans(response = datos$Peso, factor1 = datos$Estrato, error.bars = "conf.int", 
    xlab = "Estrato", ylab = "Peso (kg)", main = "Plot of Means de Peso de las personas por Estrato")

Interpretación

A diferencia del gráfico de caja y bigotes, el gráfico de medias muestra el valor promedio del conjunto de observaciones por cada grupo de interés, junto con sus respectivos intervalos de confianza del \(95\%\) para la media, para poder observar si hay diferencias significativas entre una categorías y otra.

Del gráfico anterior, se evidencia que el peso promedio de las personas se encuentra alrededor de \(75\) kg, siendo el estrato \(4\) el que presenta un mayor promedio con un valor cercano a \(80\) kg, y el estrato \(5\) el que presenta un menor promedio con un valor cercano a \(65\) kg. Es de anotar que el estrato \(5\) no posee bandas de confianza debido a que dicho estrato solo cuenta con una observación, y en consecuencia no posee medidas de variabilidad.

Aunque hay una pequeña diferencia entre la media de los estratos, no es posible hablar sobre que las diferencias son significativas, ya que se tiene que las bandas de confianza de cada estrato se traslapan unos con otros.

Gráfico de dispersión

Este gráfico se emplea para hacer cruces entre dos variables cuantitativas, las cuales pueden ser diferenciadas por una cualitativa, mediante el cambio de colores. Este sirve para ver tendencias, diferencias entre clases, relaciones entre dos variables cuantitativas, y permite apreciar donde se centra el total de observaciones dados dos atributos cuantitativos. Este gráfico puede ser realizado mediante la función plot() de la librería graphics de R.

Para diferenciar los colores usados en el gráfico, es posible establecerse las categorías mediante la función legend() de la librería graphics de la base de R.

Gráfico de dispersión por categorías

plot(x = datos$Edad, y = datos$Altura, xlab = "Edad (años)", ylab = "Altura (m)", 
    main = "Edad vs Altura", pch = 19, col = datos$DeporFavorito)
legend("bottomright", legend = levels(datos$DeporFavorito), col = 1:4, pch = 19)

Interpretación

En el gráfico de dispersión anterior, se muestran un cruce entre la Altura y la Edad de las personas encuestadas, estableciendo categorías por los deporte favorito de las personas. En este gráfico no se observa ninguna tendencia para ninguno de los deportes de evaluados, en donde, especial atención debe tenerse con Tenis y Voleibol debido a que el primer deporte posee solo dos puntos, mientras que el segundo deporte posee un solo punto, así que no tiene mucho sentido hablar de tendencias en estos dos casos.

Adicionalmente en dicho gráfico, no es posible hablar de observaciones atípicas o datos atípicos, pues no se evidencian puntos que se encuentren por fuera de los límites normales de Peso o Edad de una persona. Tampoco es posible hablar de una conglomeración de datos debido la alta dispersión que se ve entre los puntos.

Referencias

Chambers, J., Cleveland, W., Kleiner, B., & Tukey, P. (1983). Graphical methods for data analysis (1st ed.). Wadsworth & Brooks/Cole.

Hernández, F., & Correa, J. (2018). Gráficos con r. Universidad Nacional de Colombia.

McGill, R., Tukey, J., & Larsen, W. (1978). Variations of box plots. The American Statistician, 32(1), 12–16.