Introducción

La Estadística es una fuerte herramienta empleada en las diferentes disciplinas científicas, debido a su gran potencial para recolectar, analizar y presentar de forma amigable, la información que se genera en las distintas áreas del conocimiento, para así poder argumentar y soportar de mejor manera las investigaciones realizadas.

Adicionalmente, la estadística tiene como ventaja respecto a otras áreas, que permite extraer información de variables tanto numérica como categórica de la población de interés o de una muestra de la misma, permitiendo con ello, establecer conclusiones acerca de la misma población, o de alguno de los parámetros que la conforman. Dado lo anterior, no es de sorprender que la estadística sea concebida como uno de los pilares fundamental dentro de la investigación científica teórica y aplicada.

En general, el análisis estadístico puede dividirse en dos partes:

  • La Estadística descriptiva, la cual se encarga de resumir la información suministrada mediante el empleo de tablas, gráficas y medidas numéricas, junto con el análisis de las mismas, para facilitar la interpretación y la presentación de la información.
  • La Inferencia estadística, la cual se encarga de la inferencias, modelamiento y predicción de la información, para facilitar la obtención de conclusiones y toma de decisiones.

Estadística descriptiva

En general, la importancia del análisis estadístico radica en la resolución de problemas vinculados con datos, en donde la variabilidad de los mismos es quién guiará la importancia del empleo de diferentes técnicas para el manejo de la información. Desde este punto de vista, se discute en esta sección sobre la implementación de resúmenes de información, así como la presentación por medio de cuadros, diagramas o gráficos, cálculo y uso de medidas estadísticas de tendencia central, localización, variabilidad y forma.

Un aspecto importante a tener en cuenta en realización de análisis estadísticos, es señalado por Esquivel (2016, p. 29), el cual establece una serie de etapas que deben tenerse en cuenta cuando se realizan análisis de información estadística:

  1. Leer entre los datos: que consiste en llevar a cabo una lectura literal de la información, sin interpretar su contenido.
  2. Leer dentro de los datos: implica no solamente interpretar los datos sino integrarlos dentro del contexto.
  3. Leer más allá de los datos: significa tomar los datos como referente para identificar patrones que transciendan el grupo de datos observado, ya sea mediante la interpolación o extrapolación de resultados.
  4. Leer detrás de los datos: consiste en llevar a cabo un análisis crítico de la información que se estudia, esto implica analizar integralmente el problema, desde su origen, el tipo de dato que se utiliza, su validez y fiabilidad para analizar el problema y la posibilidad de generalizar los hallazgos.

Tipos de datos

En términos generales, los datos son cualquier pieza de información recolectada del fenómeno que se pretende analizar, y que, dependiendo de las características que posean, deben clasificarse dentro de una determinada categoría.

  • Cuantitativos: Son datos que pueden ser medidos o cuantificados. Estos se subdividen en dos categorías:
    • Datos cuantitativos discretos: Son aquellos datos que provienen de procesos que involucran conteos, y por tanto, solo pueden tomar valores enteros. Por ejemplo: Edad de una persona, número de estudiantes que perdieron un curso, cantidad de profesores que dictan Estadística I
    • Datos cuantitativos continuos: Son aquellos datos que provienen de procesos que involucran mediciones, y por tanto, solo pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo: Temperatura de congelación del agua, Tiempo que dura una clase, Utilidad diaria de un negocio.
  • Cualitativos: Son datos asociados a una cualidad o propiedad, y por tanto, no pueden representarse numéricamente, a pesar de poder caracterizarse alfanuméricamente. Por ejemplo: Estrato socioeconómico, tipo de animales en una granja, nivel de satisfacción con el método planteado para dictar el curso.
  • Lógicos: Son datos asociados a valores de lógica binaria, usualmente denotados como Verdadero y Falso, o Éxito y Fracaso. Por ejemplo: Tipo de Sexo, cara de una moneda, probar si un artículo es defectuoso.

Escala de medición

Las escalas o niveles de medición se utilizan para medir variables o atributos que posea un conjunto de datos. A saber, las escalas de medición se dividen en cuatro, nominal, ordinal, intervalos y razón. Las dos primeras (nominal y ordinal) se conocen como escalas categóricas usadas comúnmente para variables cualitativas, mientras que las dos últimas (intervalo y razón) se conocen como escalas numéricas, usadas comúnmente para variables cuantitativas.

  • Nominal: Son aquellos factores que establecen etiquetas o categorías a los datos, sin estar sujetos a un orden específico. Por ejemplo: Partido político, Comuna de residencia
  • Ordinal: Son aquellos factores que establecen etiquetas o categorías a los datos, junto a una estructura jerárquica. Por ejemplo: Nivel de una enfermedad, Grado de escolaridad
  • Intervalo: Son aquellas mediciones cuantitativas que establecen la distancia entre una medida y otra, en términos de una unidad de medición fija, donde el cero se selecciona de forma arbitraria y no indica ausencia del tributo, ni indica conceptos como ‘ninguno’, ‘vacío’ o ‘nada’. Por ejemplo: Unidades de medida en centígrados o Fahrenheit
  • Razón: Son aquellas mediciones cuantitativas que establece la distancia exacta de una categoría debido a que el cero es absoluto, no es arbitrario, e indica ausencia del atributo. Por ejemplo Índice de masa corporal, Salario

Ejercicio Caso de Estudio

Clasifique las variables según el tipo de dato y su escala de medición

  1. Evaluación de conocimientos
  2. Tipo de universidad
  3. Posición en un reinado de belleza
  4. Calidad de vida en una ciudad
  5. Escalas de los test psicológicos
  6. Litros de agua consumidos por persona al día
  7. Número del documento de identidad
  8. Goles marcados por un futbolista en un partido

Solución

  1. Evaluación de conocimientos: Suponga que es una calificación obtenida en un intervalo de \(0\) a \(5\), y en consecuencia, se tendrá que la variable será de tipo Cuantitativa continua, con una escala de medición de tipo intervalo, debido a que tener un \(0\) en una evaluación de conocimiento no significa necesariamente que no se tenga ningún conocimiento sobre el tema evaluado
  2. Tipo de universidad: Dado que las universidades pueden ser públicas o privadas, se tendrá una variable de tipo lógica, con una escala de medición de tipo nominal, debido a que no existe una jerarquía o un ordenamiento natural en donde se siga que las universidades públicas son superiores a las privadas, o viceversa.
  3. Posición en un reinado de belleza: La posición obtenida en un reinado de belleza se divide en muchas competencias como Reina, Virreina, Primera princesa, Segunda Princesa y Tercera princesa, por tanto, se tendrá que la variable será de tipo Cualitativa, con una escala de medición de tipo ordinal debido a que hay una jerarquía entre las posiciones obtenidas, siendo la posición más alta la Reina, cual es la que gana la competencia, seguida por la Virreina la cual es quién queda en la segunda posición en la competencia, y así sucesivamente.
  4. Calidad de vida en una ciudad: Suponiendo que la medición se hace en niveles de Alta, Media y Baja, se tendrá que la variable será de tipo Cualitativa, con una escala de medición de tipo ordinal debido a que hay una persona que tenga una calidad de vida alta, va a estar en una mejor posición económica que tenga una calidad de vida baja. Aunque ésto podría ser planteado de forma diferente, debido a que hay diferentes definiciones de calidad de vida.
  5. Escalas de los test psicológicos: son pruebas que miden diferentes características, por ejemplo, la inteligencia emocional o altruismo. Éstas por lo general poseen calificaciones que van de \(0\) a \(100\), por lo cual se tendrá que la variable será de tipo Cuantitativa discreta, con una escala de medición de tipo intervalo, debido a que en este tipo de calificaciones el \(0\) se elige de forma arbitraria por quienes desarrollaron dichos test.
  6. Litros de agua consumidos por persona al día: Dado que una persona puede consumir hasta \(7\) litros de agua por día antes de sufrir de hiperhidratación o intoxicación por agua, diremos que es una variable de tipo Cuantitativa continua, con una escala de medición de tipo razón debido que consumir cero litros de agua en el día, significa que hubo ausencia total del consumo.
  7. Número del documento de identidad: Aunque la variable sea literalmente númerica, no significa que tenga un valor numérico como tal, en su lugar, éste sirve un como identificador para las personas, y por tanto se tendrá que dicha variable es de tipo Cualitativa, con una escala de medición de tipo nominal, debido a número de identidad en particular no simboliza una jerarquía mayor a menor respecto a números de identidad menor o mayor, respectivamente.
  8. Goles marcados por un futbolista en un partido: Un futbolista puede no anotar goles en un partido, o anotar \(1\) gol, \(2\) goles, \(3\) goles, \(\ldots\), \(n\) goles. Dado lo anterior, se observa que un jugador solo puede anotar un número entero de goles, y por tanto, se tendrá que la variable será de tipo Cuantitativa discreta, con una escala de medición de tipo razón debido que no meter goles en un partido significa que hubo una ausencia de goles de parte del jugador en dicho partido.

Medidas estadísticas

Las medidas estadísticas tienen por objetivo resumir la información contenida en un conjunto de datos, en pocos valores numéricos que representan diferentes características. Estas medidas estadísticas nos darán información sobre la situación, dispersión, forma, asociación que posee un conjunto de datos de manera que sea posible captar rápidamente la estructura de los mismos.

Caso de estudio

Suponga que se está interesado en observar la evolución en el desempeño que tuvo un grupo de $10$ estudiantes en el curso de Estadística I. Para ello se toma de referencia la nota obtenida en el primer y cuarto parcial de la materia, obteniendo los siguientes resultados

1 2 3 4 5 6 7 8 9 10
Parcial 1 2.7 4.0 3.1 2.7 2.9 1.3 2.6 2.8 3.3 2.1
Parcial 4 1.8 4.7 3.4 0.7 4.1 3.6 4.5 3.2 3.4 2.0

Medidas de tendencia central

Estas medidas tienen por objetivo buscar valores que muestren el lugar en el cual se encuentra el centro de un conjunto de observaciones. Si se define $x_1, x_2, \ldots, x_n$ como un conjunto de $n$ observaciones, entonces

Media

Es el promedio numérico de las $n$ observaciones. \begin{align*} \bar{X}=\sum_{i=1}^n\frac{x_i}{n}=\frac{x_1+x_2+\ldots+x_n}{n} \end{align*}

En R, puede calcularse el valor promedio de un conjunto de observaciones mediante la función mean(datos).

Ejercicio Caso de Estudio

Calcule la nota promedio obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, de forma manual.

Solución Manual

La nota promedio obtenida por los estudiantes durante el primer y cuarto parcial del curso de Estadística I estará dada por \[\begin{align*} \bar{X}_{P_1}=\frac{2.7 + 4.0 + \ldots + 2.1}{10} = 2.75 \\ \bar{X}_{P_4}=\frac{1.8 + 4.7 + \ldots + 2.0}{10} = 3.14 \end{align*}\] Lo anterior significa que, el valor promedio obtenido por los estudiantes en el parcial \(1\) del curso de estadística I fue de \(2.75\), mientras que el valor promedio obtenido en el parcial \(4\) fue de \(3.14\). Es decir, se aprecia que hubo una mejora en la nota promedio por los estudiantes de \(0.39\).

Ejercicio Caso de Estudio

Calcule la nota promedio obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, con R.

Solución en R

Para realizar el cálculo en R de la nota promedio obtenida por los estudiantes en los dos parciales se emplea la función mean() tal que

# Se guardan los datos en R
P1 <- c(2.7, 4.0, 3.1, 2.7, 2.9, 1.3, 2.6, 2.8, 3.3, 2.1)
P4 <- c(1.8, 4.7, 3.4, 0.7, 4.1, 3.6, 4.5, 3.2, 3.4, 2.0)

## Se calcula la media de cada conjunto de datos
# Media Parcial 1
mean(P1)
[1] 2.75
# Media Parcial 4
mean(P4)
[1] 3.14

Mediana

Es el valor que ocupa el lugar central en un conjunto de datos, es decir, el valor que divide el conjunto de observaciones en dos partes que contienen el 50% de las observaciones. Para realizar el cálculo de la mediana es necesario ordenar inicialmente el conjunto de observaciones de forma ascendente. \begin{align*} \tilde{X}=\begin{cases}x_{\left[\frac{(n+1)}{2}\right]} & \text{si } n \text{ es impar}\\\frac{1}{2}\left(x_{\left[\frac{n}{2}\right]}+x_{\left[\frac{n}{2}+1\right]}\right) & \text{si } n \text{ es par}\end{cases} \end{align*} donde $x_{\left[j\right]}$ representa la $j$-ésima observación ordenada. En R puede calcularse la mediana de un conjunto de observaciones mediante la función median(datos).

Ejercicio Caso de Estudio

Calcule la nota mediana obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, de forma manual.

Solución Manual

Inicialmente, se observa que el total de estudiantes es \(10\), por lo cual, se tiene que \(n\) es un número par, haciendo que la ecuación empleada sea \[\begin{align*} \tilde{X} &= \frac{1}{2}\left(x_{\left[\frac{n}{2}\right]}+x_{\left[\frac{n}{2}+1\right]}\right) \\ &= \frac{1}{2}\left(x_{\left[\frac{10}{2}\right]}+x_{\left[\frac{10}{2}+1\right]}\right) \\ &= \frac{1}{2}\left(x_{\left[5\right]}+x_{\left[6\right]}\right) \end{align*}\] En donde se observa que debe localizarse la observación que ocupa la posición número \(5\) y \(6\) en las notas obtenidas luego de ordenarlas de menor a mayor. Realizando el ordenamiento para el parcial \(1\) se tendrá

Parcial 1 1.3 2.1 2.6 2.7 2.7 2.8 2.9 3.1 3.3 4.0

donde se observa que las observaciones \(5\) y \(6\) para el parcial \(1\) están dadas por \(x_{[5]}=2.7\) y \(x_{[6]}=2.8\), respectivamente. Mientras que, realizando el ordenamiento para el parcial \(4\) se tendrá

Parcial 4 0.7 1.8 2.0 3.2 3.4 3.4 3.6 4.1 4.5 4.7

donde se evidencia que las observaciones \(5\) y \(6\) para el parcial \(4\) están dadas por \(x_{[5]}=3.4\) y \(x_{[6]}=3.4\), respectivamente. Con dichos valores se realiza entonces, el cálculo de la mediana para los parciales \(1\) y \(4\),tal que \[\begin{align*} \tilde{X}_{P_1} =\frac{1}{2}(2.7+2.8)=2.75 \\ \tilde{X}_{P_4} =\frac{1}{2}(3.4+3.4)=3.4 \end{align*}\] De lo anterior se aprecia que para el parcial \(1\), la mitad de los estudiantes del curso de Estadística I obtuvieron notas menores o iguales a \(2.75\), mientras la otra mitad obtuvo notas mayores o iguales a \(2.75\). Similarmente, se observa para el parcial \(4\), que el \(50\%\) inferior de los estudiantes obtuvieron una nota de a lo más \(3.4\), mientras el \(50\%\) superior de los estudiantes obtuvo una nota de al menos \(3.4\).

Ejercicio Caso de Estudio

Calcule la nota mediana obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I con R.

Solución en R

Para realizar el cálculo en R de la nota mediana obtenida por los estudiantes en los dos parciales se emplea la función median() tal que

## Se calcula la mediana de cada conjunto de datos
# Mediana Parcial 1
median(P1)
[1] 2.75
# Mediana Parcial 4
median(P4)
[1] 3.4

Moda

Es el valor que ocurre con mayor frecuencia en un conjunto de datos, es decir, es la observación que se repite con mayor frecuencia. Es de anotar que en un conjunto de observaciones, se puede tener más de una moda, en cuyo caso se dirá que el conjunto de datos es bimodal, trimodal o multimodal.

Entre las funciones base del programa R no hay ninguna función que calcule la moda de un conjunto de observaciones, y por tanto, debe crearse una función que realice el cálculo, de la forma

# Función para el cálculo de la moda
Moda <- function(x) {
    keys <- na.omit(unique(x))
    keys[which.max(tabulate(match(x, keys)))]
}

Una vez creada la función, puede calcularse la moda de un conjunto de observaciones mediante la función Moda(datos).

Ejercicio Caso de Estudio

Calcule la moda de las nota obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.

Solución Manual

Para encontrar la nota modal de los parciales, es necesario localizar la nota que más se repita en cada parcial. Con el fin de ilustrar cuales son éstas, se presenta nuevamente la tabla con la nota registrada para cada uno de los 10 estudiantes.

1 2 3 4 5 6 7 8 9 10
Parcial 1 2.7 4.0 3.1 2.7 2.9 1.3 2.6 2.8 3.3 2.1
Parcial 4 1.8 4.7 3.4 0.7 4.1 3.6 4.5 3.2 3.4 2.0

De la tabla anterior, se observa que para el caso del parcial \(1\), se observa que nota modal obtenida por los estudiantes de Estadística I es de \(2.7\), ya que es la única nota que se repite dos veces en el conjunto de observaciones. Similarmente, para el parcial \(4\), se aprecia que la nota modal es de \(3.4\) dado que es la nota que más se repite de las \(10\) notas registradas.

Ejercicio Caso de Estudio

Calcule la moda de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I con R.

Solución en R

Para realizar el cálculo en R de la nota modal obtenida por los estudiantes en los dos parciales se emplea la función Moda(), la cual se definió anteriormente

# Se corre inicialmente la función Moda para crearla
Moda <- function(x) {
    keys <- na.omit(unique(x))
    keys[which.max(tabulate(match(x, keys)))]
}

## Se calcular la moda de cada conjunto de datos
# Moda Parcial 1
Moda(P1)
[1] 2.7
# Moda Parcial 4
Moda(P4)
[1] 3.4

Media recortada

Es una medida similar a la media, con la diferencia de que, en este caso, se ordenan las observaciones de forma ascendente, y luego se recortan un número $r$ observaciones superiores e inferiores, tal que $r=n\times trim$, $trim$ un valor porcentual entre 0 y 0.5

\begin{align*} \bar{X}_{trim}=\frac{1}{n-2r}\sum_{i={r+1}}^{n-r}x_i \end{align*}

En R, puede calcularse el valor de la media recortada de un conjunto de observaciones mediante la función mean(datos, trim = trim).

Ejercicio Caso de Estudio

Calcule la media recortada al \(10\%\) de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.

Solución Manual

Para encontrar la nota promedio de los parciales, al eliminar el efecto del \(10\%\) de notas más altas y más bajas, es necesario ordenar de forma ascendente las notas obtenidas en los parciales. Dado que se tienen \(10\) observaciones, de tendrá que eliminar entonces la nota más alta y la nota más baja. Entonces, para el caso del parcial \(1\) se tendrá que el conjunto de observaciones ordenadas es

Parcial 1 1.3 2.1 2.6 2.7 2.7 2.8 2.9 3.1 3.3 4.0

en donde, al eliminar la nota más baja y la nota más alta se tendrá que el conjunto de observaciones usadas para calcular la media recortada será

Parcial 1 2.1 2.6 2.7 2.7 2.8 2.9 3.1 3.3

Similarmente, se realiza el mismo procedimiento para el caso del parcial \(4\), en donde el conjunto de notas ordenados de menor a mayor será

Parcial 4 0.7 1.8 2.0 3.2 3.4 3.4 3.6 4.1 4.5 4.7

donde se aprecia que la nota más baja es \(0.7\), mientras que la más alta es \(4.7\). Al eliminar dichas observaciones, se tendrá que conjunto de notas usadas para calcular la media recortada al \(10\%\) estarán dada por

Parcial 4 1.8 2.0 3.2 3.4 3.4 3.6 4.1 4.5

Al realizar el cálculo de la media recortada al \(10\%\) para cada parcial se encuentran los siguientes resultados \[\begin{align*} \bar{X}_{0.1_{P_1}}=\frac{2.1 + 2.6 + \ldots + 3.3}{8} = 2.775 \\ \bar{X}_{0.1_{P_4}}=\frac{1.8 + 2.0 + \ldots + 4.5}{8} = 3.25 \end{align*}\] De los resultados anteriores, se observa que para ambos casos, la eliminación del \(10\%\) de las notas más altas y más bajas, se obtiene como resultado un incremento en la nota promedio, pasando de \(2.75\) con el total de notas, a \(2.775\) con la eliminación del \(10\%\) de las notas extremas, para el caso del parcial \(1\), y pasando de \(3.14\) a \(3.25\) para el caso del parcial \(4\).

De los hallazgos encontrados al comparar los resultados de la media contra la media recortada al \(10\%\), se tiene que el valor el efecto que tienen las notas más bajas es mayor al efecto de las notas más altas, pues se observa que al eliminar la nota más alta y más baja, se tienen un incremento en la nota promedio obtenida por el curso.

Ejercicio Caso de Estudio

Calcule la media recortada al \(10\%\) de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I con R.

Solución en R

Para realizar el cálculo en R de la nota promedio recortada al \(10\%\) de los estudiantes en los dos parciales se emplea la función mean() con el argumento trim = 0.1, tal que

## Se calcula la media recortada al 10% de cada conjunto de datos
# Media recortada al 10% Parcial 1
mean(P1, trim = 0.1)
[1] 2.775
# Media recortada al 10% Parcial 4
mean(P4, trim = 0.1)
[1] 3.25

Referencias

Esquivel, E. (2016). La enseñanza de la estadı́stica y la probabilidad, más allá de procedimientos y técnicas. Cuadernos de Investigación Y Formación En Educación Matemática, 21–31.