Introducción
La Estadística es una fuerte herramienta empleada en las diferentes disciplinas científicas, debido a su gran potencial para recolectar, analizar y presentar de forma amigable, la información que se genera en las distintas áreas del conocimiento, para así poder argumentar y soportar de mejor manera las investigaciones realizadas.
Adicionalmente, la estadística tiene como ventaja respecto a otras áreas, que permite extraer información de variables tanto numérica como categórica de la población de interés o de una muestra de la misma, permitiendo con ello, establecer conclusiones acerca de la misma población, o de alguno de los parámetros que la conforman. Dado lo anterior, no es de sorprender que la estadística sea concebida como uno de los pilares fundamental dentro de la investigación científica teórica y aplicada.
En general, el análisis estadístico puede dividirse en dos partes:
- La Estadística descriptiva, la cual se encarga de resumir la información suministrada mediante el empleo de tablas, gráficas y medidas numéricas, junto con el análisis de las mismas, para facilitar la interpretación y la presentación de la información.
- La Inferencia estadística, la cual se encarga de la inferencias, modelamiento y predicción de la información, para facilitar la obtención de conclusiones y toma de decisiones.
Inferencia estadística
La inferencia estadística es la obtención de conclusiones basadas en datos experimentales. Para entender la naturaleza de la inferencia estadística, se debe entender primero la diferencia entre “población” y “muestra”.
Población: Consta del total de observaciones del suceso o proceso en que estamos interesados. En muchas ocasiones, no es posible obtener o replicar dicha información.
Muestra: Es un subconjunto de la población de interés, extraída con el objetivo de hacer inferencia sobre la población.
Muestra aleatoria: Es un subconjunto de la población seleccionado de forma independiente e idénticamente distribuidos (iid en adelante).
Estadísticos
Son funciones de las variables aleatorias obtenidas a partir de muestras aleatorias, que tienen por objetivo estimar o hacer inferencia acerca de parámetros desconocidos de una población.
A continuación se definirán algunos estadísticos importantes que sirven para medir el centro y la dispersión de un conjunto de datos, acomodados por orden de magnitud.
Estadísticos muestrales
Sea $X_1, X_2, \ldots, Xn$
una muestra aleatoria iid de tamaño
$n$
, entonces se tendrán los siguientes estadísticos muestrales
Media muestral
Es el promedio aritmético del total de las $n$
observaciones
pertenecientes a una muestra aleatoria. Éste estadístico se define como
\begin{align*} \bar{X}=\sum_{i=1}^n\frac{x_i}{n}=\frac{x_1+x_2+\ldots+x_n}{n} \end{align*}
En R, puede calcularse el valor de la media muestral de una
muestra aleatoria mediante la función mean(datos)
.
Ejercicio
Suponga que se realiza un estudio sobre el salario de los estudiantes de ingeniería industrial una vez finalizan su pregrado y se incertan en el mercado laboral. Para ello, se le pregunta a \(15\) egresados seleccionados de forma aleatoria y se les pregunta cuál es el salario que devengan actualmente, obteniendo los siguientes resultados en millones de pesos \[\begin{align*} 1.78 \quad 2.93 \quad 1.22 \quad 1.27 \quad 1.17 \\ 1.03 \quad 1.24 \quad 2.07 \quad 2.04 \quad 1.28 \\ 1.53 \quad 0.98 \quad 1.73 \quad 1.38 \quad 3.24 \end{align*}\] Basados e la información anterior, calcule el salario promedio muestral egresados del programa de ingeniería industrial.
Solución
En este caso estamos interesados en calcular el salario promedio
muestral de los del programa de ingeniería industrial, y para ello no
están dando la información individual obtenida para cada uno de los
\(15\) egresados.
Entonces para realizar el cálculo empleamos
la ecuación para el cálculo de la media muestral, tal que
\[\begin{align*}
\bar{X}=\sum_{i=1}^n\frac{x_i}{n}
\end{align*}\] En donde, si llamamos cada una de las observaciones como
\(X_1, X_2, \ldots, X_{15}\), tendremos que \[\begin{align*}
\bar{X} &= \frac{1.79 + 2.93 + 1.22 + \ldots + 3.24}{15}\\
&= 1.659333
\end{align*}\] Por tanto, se tendrá que el promedio muestral obtenido
para el salario de los egresados del programa de ingeniería industrial
es de \(1.659\) millones de pesos.
Varianza muestral
Es la distancia media al cuadrado del conjunto de observaciones
pertenecientes a una muestra aleatoria, respecto a la media muestra.
\begin{align*} S^2=\frac{1}{n-1}\sum_{i=1}^n{(x_i-\bar{X})^2} \end{align*}
siendo el valor $n-1$
conocido como la corrección de Bessel, el cuál
se usa en lugar de la división sobre $n$
con el fin de corregir el
sesgo tendría el estimador.
En R puede calcularse la varianza muestral de una muestra
aleatoria mediante la función var(datos)
.
Ejercicio
Suponga que se realiza un estudio sobre el salario de los estudiantes de ingeniería industrial una vez finalizan su pregrado y se incertan en el mercado laboral. Para ello, se le pregunta a \(15\) egresados seleccionados de forma aleatoria y se les pregunta cuál es el salario que devengan actualmente, obteniendo los siguientes resultados en millones de pesos \[\begin{align*} 1.78 \quad 2.93 \quad 1.22 \quad 1.27 \quad 1.17 \\ 1.03 \quad 1.24 \quad 2.07 \quad 2.04 \quad 1.28 \\ 1.53 \quad 0.98 \quad 1.73 \quad 1.38 \quad 3.24 \end{align*}\] Basados e la información anterior, calcule la varianza muestral del salario de los \(15\) egresados del programa de ingeniería industrial.
Solución
En este ejercicio nos preguntan por la varianza muestral del salario de
los egresados del programa de ingeniería industrial, y para realizar el
cálculo nos dan el salario individual de cada uno de los \(15\)
egresados.
Para realizar el cálculo de la varianza de los
salarios de los egresados, empleamos la ecuación de la varianza
muestral, tal que \[\begin{align*}
S^2=\frac{1}{n-1}\sum_{i=1}^n{(x_i-\bar{X})^2}
\end{align*}\] En donde, si cada una de las observaciones hace
referencia los valores \(X_1, X_2, \ldots, X_{15}\), y el valor de la
media es igual a \(\bar{X}=1.659333\) tendremos que \[\begin{align*}
S^2 &= \frac{(1.78 - 1.659333)^2 + (2.93 - 1.659333)^2+\ldots+(3.24 - 1.659333)^2}{15-1} \\
&= \frac{0.01456052 + 1.614595 + \ldots + 2.498508}{14}\\
&= 0.4501638
\end{align*}\] Por tanto, se tendrá que la varianza muestral del salario
de los egresados del programa de ingeniería industrial es de
\(0.4501638\).
Desviación estándar muestral
Es la raíz cuadrada de la distancia media al cuadrado del conjunto
de observaciones pertenecientes a una muestra aleatoria, respeto a la
media, es decir, indica qué tan dispersos se encuentra el conjunto de
observaciones de una muestra aleatoria respecto a su valor promedio.
\begin{align*} S=\sqrt{S^2} \end{align*}
En R puede calcularse la desviación estándar de una muestra
aleatoria mediante la función sd(datos)
.
Ejercicio
Suponga que se realiza un estudio sobre el salario de los estudiantes de ingeniería industrial una vez finalizan su pregrado y se incertan en el mercado laboral. Para ello, se le pregunta a \(15\) egresados seleccionados de forma aleatoria y se les pregunta cuál es el salario que devengan actualmente, obteniendo los siguientes resultados en millones de pesos \[\begin{align*} 1.78 \quad 2.93 \quad 1.22 \quad 1.27 \quad 1.17 \\ 1.03 \quad 1.24 \quad 2.07 \quad 2.04 \quad 1.28 \\ 1.53 \quad 0.98 \quad 1.73 \quad 1.38 \quad 3.24 \end{align*}\] Basados e la información anterior, calcule el salario promedio de los \(15\) egresados del programa de ingeniería industrial.
Solución
Para calcular la desviación estandar muestral del salario de los egresados del programa de ingeniería industrial, podemos emplear la varianza muestral ya calculada en el ejercicio anterior, la cual dio como resultado \[\begin{align*} S^2 &= 0.4501638 \end{align*}\] así que, al aplicar la ecuación de la desviación estandar muestral tendremos que \[\begin{align*} S &= \sqrt{S^2} \\ &= \sqrt{0.4501638} \\ &= 0.6709425 \end{align*}\] Por tanto, se tendrá que el promedio muestral obtenido para el salario de los egresados del programa de ingeniería industrial es de \(1.659\) millones de pesos, con una desviación estándar de \(670\) mil pesos.
Distribuciones muestrales
Debido a que todos los estadístico son funciones de las variables aleatorias observadas en una muestra, éstos también serán variables aleatorias que tendrán distribuciones de probabilidad asociadas, distribuciones que son llamadas distribuciones muestrales.
Distribución muestral de $\bar{X}$
Sea $X_1, X_2, \ldots, X_n$
una muestra aleatoria de tamaño $n$
de
una distribución normal con media $\mu$
y varianza $\sigma^2$
,
entonces se puede mostrar que
\begin{align*} \bar{X}=\frac{1}{n}\sum_{i=1}^n x_i \sim N(\mu, \sigma^2/n) \end{align*}
se distribuye normalmente con media $\mu$
y varianza $\sigma^2/n$
.
Teorema
Dado que $\bar{X}\sim N(\mu,\sigma^2/n)$
, entonces se puede aplicar la
estandarización que se emplea a la distribución normal para llevar ésta,
a una distribución normal estándar. Dicha estandarización sería de la
forma
\begin{align*} Z_c = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \end{align*}
y se tendrá que $Z$
se distribuirá como una normal estándar de forma
exacta.
Ejercicio
Suponga que poseemos una distribución normal estándar, tal que \(Z\sim N(0,1)\). Entonces, a partir de esta distribución y empleando la Tabla de la Distribución Normal Estándar, calcule
- \(\mathbb{P}(Z\leq 1.96)\)
- \(\mathbb{P}(Z> 2.13)\)
- \(\mathbb{P}(-2.42 <Z \leq 0.24)\)
- \(\mathbb{P}(Z>z) = 0.0129\)
Solución
Para calcular probabilidades con la tabla de la distribución normal estándar, es necesario tener en cuenta el funcionamiento de la tabla misma. Y para ello se presenta la siguiente imagen.

En donde, se aprecia que, los cuadros rojos representan los valores críticos \(z\) que se emplea para calcular probabilidades, en donde, el cuadro rojo de la parte izquierda muestra la parte entera y el primer decimal, mientras que el cuadro rojo de la parte superior muestra el segundo decimal. El cuadro azul representa las probabilidades \(\alpha\) que se desean calcular a partir de los valores críticos. Finalmente, el cuadro azul claro representa el funcionamiento de la tabla , la cual muestra las probabilidades que poseen la forma \(\mathbb{P}(Z<z)=\alpha\).
-
Con la explicación de la tabla en mente, la primera probabilidad a
calcular es \(\mathbb{P}(Z\leq 1.96)\). Entonces como esta probabilidad
tiene la estructura establecida por la tabla \(\mathbb{P}(Z\leq z)\),
será cuestión de buscar el valor crítico \(1.96\) para localizar la
probabilidad asociada, tal que se busca en la parte izquierda, el valor
\(1.9\) y en la parte superior el valor \(0.06\), y en donde se
encuentre el cruce de ambos valores, se encontrará el valor de la
probabilidad asociada a \(1.96\). Dicho procedimiento se muestra en la
siguiente imagen
Donde se aprecia que \[\begin{align*}\mathbb{P}(Z\leq 1.96)=0.9750\end{align*}\]
-
A diferencia del punto anterior, observamos que la probabilidad
propuesta \(\mathbb{P}(Z> 2.13)\) tiene una estructura diferente a la
establecida por la tabla \(\mathbb{P}(Z\leq z)\), y por tanto, será
necesario emplear el complemento de la probabilidad propuesta para
obtener una estructura similar a la propuesta por la tabla, tal que
\[\begin{align*}
\mathbb{P}(Z> 2.13)= 1 - \mathbb{P}(Z\leq 2.13)
\end{align*}\] En donde, se aprecia que ahora podemos calcular la
\(\mathbb{P}(Z> 2.13)\), mediante el empleo de la
\(\mathbb{P}(Z\leq 2.13)\), la cual podemos buscar en la tabla
directamente. Para localizar \(\mathbb{P}(Z\leq 2.13)\), se busca el
valor \(2.1\) en la parte izquierda de la tabla, y el valor \(0.03\) en
la parte superior de la tabla, y en donde se encuentre el cruce de ambos
valores, se encontrará el valor de la probabilidad asociada a \(2.13\).
Donde se aprecia que \[\begin{align*} \mathbb{P}(Z\leq 2.13)=0.9834 \end{align*}\] y por tanto, se tendrá que \[\begin{align*} \mathbb{P}(Z> 2.13)&= 1 - \mathbb{P}(Z\leq 2.13)\\ &= 1 - 0.9834 \\ &= 0.0166 \end{align*}\]
-
En este caso, se desea calcular la \(\mathbb{P}(-2.42 <Z \leq 0.24)\), y
se observa que la estructura de dicha probabilidad es diferente a la
establecida por la tabla \(\mathbb{P}(Z\leq z)\), pero también podemos
apreciar que si aplicamos las propiedades de la función de distribución
acumulada para el caso continuo, ya presentadas en la
Clase
08 de Estadística I, podemos llevar la probabilidad de interés a la
forma
\[\begin{align*}
\mathbb{P}(-2.42 <Z \leq 0.24) = \mathbb{P}(Z \leq 0.24) - \mathbb{P}(Z \leq -2.42)
\end{align*}\] obteniendo que la probabilidad
\(\mathbb{P}(-2.42 <Z \leq 0.24)\), puede calcularse mediante el empleo
de las probabilidades acumuladas \(\mathbb{P}(Z \leq 0.24)\) y
\(\mathbb{P}(Z \leq -2.42)\), las cuales pueden calcularse en la tabla
de forma similar a los dos puntos anteriores.
Donde se aprecia que \[\begin{align*} \mathbb{P}(Z \leq -2.42)=0.0078 \quad \text{ y } \quad \mathbb{P}(Z \leq 0.24)=0.5948 \end{align*}\] y por tanto, se tendrá que \[\begin{align*} \mathbb{P}(-2.42 <Z \leq 0.24) &= \mathbb{P}(Z \leq 0.24) - \mathbb{P}(Z \leq -2.42)\\ &= 0.5948 - 0.0078 \\ &= 0.587 \end{align*}\]
-
En este punto, a diferencia de los puntos anteriores, no están dando el
valor de la probabilidad y nos piden encontrar el valor crítico \(z\).
Es decir debemos calcular el valor crítico asociado a la probabilidad
\[\begin{align*}
\mathbb{P}(Z>z) = 0.0129
\end{align*}\]
Y para ello, debemos llevar inicialmente la estructura de la
probabilidad, a la estructura manejada por la tabla, tal que
\[\begin{align*}
\mathbb{P}(Z>z) &= 0.0129 \\
1 - \mathbb{P}(Z\leq z) &= 0.0129 \\
1- 0.0129 &= \mathbb{P}(Z\leq z) \\
0.9871 &= \mathbb{P}(Z\leq z)
\end{align*}\]
En donde observamos que la probabilidad \(\mathbb{P}(Z\leq z)\) ya posee
la estructura de la tabla, y en consecuencia, podemos proceder a
encontrar el valor crítico \(z\), buscando el valor de la probabilidad
\(0.9871\) en la parte interior de la tabla, y luego buscando cual es el
valor crítico \(z\) asociado a dicha probabilidad.
En la tabla se aprecia, que al buscar la probabilidad \(0.9871\) encontramos que el valor crítico \(z\) asociado es de \(2.24\), es decir \[\begin{align*} \mathbb{P}(Z\leq 2.24) &= 0.9871 \end{align*}\] o equivalentemente \[\begin{align*} \mathbb{P}(Z > 2.24) &= 0.0129 \end{align*}\]
Ejercicio
Suponga que se realiza un estudio sobre el salario de los estudiantes de ingeniería industrial una vez finalizan su pregrado y se incertan en el mercado laboral. Para ello, se le pregunta a \(15\) egresados seleccionados de forma aleatoria y se les pregunta cuál es el salario que devengan actualmente, obteniendo los siguientes resultados en millones de pesos \[\begin{align*} 1.78 \quad 2.93 \quad 1.22 \quad 1.27 \quad 1.17 \\ 1.03 \quad 1.24 \quad 2.07 \quad 2.04 \quad 1.28 \\ 1.53 \quad 0.98 \quad 1.73 \quad 1.38 \quad 3.24 \end{align*}\] Basados e la información anterior, calcule la probabilidad de que el salario promedio de todos los egresados del programa de ingeniería industrial sea a lo más de \(2\) millones de pesos, si se sabe, que los salarios se distribuyen normalmente con desviación estándar de \(0.5\) millones de pesos.
Solución
En este caso, estamos interesados en calcular la probabilidad de que la
media poblacional del salario de los egresados, sea como máximo de \(2\)
millones de pesos, esto es \[\begin{align*}
\mathbb{P}(\mu\leq 2)
\end{align*}\] Ahora, dado que para encontrar la probabilidad asociada a
la media poblacional, requeriríamos conocer la distribución de
probabilidad de \(\mu\), y ésta, no es una distribución conocida,
entonces podemos emplear la distribución muestral de los salarios, la
cual se distribuye normalmente.
Y para ello, debemos realizar
operaciones matemáticas, de tal forma que la probabilidad planteada
tenga la estructura de una distribución de probabilidad conocida, tal
como lo es la distribución normal estándar, tal que
\[\begin{align*}
Z_c = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)
\end{align*}\]
Con esta estructura en mente, y con el valor de la desviación estándar
poblacional conocida e igual a \(\sigma=0.5\) y habiendo calculado
previamente la media de de la muestra de las \(n=15\) observaciones, la
cual dió un resultado igual a \(\bar{X} = 1.659333\), realizamos las
siguientes operaciones matemáticas para llevar la probabilidad original,
a una forma conocida, tal que \[\begin{align*}
\mathbb{P}(\mu\leq 2) &= \mathbb{P}(-\mu\geq -2) \\
&= \mathbb{P}(\bar{X}-\mu\geq 1.659333-2) \\
&= \mathbb{P}\left(\frac{\bar{X} - \mu}{\sigma/ \ \sqrt{n}} \geq \frac{1.659333-2}{0.5/\sqrt{15}}\right) \\
&= \mathbb{P}\left(Z \geq -2.638793\right) \\
\end{align*}\]
Y como \(Z \sim N(0,1)\), entonces podemos encontrar la probabilidad de
interés, empleando la
Tabla
de la Distribución Normal Estándar, la función pnorm() del
software R o la función DISTR.NORM.ESTAND.N() de
Excel, tal que
\[\begin{align*}
\mathbb{P}\left(Z \geq -2.638793\right) = 0.9958399
\end{align*}\]
lo cual, dada la equivalencia de la igualdad anterior, significará que
\[\begin{align*}
\mathbb{P}(\mu\leq 2) = 0.9958399
\end{align*}\]
es decir que la probabilidad de que el salario promedio de todos los
egresados del programa de ingeniería industrial sea como máximo de \(2\)
millones de pesos, es del \(99.58\%\).