Prueba de hipótesis para la media $\mu$

Sea $X_1, X_2, \ldots, X_n$ una muestra aleatoria iid de tamaño $n$ con media desconocida $\mathbb{E}(X)=\mu$, y varianza $Var(X)=\sigma^2<\infty$, entonces dependiendo de las condiciones, se tendrán los siguientes pruebas de hipótesis para la media $\mu$.

Ejercicio

Suponga que se realiza un estudio sobre los costos que han tenido proyectos de renovación de parques en la ciudad de Medellín, encontrando que los costos asociados a \(20\) proyectos que se han a cabo en le ciudad, en millones de pesos, fueron de

1780 2933 1220 1278 1170 1032 1245 2070 2040 1289
1531 980 1730 1380 2243 1687 1422 1731 1435 2080

Si es posible supone que el costo de construir cualquier parque se distribuyen aproximadamente normal, pruebe si el costo promedio máximo que tiene la construcción de un nuevo parque es de \(2000\) millones de pesos. Emplee un nivel de significancia del \(2\%\).

Solución

En este caso estamos interesados en probar si el costo promedio de construir un nuevo parque sea máximo de \(2000\) millones de pesos, y por tanto se tendrá que el juego de hipótesis estará dado por \[\begin{align*} H_0: \mu \leq 2000 \\ H_1: \mu > 2000 \end{align*}\] para decidir el estadístico de prueba que debemos emplear, se debe revisar la información que poseemos, en donde tenemos que la varianza poblacional no es conocida, ya que no la mencionan en el enunciado, además nos mencionan que los costos se distribuyen aproximadamente normal. Entonces, al ser el tamaño muestral pequeño e igual a \(20\) datos, las características del ejercicio están dados por de lo anterior encontramos que el intervalo de confianza de interés es de la forma \[\begin{align*} t_c = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t_{n-1} \end{align*}\] En donde observamos que requerimos del valor de la media muestral \(\bar{X}=1613.8\), el valor asociado a la hipótesis nula \(\mu_0=2000\), la desviación estándar muestral \(S=480.1471\) y el tamaño de muestra \(n=20\). Al reemplazar en el estadístico de prueba se tendrá que \[\begin{align*} t_c &= \frac{1613.8 - 2000}{480.1471/\sqrt{20}}\\ &= -3.597104 \end{align*}\] Ahora, para saber si se rechaza o no la hipótesis nula, se realiza el cálculo de la región crítica, obteniendo que \[\begin{align*} RC:\{t|t>t_{\alpha, n-1}\} \end{align*}\] en donde, al usar el valor \(\alpha=0.02\) y \(n=20\), se tendrá que la región crítica, será igual a \[\begin{align*} RC&:\{t|t>t_{\alpha=0.02, n-1=19}\}\\ RC&:\{t|t>2.204701\} \end{align*}\] Entonces como el valor crítico no cae dentro de la región crítica, no se rechaza la hipótesis nula, y por tanto se concluye con un nivel de significancia del \(2\%\) que el costo promedio máximo que costará construir un nuevo parque no será mayor a \(2000\) millones de pesos.

Ejercicio

Suponga que Postobon desarrolla una nueva máquina de bebidas para servir de forma automática gaseosas en los cines, de tal forma que la cantidad servida, en mililitros, se distribuye Weibull con varianza de \(5703.473_{ml^2}\). Si la máquina sirve en promedio menos de \(330_{ml}\) por vaso, Postobon decidirá no sacar al mercado la máquina debido a que no cumple con los estándares establecidos.

Para probar si las máquinas funcionan bien, se decide tomar una muestra aleatoria de \(5000\) vasos de gaseosa servidos por las nuevas máquinas de bebidas, obteniendo una promedio de \(327_{ml}\), con una varianza de \(5240.35_{ml^2}\). Basados en lo anterior, prueba con un nivel de significancia del \(5\%\) si la nueva máquina cumple con los estándares establecidos.

Solución

En este caso estamos interesados en probar la hipótesis de que la cantidad servida por la nueva máquina no es menor a \(330_{ml}\) por vaso, empleando un nivel de significancia del \(5\%\), y por tanto, tendremos que el juego de hipótesis estará dado por \[\begin{align*} H_0:\mu \leq 330\\ H_1:\mu < 330 \end{align*}\] Entonces dado que estamos en una situación en la cual sabemos que la población no es normal, debido a que se menciona que es Weibull, con varianza conocida e igual a \(5703.473_{ml^2}\), estaremos bajo la siguiente situación de lo anterior encontramos que el estadístico de prueba de interés es de la forma \[\begin{align*} Z_c = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1) \end{align*}\] En donde observamos que requerimos la media muestral \(\bar{X}=327\), la desviación estándar poblacional \(\sigma=75.52134\), el tamaño de muestra \(n=5000\), el nivel de significancia \(\alpha=0.05\) y el valor crítico \(-Z_{\alpha=0.05}=-1.644854\). Al reemplazar en el estadístico de prueba tenemos que \[\begin{align*} Z_c &= \frac{327-330}{75.52134/\sqrt{5000}} \\ &= -2.808902 \end{align*}\] En esta ocasión se decide calcular el P-valor para tomar la decisión, se tendrá que \[\begin{align*} P-valor &= \mathbb{P}(Z<Z_c)\\ &= \mathbb{P}(Z<-2.808902)\\ &= 0.002485539 \end{align*}\] Entonces, como el P-valor es menor al nivel de significancia \(\alpha=0.05\), se tendrá evidencia suficiente para rechazar la hipótesis nula, y por tanto se concluirá con un nivel de significancia del \(5\%\) que la cantidad promedio de llenado de las gaseosas por vaso es menor a \(330_{ml}\), lo cual significa que Postobon debería sacar la máquina del mercado para recalibrarla.

Ejercicio

Suponga que la marca de cigarrillo Malboro es auditada debido a que se afirma que sus registros están adulterados. Ante ésto, el presidente de la empresa asegura que sus registros son correctos y que el flujo de caja promedio mensual que registran es de \(25\) mil millones de pesos. Para probar si dicha afirmación es posible, el auditor decide revisar el flujo de caja de la empresa de los últimos \(48\) meses, encontrando que el flujo de caja promedio que registra la empresa es de \(21.389\) mil millones de pesos con una desviación estándar de \(3.213\) mil millones de pesos.

Si puede suponerse que el flujo de caja de la empresa Malboro se distribuye normalmente, emplee un nivel de confianza del \(10\%\) para probar si la afirmación del presidente se encuentra respaldada por la información muestral.

Solución

En este ejercicio se está interesado en probar la hipótesis sobre que el flujo de caja promedio mensual es igual a \(25\) mil millones de pesos, lo cual significa que al posee la igualdad la afirmación, tendremos el siguiente juego de hipótesis \[\begin{align*} H_0:\mu = 25\\ H_1:\mu \neq 25 \end{align*}\] Entonces para saber cual es el estadístico de prueba que debemos aplicar, debemos inicialmente verificar qué información poseemos. De la información suministrada tenemos que el flujo de caja de la empresa se distribuye normalmente con una varianza desconocida, y por tanto estaremos ante la siguiente situación lo cual quiere decir que el estadístico de prueba estará dado por \[\begin{align*} Z_c = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \stackrel{a}{\sim} N(0,1) \end{align*}\] En donde observamos que necesitamos la media muestral \(\bar{X}=21.389\), la desviación estándar muestral \(S=3.213\), el tamaño de muestra \(n=48\) y el nivel de significancia \(\alpha=0.10\). Al reemplazar estos valores tendremos que \[\begin{align*} Z_c &= \frac{21.389-25}{3.213/\sqrt{48}}\\ &= -7.786412 \end{align*}\] Entonces si empleamos la región crítica para la toma de decisión, tendremos que \[\begin{align*} RC:\{Z|Z<-Z_{\frac{\alpha}{2}} \text{ ó } Z>Z_{\frac{\alpha}{2}}\} \end{align*}\] en donde al ser el valor crítico \(Z_{\frac{\alpha}{2}=0.05}=1.644854\), se tendrá que la región crítica está dada por \[\begin{align*} RC:\{Z|Z<-1.644854 \text{ ó } Z>1.644854\} \end{align*}\] En donde al comparar el estadístico de prueba con la región crítica, encontramos que el estadístico de prueba cae dentro de la región crítica, y por tanto hay evidencia suficiente para rechazar la hipótesis nula, lo cual quiere decir con un nivel de significancia del \(10\%\) que el flujo de caja promedio mensual que registra la marca de cigarrillos Malboro es diferente a \(25\) mil millones de pesos.

Prueba de hipótesis para diferencia de medias $\mu_1 - \mu_2$

Sea $X_{1,1}, X_{1,2}, \ldots, X_{1,n_1}$ y $X_{2,1}, X_{2,2}, \ldots, X_{2,n_1}$ dos muestras aleatorias iid de tamaños $n_1$, y $n_2$ con medias desconocidas $\mathbb{E}(X_{1})=\mu_1$ y $\mathbb{E}(X_{2})=\mu_2$, y varianzas $Var(X_{1})=\sigma_1^2<\infty$ y $Var(X_{2})=\sigma^2_2<\infty$, respectivamente, entonces dependiendo de las condiciones, se tendrán los siguientes pruebas de hipótesis para la diferencia de medias $\mu_1 - \mu_2$.

Ejercicio

Una empresa de electrodomésticos desea saber si los cursos de capacitación sirven para mejorar el nivel de ventas de sus trabajadoras y para ello decide enviar a \(12\) de sus agentes de ventas a dicho curso. Una vez finalizado el curso, la empresa encuentra que estos agentes generan unas ventas promedio de de \(43.5\) millones de pesos con una desviación estándar de \(3.1\) millones de pesos.

Con el fin de observar si el curso es o no efectivo, la empresa extrae una muestra aleatoria independiente de \(15\) agentes que no asistieron a la capacitación y encontró que las ventas promedio generadas y su desviación estándar para estos agentes fue de \(40.8\) y \(2.3\) millones de pesos respectivamente.

Si es posible suponer que las poblaciones se distribuyen normalmente con varianzas iguales a \(5.6\) millones de pesos\(^2\) para quienes se capacitaron y a \(4.3\) millones de pesos\(^2\) para quienes no se capacitaron, emplee un nivel de significancia del \(5\%\) para observar si es posible pensar que los cursos de capacitación mejoran el promedio de ventas sobre quienes no recibieron estos cursos?.

Solución

En este ejercicio estamos interesados en emplear un nivel de significancia del \(5\%\) para probar la hipótesis de que las ventas de las personas que tomaron los cursos de capacitación son superiores a las ventas de quienes no tomaron los cursos de capacitación, la cual es de la forma \[\begin{align*} H_0:\mu_C \leq \mu_S => \mu_C - \mu_S \leq 0\\ H_1:\mu_C > \mu_S => \mu_C - \mu_S > 0\\ \end{align*}\] donde el subíndice \(C\) representa “con capacitación” y el subíndice \(S\) representa “sin capacitación”. Ahora, para decidir si cual es el estadístico de prueba adecuado, se verifica la información que poseemos, en donde nos mencionan que las poblaciones se distribuyen normalmente con varianzas conocidas e iguales a \(\sigma^2_C=5.6\) y \(\sigma^2_S=4.3\) millones de pesos\(^2\). Lo cual nos llevará a la siguiente situación encontrando que el estadístico de prueba de interés es de la forma \[\begin{align*} Z_c = \frac{(\bar{X}_C-\bar{X}_S) - d_0}{\sqrt{\frac{\sigma^2_C}{n_C}+\frac{\sigma^2_S}{n_S}}} \sim N(0,1) \end{align*}\] En donde, para realizar el cálculo requerimos de las media muestrales fueron \(\bar{X}_C=43.5\) y \(\bar{X}_S=40.8\), las varianzas poblacionales \(\sigma^2_C=5.6\) y \(\sigma^2_S=4.3\), los tamaños de muestrales \(n_C=12\) y \(n_S=15\). Al reemplazar en la ecuación del estadístico de prueba tendremos que \[\begin{align*} Z_c &= \frac{(43.5-40.8) - 0}{\sqrt{\frac{5.6}{12}+\frac{4.3}{15}}}\\ &= 3.110786 \end{align*}\] Ahora, para tomar una decisión suponga que se decide emplear el P-valor, el cual al ser una hipótesis bilateral, tendremos que está dado por \[\begin{align*} P-valor &= \mathbb{P}(Z > Z_c) \\ &= \mathbb{P}(Z > 3.110786) \\ &= \mathbb{P}(Z > 3.110786) \\ &= 0.000932951 \\ \end{align*}\] Entonces como el P-valor es menor al nivel de significancia del \(5\%\) se rechazará la hipótesis nula, y por tanto se tendrá evidencia suficiente para concluir que el promedio de ventas de las personas que recibieron capacitación es superior al promedio de ventas de las personas que no recibieron capacitación.

Ejercicio

La gobernación de Antioquia, desea construir un nuevo puente para comunicar el municipio de Itagüí con Envigado, y para ello tiene dos posibles ubicaciones en los cuales puede llevar a cabo dicho proyecto. Para decidir en cual de las dos ubicaciones llevar a cabo el proyecto decide tomar muestras aleatorias de cada ubicación y mirar en cual de los dos hay mayor aflucencia de vehículos.

De la ubicación \(A\) se decide tomar una muestra aleatoria de \(22\) días y de la ubicación \(B\) de \(28\) días encontrando respectivamente que el número promedio de vehículos para cada ubicación fue de \(2359\) y \(2147\) vehículos, con una desviación estándar de \(143\) y \(301\) vehículos.

Si puede asumirse que el número de vehículos en las dos zonas se distribuye aproximadamente normal con varianzas iguales, pruebe con un nivel de significancia del \(10\%\) si la afluencia de vehículos que transitan por la ubicación \(A\) es menor que la afluencia de vehículos que transitan por la ubicación \(B\).

Solución

En este punto estamos interesados en una hipótesis unilateral, debido a que queremos probar si el número de vehículos que transitan por día por la ubicación \(A\) es menor que la ubicación \(B\), lo cual puede traducirse bajo el juego de hipótesis \[\begin{align*} H_0:\mu_A \geq \mu_B => \mu_A - \mu_B \geq 0\\ H_1:\mu_A < \mu_B => \mu_A - \mu_B < 0\\ \end{align*}\] En donde al revisar la información suministrada se encontró que el número de vehículos en las dos zonas se distribuyen aproximadamente normal con varianzas iguales pero desconocidas y tamaños muestrales pequeñas, por lo cual nos encontraremos en la siguiente situación en donde se aprecia que el estadístico de prueba estará dado por \[\begin{align*} t_c = \frac{(\bar{X}_A-\bar{X}_B) - d_0}{S_p\sqrt{\frac{1}{n_A}+\frac{1}{n_B}}} \sim t_{n_A + n_B - 2} \end{align*}\] En donde se observa que para realizar el cálculo requerimos de los tamaños muestrales \(n_A=22\) y \(n_B=28\), las medias muestrales \(\bar{X}_A=2359\) y \(\bar{X}_B=2147\), y una desviación estándar conjunta \(S_p\), la cual no poseemos, y que debemos calcular, pero que podemos obtener mediante la ecuación \[\begin{align*} Sp^2 &= \frac{(n_A-1)S^2_A + (n_B-1)S^2_B}{n_A+n_B-2} \\ &= \frac{(22-1)143^2 + (28-1)301^2}{22 + 28 - 2} \\ &= 59909.5 \end{align*}\] y por tanto \[\begin{align*} Sp &= \sqrt{Sp^2} \\ &= \sqrt{59909.5} \\ &= 244.7642 \end{align*}\] Una vez conocidos los valores necesarios para calcular el estadístico de prueba, tendremos que \[\begin{align*} t_c &= \frac{(2359-2147) - 0}{244.7642\sqrt{\frac{1}{22}+\frac{1}{28}}} \\ &= 21.49702 \end{align*}\] Ahora, si empleamos P-valor para tomar una decisión, tendremos que \[\begin{align*} P-valor &= \mathbb{P}(t_{n_A+n_B-2}<t_c) \\ &= \mathbb{P}(t_{22+28-2}<21.49702) \\ &= \mathbb{P}(t_{48}<21.49702) \\ &= \mathbb{P}(t_{48}<21.49702) \\ &= 1 \end{align*}\] y por tanto, como el P-valor es superior al nivel de significancia del \(10\%\), no se rechaza al hipótesis nula y se tendrá que hay evidencia suficiente para concluir que el número de vehículos que transitan por la ubicación \(A\) no es menor a la ubicación \(B\).

Ejercicio

Suponga que la Universidad de Antioquia adelanta un estudio sobre el salario de sus egresados y desea comparar si es cierta la creencia que las mujeres ganan en promedio menos dinero que los hombres.

Para comprobar si las creencias son ciertas, un grupo de investigación de la Universidad toma una muestra representativa de \(250\) mujeres y \(270\) hombres egresados de la Universidad y se les pregunta sobre cuál es el salario que ganan actualmente, obteniendo en su investigación que las mujeres ganan en promedio \(2.3\) millones de pesos con una desviación estándar de \(0.7\) millones de pesos, mientras que los hombres ganan en promedio \(2.6\) millones de pesos con una desviación estándar de \(1.2\) millones de pesos.

Si el grupo de investigación encuentra que los salarios no se distribuyen normalmente, emplee un nivel de significancia del \(15\%\) para probar si el salario de los egresados hombres es mayor al salario de los egresados mujeres.

Solución

En este enunciado estamos interesados en probar con un nivel de significancia del \(15\%\) si el salario de los hombres es mayor al de las mujeres, lo cual se traduce en el siguiente juego de hipótesis \[\begin{align*} H_0:\mu_H \leq \mu_M => \mu_H - \mu_M \leq 0\\ H_1:\mu_H > \mu_M => \mu_H - \mu_M > 0\\ \end{align*}\] entonces para probar si la hipótesis es o no apoyada por la información muestral, es necesario realizar el cálculo de una estadístico de prueba, y para ello se revisa la información que poseemos, en donde al tener que los salarios no se distribuyen normalmente con varianzas desconocidas (debido a que no nos mencionan nada de ellas) pero con muestras grandes, obteniendo la siguiente situación En donde se observa que el estadístico de prueba está dado por \[\begin{align*} Z_c = \frac{(\bar{X}_H-\bar{X}_M) - d_0}{\sqrt{\frac{S^2_H}{n_H}+\frac{S^2_M}{n_M}}} \stackrel{a}{\sim} N(0,1) \end{align*}\] En donde observamos que para realizar el cálculo se requiere de los tamaños muestrales \(n_M = 250\) y \(n_H = 270\), las medias muestrales \(\bar{X}_M=2.3\) y \(\bar{X}_H=2.6\), con desviaciones estándar muestrales iguales a \(S_M=0.7\) y \(S_H=1.2\). Por tanto al reemplazar los valores en el estadístico de prueba se tendrá que \[\begin{align*} Z_c &= \frac{(2.6-2.3) - 0}{\sqrt{\frac{1.2^2}{270}+\frac{0.7^2}{250}}} \\ &= 3.512838818 \end{align*}\] Ahora, si empleamos la región crítica para observar si se rechaza o no la hipótesis, tendremos que \[\begin{align*} RC&:\{Z|Z>Z_\alpha\}\\ RC&:\{Z|Z>1.03643\} \end{align*}\] Entonces como el estadístico de prueba cae dentro de la región crítica, se tendrá evidencia suficiente para rechazar la hipótesis nula, lo cual significa con un nivel de significancia del \(15\%\) que el salario promedio de los hombres es mayor al salario promedio de las mujeres.

Ejercicio

Se realiza un estudio con el fin de comparar el rendimiento de combustible en kilómetros por galón para dos tipos de motores \(A\) y \(B\). Suponga que se decide realizar un total de \(47\) experimentos con el motor \(A\) y \(56\) experimentos con el motor \(B\), encontrando para cada caso, un rendimiento promedio de gasolina de \(44\) y \(48\) kilómetros, respectivamente, con desviaciones estándar de \(8.3\) y \(6.6\), respectivamente.

Basados en la información anterior, pruebe con un nivel de significancia del \(12\%\) si la diferencia promedio entre los rendimientos de combustible en kilómetros por galón de gasolina para los motores \(A\) y \(B\) son o no iguales, si es posible suponer que los rendimientos de los combustibles no poseen una distribución normal y poseen varianzas conocidas e iguales a \(38.44\) y \(57.76\) para los motores \(A\) y \(B\) respectivamente.

Solución

En este caso estamos interesados en calcular con un nivel de significancia del \(12\%\) si la diferencia entre los rendimientos promedios de combustible son o no iguales, es decir, se quiere probar el juego de hipótesis \[\begin{align*} H_0:\mu_A - \mu_B = 0\\ H_1:\mu_A - \mu_B \neq 0\\ \end{align*}\] Entonces dado que los rendimientos de combustible para los dos motores se distribuye normalmente con varianzas conocidas, estaremos en la siguiente situación En donde se aprecia que el estadístico de prueba está dada por \[\begin{align*} Z_c = \frac{(\bar{X}_A-\bar{X}_B) - d_0}{\sqrt{\frac{\sigma^2_A}{n_A}+\frac{\sigma^2_B}{n_B}}} \sim N(0,1) \end{align*}\] observando que se requiere de los rendimientos promedio muestrales de los dos motores \(\bar{X}_A=44\) y \(\bar{X}_B=48\), las varianzas poblacionales \(\sigma^2_A=38.44\) y \(\sigma^2_B=57.76\) y los tamaños muestrales \(n_A=47\) y \(n_B=56\). Al reemplazar estos valores en el estadístico de prueba se tendrá que \[\begin{align*} Z_c &= \frac{(44-48) - 0}{\sqrt{\frac{38.44}{47}+\frac{57.76}{56}}} \\ &= -2.941414 \end{align*}\] Ahora, si realizamos el cálculo de la región crítica para observar si se rechaza o no la hipótesis establecida, tendremos que \[\begin{align*} RC&:\{Z|z < -Z_{\alpha/2} \text{ ó } Z>Z_{\alpha/2}\}\\ RC&:\{Z|Z<-1.5548 \text{ ó } Z>1.55478\} \end{align*}\] apreciando que el estadístico de prueba cae dentro de la región crítica lo cual significa que con un nivel de significancia del \(12\%\) se rechaza la hipótesis nula, de que el rendimiento promedios de combustible de los dos tipos de motores son iguales, y por tanto se tendrá que hay diferencias significativas entre el rendimiento promedio de combustible de los motores.

Ejercicio

Suponga que se contrata a un grupo de investigación de la Universidad de Antioquia para que realice un análisis de tensión sobre la unión pegada con una resina experimental a dos clases diferentes de madera. Para realizar el estudio, el grupo de investigación toma una muestra aleatoria de \(18\) uniones pegadas con la resina especial a la madera \(A\) y encontró que la tensión promedio de corte y desviación estándar fueron de \(1130_{psi}\) y \(420_{psi}\), respectivamente. Por su parte, toman una muestra aleatoria de \(12\) uniones pegadas con la resina especial a la madera \(B\), encontrando que la tensión promedio de corte y desviación estándar fueron de \(1010_{psi}\) y \(380_{psi}\).

Si se asume que la tensión sobre la unión pegada con la resina experimental en cada clase de madera se distribuye aproximadamente normal con varianzas diferentes. Emplee un nivel de significancia del \(8\%\) para observar si existen o no diferencias significativas de la tensión promedio de corte de las dos marcas de madera.

Solución

El juego de hipótesis en esta dado por \[\begin{align*} H_0:\mu_A - \mu_B = 0\\ H_1:\mu_A - \mu_B \neq 0\\ \end{align*}\] debido a que se quiere probar si hay o no diferencias significativas entre las tensiones promedio de corte de las dos marcas de madera. Adicionalmente, debido a que estamos en una situación en la cual sabemos que las tensiones de corte se distribuyen normalmente con varianzas diferentes pero desconocidas, se tendrá que estamos en una situación dada por situación que posee el siguiente estadístico de prueba \[\begin{align*} t_c = \frac{(\bar{X}_A-\bar{X}_B) - d_0}{\sqrt{\frac{S^2_A}{n_A}+\frac{S^2_B}{n_B}}} \sim t_v \end{align*}\] En donde se observa que requerimos de los tamaños muestrales \(n_A=18\) y \(n_B=12\), de las medias muestrales de \(\bar{X}_A=1130_{psi}\) y \(\bar{X}_B=1010_{psi}\) junto a unas desviaciones estándar de \(S_A=420_{psi}\) y \(S_B=380_{psi}\). Adicionalmente se requiere el valor de los grados de libertad \(\nu\), los cuales están dados por \[\begin{align*} \nu &= \frac{\left(\frac{S^2_A}{n_A} + \frac{S^2_B}{n_B}\right)^2}{\frac{(S^2_A/n_A)^2}{n_A-1} + \frac{(S^2_B/n_B)^2}{n_B-1}} \\ &= \frac{\left(\frac{420^2}{12} + \frac{380^2}{18}\right)^2}{\frac{(480^2/12)^2}{12-1} + \frac{(380^2/18)^2}{18-1}} \\ &= \frac{476694444}{18813149} \\ &= 25.33837 \end{align*}\] Al calcular el valor techo de \(\nu\) tendremos que \[\begin{align*} \nu &= 25.33837 \\ \lceil \nu \rceil &= \lceil25.33837\rceil \\ \lceil \nu \rceil &= 26 \end{align*}\] y por tanto, al reemplazar todos los valores necesarios para realizar el estadístico de prueba se tendrá que \[\begin{align*} t_c &= \frac{(1130-1010) - 0}{\sqrt{\frac{420^2}{18}+\frac{380^2}{12}}} \\ &= 0.8121219 \end{align*}\] Ahora, para llevar a cabo la decisión, se decide emplear el P-valor, el cual es igual a \[\begin{align*} P-valor &= 2\mathbb{P}(t_nu > |t_c|) \\ &= 2(0.212047625) \\ &= 0.4240952 \end{align*}\] Encontrando que el P-valor es superior al nivel de significancia del \(8\%\), lo cual significa que no hay evidencia suficiente para rechazar la hipótesis nula y por tanto se concluirá que no existen diferencias significativas entre las tensiones promedio de corte de las dos marcas de madera.

Prueba de hipótesis para una proporción $p$

Sea $X_1,X_2, \ldots, X_n$ una muestra aleatoria iid de tamaño $n$, tal que $X\sim b(n,p)$ entonces si $n$ es suficientemente grande tal que $n\geq30$, y la proporción desconocida $p$ no se encuentre cercana a $0$ o $1$, tal que $np>5$ y $n(1-p)>5$, entonces un una prueba de hipótesis para la proporción verdadera $p$ será de la forma

Ejercicio

Suponga que se realiza un estudio sobre los costos que han tenido proyectos de renovación de parques en la ciudad de Medellín, encontrando que los costos asociados a \(20\) proyectos que se han llevado a cabo en la ciudad, en millones de pesos, fueron de

1780 2933 1220 1278 1170 1032 1245 2070 2040 1289
1531 980 1730 1380 2243 1687 1422 1731 1435 2080

Si se cree que la verdadera proporción de proyectos que poseen costos superiores a \(1900\) millones de pesos es de más del \(40\%\), emplee un nivel de significancia del \(5\%\) para probar si dicha creencia se encuentra apoyada por la información empírica.

Solución

En este caso estamos interesados en probar si la verdadera proporción de proyectos que poseen costos superiores a \(1900\) millones de pesos es de más del \(40\%\), y por tanto se tendrá que el juego de hipótesis está dado por \[\begin{align*} H_0:p \leq 0.40\\ H_1:p > 0.40 \end{align*}\] Entonces como estamos interesados en hacer inferencia sobre una proporción, y nos encontramos frente a una hipótesis unilateral, tendremos que estamos ante la siguiente situación En donde se observa que el estadístico de prueba está dado por \[\begin{align*} Z_c = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} \stackrel{a}{\sim} N(0,1) \end{align*}\] En donde se evidencia que necesitamos para el cálculo de la proporción muestral de proyectos que poseen costos superiores a \(1900\) millones de pesos, del tamaño de muestra \(n=20\) y de la proporción establecida en la hipótesis nula.

Para realizar el cálculo de la proporción muestral se trata de localizar aquellos costos que posean un valor superior a \(1900\) millones de pesos, denotando como \(1\) aquellas observaciones que sean superiores a \(1900\) millones de pesos, y \(0\) aquellas observaciones que no cumplan la condición, tal que \[\begin{align*} \underset{0}{1780} \quad \underset{1}{2933} \quad \underset{0}{1220} \quad \underset{0}{1278} \quad \underset{0}{1170} \quad \underset{0}{1032} \quad \underset{0}{1245} \quad \underset{1}{2070} \quad \underset{1}{2040} \quad \underset{0}{1289} \\ \underset{0}{1531} \quad \underset{0}{980} \quad \underset{0}{1730} \quad \underset{0}{1380} \quad \underset{1}{2243} \quad \underset{0}{1687} \quad \underset{0}{1422} \quad \underset{0}{1731} \quad \underset{0}{1435} \quad \underset{1}{2080} \end{align*}\] Al contar el número de éxitos, observamos que tenemos un total de \(x=5\) éxitos en un total de \(n=20\) muestras, y por tanto, podemos aplicar la fórmula de frecuencia relativa para calcular la proporción muestral de egresados que poseen salarios superiores a \(1900\) millones, tal que \[\begin{align*} \hat{p} &= \frac{\text{# éxitos}}{\text{Total ensayos}} \\ &= \frac{x}{n} \\ &= \frac{5}{20} \\ &= 0.25 \end{align*}\] Ahora, al emplear este valor a los ya mencionados para el cálculo del estadístico de prueba, se tendrá que éste es igual a \[\begin{align*} Z_c &= \frac{0.25 - 0.4}{\sqrt{\frac{0.4(1-0.4)}{20}}} \\ &= -1.369306 \end{align*}\] En donde, se decide emplear el P-valor para observar si hay o no evidencia a favor de la hipótesis nula obteniendo que \[\begin{align*} P-valor &= \mathbb{P}(Z>Z_c) \\ &= \mathbb{P}(Z>-1.369306)\\ &= 1 - \mathbb{P}(Z\leq -1.369306)\\ &= 0.9145482 \end{align*}\] En donde se evidencia que el P-valor asociado al estadístico de prueba posee un valor del \(91.45\%\) el cual es mayor al nivel de significancia preestablecido de \(5\%\), permitiendo concluir que no se rechaza la hipótesis nula, y por tanto, se tendrá que la verdadera proporción de proyectos que poseen costos superiores a \(1900\) millones de pesos no es mayor a \(40\%\).