Intervalos de confianza para diferencia de medias $\mu_1 - \mu_2$
Sea $X_{1,1}, X_{1,2}, \ldots, X_{1,n_1}$
y
$X_{2,1}, X_{2,2}, \ldots, X_{2,n_2}$
dos muestras aleatorias iid de
tamaños $n_1$
, y $n_2$
con medias desconocidas
$\mathbb{E}(X_{1})=\mu_1$
y $\mathbb{E}(X_{2})=\mu_2$
, y varianzas
$Var(X_{1})=\sigma_1^2<\infty$
y $Var(X_{2})=\sigma^2_2<\infty$
,
respectivamente, entonces dependiendo de las condiciones, se tendrán los
siguientes intervalos de confianza para la diferencia de medias
$\mu_1 - \mu_2$
.
Ejercicio
Una empresa envía a \(12\) de sus agentes de ventas a un curso diseñado
para incrementar la motivación, y por tanto, presuntamente su
efectividad. Un año después, estos agentes generan unas ventas con un
valor promedio de \(43.5\) millones de pesos y una desviación estándar
de \(5.6\) millones de pesos.
Durante el mismo periodo, se
extrajo una muestra aleatoria independiente de \(15\) personas que no
habían asistido al curso y las ventas medias generadas y su desviación
estándar fueron de \(40.8\) y \(4.3\) millones de pesos respectivamente.
Si es posible suponer que las poblaciones se distribuyen
normalmente con varianzas iguales a \(28\) millones de pesos\(^2\) para
quienes se capacitaron y a \(20\) millones de pesos\(^2\) para quienes
no se capacitaron, construya un intervalo de confianza del \(90\%\) para
la diferencia entre los promedios de ventas de los dos grupos. Es
posible pensar que los cursos de motivación mejoran el promedio de
ventas sobre quienes no recibieron estos cursos?
Solución
En este ejercicio estamos interesados en construir un intervalo de
confianza bilateral para la diferencia entre el promedio de ventas de
las personas que asisten a un curso de capacitación, respecto a las
personas que no asisten a dicho curso, y para ello debemos revisar la
información presentada en el enunciado.
En donde, se observa
que nos dan el valor de las medias y desviaciones estándar muestrales
para cada uno de los grupos, además nos menciona que las poblaciones se
distribuyen normalmente con varianzas poblacionales conocidas e iguales
a \(28\) millones de pesos\(^2\) para quienes se capacitaron y a \(20\)
millones de pesos\(^2\) para quienes no se capacitaron, y por tanto
estamos en la situación
y por tanto como el intervalo es bilateral, el calculo que debemos
hacer tendrá la forma \[\begin{align*}
(\bar{X}_C-\bar{X}_S) \pm Z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_C}{n_C}+\frac{\sigma^2_S}{n_S}}
\end{align*}\]
Para realizar el cálculo requerimos de las media muestrales
\(\bar{X}_C=43.5\) y \(\bar{X}_S=40.8\), las varianzas poblacionales
\(\sigma^2_C=5.6\) y \(\sigma^2_S=4.3\), los tamaños de muestrales
\(n_C=12\) y \(n_S=15\), el nivel de confianza \(1-\alpha=0.90\) y el
valor crítico \(Z_{\frac{\alpha}{2}=0.05}=1.644854\) calculado a partir
del nivel de confianza. Al reemplazar en el intervalo tenemos que
\[\begin{align*}
&(43.5-40.8) \pm 1.644854\sqrt{\frac{5.6}{12}+\frac{4.3}{15}} \\
&2.7 \pm 1.644854(0.8679478) \\
&2.7 \pm 1.427647 \\
&1.272353 < \mu_C - \mu_S < 4.127647
\end{align*}\]
Entonces podremos afirmar con un nivel de confianza del \(90\%\), de que
la diferencia entre el promedio de ventas de las personas que asisten a
un curso de capacitación, respecto a las personas que no asisten a dicho
curso de capacitación, se encuentra entre \(1.272353\) y \(4.127647\)
millones de pesos.
Ahora, para saber si la capacitación mejora
o no las ventas hay que tener en cuenta la posición en la que se
encuentre el intervalo para la diferencia entre
\(\mu_C - \mu_S\).
En donde se observa que la totalidad del intervalo se encuentra
localizado en la sección que es mayor a \(0\), lo cual indica que para
todo el intervalo de confianza del \(90\%\) el promedio de ventas del
grupo que recibió un curso de capacitación \(\mu_C\) es mayor al
promedio de quienes no recibieron capacitación \(mu_S\), y por tanto, se
podrá concluir que la capacitación si mejora el promedio de ventas y se
recomendará a la empresa que envíe a capacitación al resto de empleados.
Ejercicio
La gobernación de Antioquia, desea realizar un estudio sobre el peso de
los niños y las niñas que se encuentran cursando su primaria en los
colegios ubicados en las regiones del departamento, y decide contratar a
un grupo de investigación la Universidad de Antioquia para llevar a cabo
dicho estudio.
El grupo de investigación decide tomar una
muestra aleatoria de \(22\) niños y \(28\) niñas que se encuentran
realizando sus estudios de primaria entre los colegios que hay en la
región antioqueña, encontrando que el peso promedio y desviación
estándar de los niños fue de \(52\) kilos con una desviación estándar de
\(8\) kilos, mientras que el peso promedio y desviación estándar de las
niñas fue de \(46\) kilos con una desviación estándar de \(6.2\) kilos.
Si el peso de los niños y niñas puede asumirse como una normal
con varianzas iguales, construya un intervalo de confianza del \(90\%\)
para la diferencia promedio que hay entre el peso de los niños y las
niñas. Es posible pensar que hay diferencias significativas entre los
pesos promedio de los dos grupos?.
Solución
En este enunciado estamos interesados en construir un intervalo de
confianza del \(90\%\) para la diferencia promedio entre el peso de los
niños y las niñas. En donde, el intervalo de confianza será bilateral
debido a que no especifican que se debe calcular el límite superior o
inferior solamente. Para saber cuál es el intervalo de interés, debemos
revisar la información presentada en el enunciado.
En el
enunciado se aprecia que nos dan las medias y desviaciones estándar
muestrales para cada uno de los grupos, obtenidos a partir de muestras
de tamaños \(22\) y \(28\), respectivamente. Además, se menciona que el
peso de los niños y las niñas se distribuye normalmente con varianzas
desconocidas pero iguales, y por tanto estaremos en la siguiente
situación
y por tanto como el intervalo es bilateral, el calculo que debemos
hacer tendrá la forma \[\begin{align*}
(\bar{X}_H-\bar{X}_M) \pm t_{\frac{\alpha}{2}, n_H+n_M-2}S_p\sqrt{\frac{1}{n_H}+\frac{1}{n_M}}
\end{align*}\]
En donde observamos que entre otros valores, requerimos calcular el
valor de la desviación estándar conjunta \(Sp\), la cual está dada por
\[\begin{align*}
Sp^2 &= \frac{(n_H-1)S^2_H + (n_M-1)S^2_M}{n_H+n_M-2} \\
&= \frac{(22-1)8^2 + (28-1)6.2^2}{22 + 28 - 2} \\
&= 49.6225
\end{align*}\] y por tanto \[\begin{align*}
Sp &= \sqrt{Sp^2} \\
&= \sqrt{49.6225} \\
&= 7.044324
\end{align*}\]
Ahora, los valores adicionales que se requieren para realizar el cálculo
del intervalo de confianza serán, las medias muestrales
\(\bar{X}_H=52\), y \(\bar{X}_M=46\), los tamaños muestrales \(n_H=22\)
y \(n_M=28\), el nivel de confianza \(1-\alpha=0.90\) y el valor crítico
\(t_{\frac{\alpha}{2}=0.05, n_H+n_M-2 = 28}=1.701131\). Al reemplazar
estos valores en el intervalo de interés obtenemos que \[\begin{align*}
&(52-46) \pm 1.701131(7.044324)\sqrt{\frac{1}{22}+\frac{1}{28}} \\
&6 \pm 1.701131(7.044324)(0.2849014)\\
&2.7 \pm 3.414064 \\
&-0.714064 < \mu_H - \mu_M < 6.114064
\end{align*}\]
Por tanto, con un nivel de confianza del \(90\%\) se tendrá que la
diferencia entre el peso promedio de los niños y el peso promedio de las
niñas se encontrará entre \(-0.714064\) y \(6.114064\) kilogramos.
Ahora, para saber si existe diferencias significativas entre los
pesos promedio de niños y niñas debemos tener en cuenta la posición en
la que se encuentre el intervalo para la diferencia entre
\(\mu_H - \mu_M\).
En donde se observa que el intervalo encontrado contiene el valor
\(0\), el cual simboliza la igualdad entre los pesos promedio de niños y
niñas, tal que \[\begin{align*}
\mu_H = \mu_M \quad =>\quad \mu_H - \mu_M = 0
\end{align*}\]
y por tanto, con un nivel de confianza del \(90\%\) no será posible
afirmar que existen diferencias significativas entre los pesos promedio
de niños y niñas.
Ejercicio
Suponga que la Universidad de Antioquia adelanta un estudio sobre el
salario de sus egresados y desea comparar si es cierta la creencia que
las mujeres ganan en promedio menos dinero que los hombres.
Para comprobar si las creencias son ciertas, un grupo de investigación
de la Universidad toma una muestra representativa de \(250\) mujeres y
\(270\) hombres egresados de la Universidad y se les pregunta sobre cuál
es el salario que ganan actualmente, obteniendo en su investigación que
las mujeres ganan en promedio \(2.3\) millones de pesos con una
desviación estándar de \(0.7\) millones de pesos, mientras que los
hombres ganan en promedio \(2.6\) millones de pesos con una desviación
estándar de \(1.2\) millones de pesos.
Si el grupo de
investigación encuentra que los salarios no se distribuyen normalmente,
calcule el límite superior para la diferencia promedio del salario de
sus egresados hombres y egresados mujeres. Emplee un nivel de confianza
de \(80\%\).
Solución
En este enunciado estamos interesados en calcular el límite superior
para la diferencia promedio entre el salario de hombres y mujeres que
egresaron de la Universidad, la cual está dada por \(\mu_H - \mu_M\),
empleando para ello un nivel de confianza del \(80\%\). Ahora, para
identificar el intervalo de interés, debemos revisar la información
presentada por el grupo de investigación de la Universidad.
El
cual a partir de una muestra de \(250\) mujeres y \(270\) hombres,
encontró unos salarios promedios iguales a \(2.3\) y \(2.6\), con
desviaciones estándar de \(0.7\) y \(1.2\), respectivamente. Además
encuentra que los salarios no se distribuyen normalmente, y al no
mencionar cuales son las varianzas poblacionales, se asume que éstas no
son conocidas, y por tanto estaremos en la siguiente situación dado que
los tamaños muestrales son mayores a \(30\).
y por tanto al ser un intervalo unilateral derecho (límite
superior), el calculo que debemos hacer tendrá la forma \[\begin{align*}
\mu_H - \mu_M < (\bar{X}_H-\bar{X}_M) + Z_{\alpha}\sqrt{\frac{S^2_H}{n_H}+\frac{S^2_M}{n_M}}
\end{align*}\]
en donde se observa que al ser unilateral derecho, el intervalo solo
cuenta con la suma de la resta de medias muestrales y el término de
error, además de que, el valor crítico solo será para el valor
\(\alpha\), y no \(\alpha/2\) como es el caso de los intervalos
bilaterales.
Ahora, al reemplazar los valores encontrados por
el grupo de investigación \(n_H=270\), \(\bar{X}_H=2.6\), \(S_H=1.2\)
para los hombres, \(n_M=250\), \(\bar{X}_M=2.3\), \(S_M=0.7\) para las
mujeres, el nivel de confianza \(1-\alpha = 0.80\) y el valor crítico
\(Z_{\alpha=0.2}=0.8416212\), tendremos que \[\begin{align*}
&\mu_H - \mu_M < (2.6-2.3) + 0.8416212\sqrt{\frac{1.2^2}{270}+\frac{0.7^2}{250}} \\
&\mu_H - \mu_M < 0.3 + 0.8416212(0.08540101)\\
&\mu_H - \mu_M < 0.3 + 0.0718753 \\
&\mu_H - \mu_M < 0.3718753
\end{align*}\]
Por tanto, se tendrá que el valor máximo que se espera tener parar la
diferencia entre los salarios promedio de hombres y mujeres es de
\(0.3718753\) millones de pesos, lo anterior con un nivel de confianza
del \(80\%\).
Ejercicio
Se realiza un estudio con el fin de comparar el rendimiento de
combustible en kilómetros por galón para dos tipos de motores \(A\) y
\(B\). Suponga que se decide realizar un total de \(47\) experimentos
con el motor \(A\) y \(56\) experimentos con el motor \(B\), encontrando
para cada caso, un rendimiento promedio de gasolina de \(44\) y \(48\)
kilómetros, respectivamente, con desviaciones estándar de \(8.3\) y
\(6.6\), respectivamente.
Basados en la información anterior,
calcule el límite inferior para la diferencia promedio entre los
rendimiento de combustible en kilómetro por galón de gasolina para los
motores \(B\) y \(A\), empleando un nivel de confianza del \(88\%\).
Suponga que los rendimientos de los combustibles no poseen una
distribución normal, pero se tiene que las varianzas son conocidas e
iguales a \(38.44\) y \(57.76\) para las maderas \(A\) y \(B\)
respectivamente.
Solución
En este caso estamos interesados en calcular el límite inferior de un
intervalo de confianza del \(88\%\) para la diferencia promedio entre el
rendimiento de combustible en kilómetros por galón de gasolina que
ofrecen dos tipos de motores \(B\) y \(A\), tal que , \(\mu_B - \mu_A\),
y para calcular este límite inferior debemos revisar la información que
poseemos.
Del enunciado se menciona que los rendimientos de
combustible no poseen una distribución normal, pero se menciona que las
varianzas poblacionales son conocidas e iguales a \(\sigma^2_A=38.44\) y
\(\sigma^2_B=57.56\) para las maderas \(A\) y \(B\). En consecuencia,
tendremos que el intervalo de interés será el siguiente
y como estamos interesados en el límite inferior, el calculo que
debemos hacer tendrá la forma \[\begin{align*}
(\bar{X}_B-\bar{X}_A) - Z_{\alpha}\sqrt{\frac{\sigma^2_B}{n_B}+\frac{\sigma^2_A}{n_A}}
\end{align*}\]
Para realizar el cálculo del intervalo, se aprecia que requerimos de los
tamaños muestrales \(n_A=47\) y \(n_B=56\), las medias muestrales
\(\bar{X}_A=44\), y \(\bar{X}_B=48\), las varianzas poblacionales
\(\sigma^2_A=38.44\) y \(\sigma^2_B=57.56\), el nivel de confianza
\(1-\alpha=0.88\) y el valor crítico \(Z_{\alpha=0.12}=1.174987\). Al
reemplazar estos valores en el intervalo de interés obtenemos que
\[\begin{align*}
& (48-44) - 1.174987\sqrt{\frac{57.56}{56}+\frac{38.44}{47}} \\
& 4 - 1.174987(1.358576)\\
& 4 - 1.596309 \\
& 2.403691 < \mu_B - \mu_A
\end{align*}\]
y por tanto, se tendrá un con un nivel de confianza del \(88\%\), que el
límite inferior para la diferencia promedio entre los rendimiento de
combustible en kilómetro por galón de gasolina para los motores \(B\) y
\(A\) será de \(2.403691\) kilómetros.
Ejercicio
Suponga que se contrata a un grupo de investigación de la Universidad de
Antioquia para que realice un análisis de tensión sobre la unión pegada
con una resina experimental a dos clases diferentes de madera. Para
realizar el estudio, el grupo de investigación toma una muestra
aleatoria de \(18\) uniones pegadas con la resina especial a la madera
\(A\) y encontró que la tensión promedio de corte y desviación estándar
fueron de \(1130_{psi}\) y \(420_{psi}\), respectivamente. Por su parte,
toman una muestra aleatoria de \(12\) uniones pegadas con la resina
especial a la madera \(B\), encontrando que la tensión promedio de corte
y desviación estándar fueron de \(1010_{psi}\) y \(380_{psi}\).
Si se asume que la tensión sobre la unión pegada con la resina
experimental en cada clase de madera se distribuye aproximadamente
normal con varianzas diferentes. Construya un intervalo de confianza del
\(92\%\) para la diferencia de tensión promedio de corte para las dos
marcas de madera.
Solución
En este enunciado estamos interesados en construir un intervalo de
confianza del \(92\%\) para la diferencia entre los promedio a la
tensión sobre la unión pegada con una resina experimental para dos
clases de madera \(A\) y \(B\). En este caso, el intervalo de confianza
que se empleará será bilateral dado que no nos mencionan que se realice
el cálculo del límite superior o inferior para la diferencia. Para saber
cuál es el intervalo de interés, debemos revisar la información
calculada por el grupo de investigación.
De los datos
calculados por el grupo de investigación, encontramos que se realizó una
selección de \(18\) y \(12\) uniones para las maderas \(A\) y \(B\)
respectivamente, para las cuales se encontró de forma respectiva unas
medias muestrales de \(1130_{psi}\) y \(1010_{psi}\) junto a unas
desviaciones estándar de \(420_{psi}\) y \(380_{psi}\). Además, se
menciona de que las dos poblaciones se distribuyen de forma
aproximadamente normal con varianzas diferentes y en consecuencia se
tendrá el siguiente caso
y por tanto como el intervalo es bilateral, el calculo que debemos
hacer tendrá la forma \[\begin{align*}
(\bar{X}_A-\bar{X}_B) \pm t_{\frac{\alpha}{2}, \nu}\sqrt{\frac{S^2_A}{n_A}+\frac{S^2_B}{n_B}}
\end{align*}\]
En donde se observa que entre otros valores, requerimos calcular el
valor de los grados de libertad \(\nu\), tal que
\[\begin{align*}
\nu &= \frac{\left(\frac{S^2_A}{n_A} + \frac{S^2_B}{n_B}\right)^2}{\frac{(S^2_A/n_A)^2}{n_A-1} + \frac{(S^2_B/n_B)^2}{n_B-1}} \\
&= \frac{\left(\frac{420^2}{18} + \frac{380^2}{12}\right)^2}{\frac{(480^2/18)^2}{18-1} + \frac{(380^2/12)^2}{12-1}} \\
&= \frac{476694444}{18813149} \\
&= 25.33837
\end{align*}\]
Al calcular el valor techo de \(\nu\) tendremos que \[\begin{align*}
\nu &= 25.33837 \\
\lceil \nu \rceil &= \lceil25.33837\rceil \\
\lceil \nu \rceil &= 26
\end{align*}\]
y por tanto. se tendrá que los grados de libertad asociados a la
distribución \(t\) serán iguales a \(\nu= 26\). Ahora, los valores
adicionales que se requieren para realizar el cálculo del intervalo de
interés serán los tamaños muestrales \(n_A=12\) y \(n_B=18\), las medias
muestrales \(\bar{X}_A=1130\), y \(\bar{X}_B=1010\), las desviaciones
estándar muestrales \(S_A=420\) y \(S_B=380\), el nivel de confianza
\(1-\alpha=0.92\) y el valor crítico
\(t_{\frac{\alpha}{2}=0.04, \nu = 26}=1.821863\). Al reemplazar estos
valores en el intervalo de interés obtenemos que \[\begin{align*}
& (1130-1010) \pm 1.821863\sqrt{\frac{420^2}{18}+\frac{380^2}{12}} \\
& 120 \pm 1.821863(147.7611)\\
& 120 \pm 269.2004 \\
& -149.2004 < \mu_A - \mu_B < 389.2004
\end{align*}\]
De lo anterior, se concluye que con una confianza del \(92\%\), la
diferencia promedio entre la tensión promedio de corte entre las maderas
\(A\) y \(B\) se encontrará entre \(-149.2004_{psi}\) y
\(389.2004_{psi}\).
Ahora, como el intervalo es bilateral,
podemos verificar si existen o no diferencias significativas entre la
tensión promedio de corte de dos tipos de madera, y para ello debemos
verificar la posición en la que se encuentra el intervalo de confianza
para la diferencia entre \(\mu_A - \mu_B\).
En donde se observa que el intervalo calculado contiene el valor de
\(0\), el cual representa la igualdad entre la tensión promedio de corte
de dos tipos de madera, tal que \[\begin{align*}
\mu_A = \mu_B \quad =>\quad \mu_A - \mu_B = 0
\end{align*}\]
y por tanto, con un nivel de confianza del \(92\%\) no será posible
afirmar que existen diferencias significativas entre la tensión promedio
de corte de dos tipos de madera.