Distribución de probabilidad conjunta
Distribuciones marginales
Sean $X, Y$
dos variables aleatorias con función de masa de
probabilidad conjunta $p(x,y)$
o función de densidad de probabilidad
conjunta $f(x,y)$
, entonces las distribuciones marginales solo de
$X$
, están dada por
\begin{align*} g(x)=\begin{cases} \sum_{y}p(x,y) & \text{ si } x,y \text{ son discretas} \\ \int_{-\infty}^\infty f(x,y) dy & \text{ si } x,y \text{ son continuas} \end{cases} \end{align*}
Similarmente, las distribuciones marginales solo de $Y$
, están dadas
por
\begin{align*} h(y)=\begin{cases} \sum_{x}p(x,y) & \text{ si } x,y \text{ son discretas} \\ \int_{-\infty}^\infty f(x,y) dx & \text{ si } x,y \text{ son continuas} \end{cases} \end{align*}
Ejercicio
Suponga un experimento que consta en lanzar dos dados al aire. Sea \(X\) la variable aleatoria que indica la suma resultante de los dos dados, y \(Y\) la variable aleatoria del valor absoluto de la diferencia de los dos dados. Encuentre la distribución marginal de \(X\) y de \(Y\).
Solución
En el caso de una distribución discreta, encontrar las distribuciones marginales es cuestion de sumar las probabilidades que hay en la tabla por filas o por columnas. Para ilustrar esto, retomemos la tabla de distribución que encontramos anteriormente para este punto
Como se aprecia, se tiene en la parte izquierda la variable aleatoria \(Y\), mientras que en la parte superior la variable aleatoria \(X\). Entonces, si realizamos la suma de las probabilidades por columna, encontraremos la distribución marginal de \(X\), \(g(x)\), mientras que si sumamos las probabilidades por fila, encontraremos la distribución marginal de \(Y\), \(h(y)\). tal que
Ejercicio
Suponga que se tiene interés en observar el número promedio de horas de tiempo libre que posee un profesor en un día y el número promedio de horas de tiempo libre que poseen los estudiantes a los cuales se les dicta un curso de Estadística I. Para ello, se encuentra que la función de densidad de probabilidad conjunta está dada por \[\begin{align*} f(x,y)=\frac{1}{42}xy^2 \quad \quad 0<x<2; 1<y<4 \end{align*}\] siendo \(X\) la variable aleatoria que representa el número promedio de horas de tiempo libre del profesor y \(Y\) el número promedio de horas de tiempo libre de los estudiantes. A partir de dicha función encuentre la distribución marginal de \(X\) y de \(Y\)
Solución
Para encontrar las distribuciones marginales en el caso de una
distribución continua, será necesario realizar una integración en el
dominio de la variable contraria a la cual se desea encontrar la
distribución marginal. Por ejemplo, si se desea encontrar la
distribución marginal de \(X\), será necesario eliminar la variable
\(Y\) de la ecuación, y por tanto será necesario realizar la integral
respecto a \(Y\) en todo su dominio. Es decir
\[\begin{align*}
g(x) =& \int_1^{4}\frac{1}{42}xy^2\text{ d}y \\
=& \frac{1}{42}\int_{1}^{4}xy^2\text{ d}y \\
=& \frac{1}{42}x\frac{y^3}{3}\Bigg|_{1}^{4} \\
=& \frac{1}{126}x(4^3 - 1^3) \\
=& \frac{1}{126}x(64 - 1) \\
g(x) =& \frac{1}{2}x \quad \quad 0<x<2
\end{align*}\] Donde se observa que la distribución marginal \(g(x)\)
solo depende de la variable aleatoria \(X\). Similarmente para la
distribución marginal de \(Y\), en donde, será necesario eliminar la
variable aleatoria \(X\) y por tanto, se realiza la integral en todo el
dominio de \(X\), tal que
\[\begin{align*}
h(y) =& \int_0^{2}\frac{1}{42}xy^2\text{ d}x \\
=& \frac{1}{42}\int_{0}^{2}xy^2\text{ d}x \\
=& \frac{1}{42}\frac{x^2}{2}y^2\Bigg|_{0}^{2} \\
=& \frac{1}{84}(2^2 - 0^2)y^2 \\
=& \frac{1}{84}(4)y^2 \\
h(y) =& \frac{1}{21}y^2 \quad \quad 1<y<4
\end{align*}\] Donde se evidencia que la distribución marginal \(h(y)\)
solo depende de la variable aleatoria \(Y\).
Distribuciones condicionales
Sea $X, Y$
dos variables aleatorias con función de masa de
probabilidad conjunta o función de densidad de probabilidad conjunta
entonces la distribución condicional de $X$
dado $Y$
es
\begin{align*} f(x|y)=\frac{f(x,y)}{h(y)} \text{ con } h(y)>0 \end{align*}
Análogamente, la distribución condicional de $Y$
dado $X$
es
\begin{align*} f(y|x)=\frac{f(x,y)}{g(x)} \text{ con } g(x)>0 \end{align*}
Ejercicio
Suponga un experimento que consta en lanzar dos dados al aire. Sea \(X\) la variable aleatoria que indica la suma resultante de los dos dados, y \(Y\) la variable aleatoria del valor absoluto de la diferencia de los dos dados. Encuentre la distribución condicional de \(X\) dado que \(Y=3\).
Solución
El interés en este punto radica en calcular la distribución de la suma de los dados, dado que se sabe que la resta absoluta es igual a \(3\), es decir, \[\begin{align*} f(x|y=3)=\frac{f(x,y=3)}{h(y=3)} \text{ con } h(y)>0 \end{align*}\] Para calcular dicha distribución, necesitamos tanto la función de masa de probabilidad como las distribución marginal de \(Y=3\), y para ello, empleamos la tabla anteriormente calculada con sus correspondientes distribuciones marginales, tal que
En donde se aprecia que \(f(x,y=3)\) aparece resaltado de color rojo, mientras que \(h(y=3)\) aparece resaltado de color amarillo. Entonces al aplicar la formula de probabilidad condicional, se tendrá que la distribución condicional de \(X\) dado que \(Y=3\) es
Ejercicio
Suponga que se tiene interés en observar el número promedio de horas de tiempo libre que posee un profesor en un día y el número promedio de horas de tiempo libre que poseen los estudiantes a los cuales se les dicta un curso de Estadística I. Para ello, se encuentra que la función de densidad de probabilidad conjunta está dada por \[\begin{align*} f(x,y)=\frac{1}{42}xy^2 \quad \quad 0<x<2; 1<y<4 \end{align*}\] siendo \(X\) la variable aleatoria que representa el número promedio de horas de tiempo libre del profesor y \(Y\) el número promedio de horas de tiempo libre de los estudiantes. A partir de dicha función encuentre la distribución condicional de \(Y\), dado que \(X\) es a lo más \(1.3\).
Solución
En este punto, el interés es encontrar la distribución condicional del número promedio de horas de tiempo libre de los estudiantes, dado que el número promedio de horas de tiempo libre que tiene el profesor es como máximo \(1.3\) horas. Por definición, esta distribución condicional puede definirse como \[\begin{align*} f(y|x\leq1.3) = \frac{f(x\leq1.3, y)}{g(x\leq1.3)} \text{ con } g(x)>0 \end{align*}\] En donde, para encontrar esta distribución será necesario calcular inicialmente \(f(x\leq1.3, y)\) la cual es equivalente a la siguiente integral \[\begin{align*} f(x\leq1.3, y) =& \int_{0}^{1.3} \frac{1}{42}xy^2 \text{ d}x \\ =& \frac{1}{42}\int_{0}^{1.3}xy^2\text{ d}x \\ =& \frac{1}{42}\frac{x^2}{2}y^2\Bigg|_{0}^{1.3} \\ =& \frac{1}{84}(1.3^2 - 0^2)y^2 \\ =& \frac{1}{84}(1.69)y^2 \\ =& 0.0201y^2 \end{align*}\] seguidamente, será necesario calcular \(g(x\leq1.3)\) mediante la integral \[\begin{align*} g(x\leq1.3) =& \int_0^{1.3}\frac{1}{2}x \text{ d}x \\ =& \frac{1}{2}\int_0^{1.3}x \text{ d}x \\ =& \frac{1}{2}\frac{x^2}{2}\Bigg|_0^{1.3} \\ =& \frac{1}{4}(1.3^2 - 0^2) \\ =& \frac{1}{4}(1.69) \\ =& 0.4225 \end{align*}\] finalmente, al realizar la división entre las dos ecuaciones se tendrá que la distribución condicional de \(Y\) dado que \(x\leq1.3\) estará dada por \[\begin{align*} f(y|x\leq1.3) =& \frac{0.0201y^2}{0.4225} \\ =& 0.0476y^2 \quad \quad 1<y<4 \end{align*}\]
Independencia estadística
Sea $X, Y$
dos variables aleatorias discretas con función de masa de
probabilidad conjunta $p(x,y)$
o continuas con función de densidad de
probabilidad conjunta $f(x,y)$
, y con distribuciones marginales
$g(x)$
y $h(y)$
. entonces, se dice que las variables aleatorias
$X,Y$
son estadísticamente independientes si y solo si
\begin{align*} f(x,y)=g(x)h(y) \end{align*}
para todo $(x,y)$
dentro de sus rangos o planos.
Ejercicio
Suponga un experimento que consta en lanzar dos dados al aire. Sea \(X\) la variable aleatoria que indica la suma resultante de los dos dados, y \(Y\) la variable aleatoria del valor absoluto de la diferencia de los dos dados. Verifique si las variables aleatorias \(X\) y \(Y\) son estadísticamente independientes.
Solución
Para observar si la suma de los dos dados y la resta absoluta del resultado de los dos dados es o no independiente, es necesario calcular inicialmente, las distribuciones marginales de las variables aleatorias tal como se hizo en puntos anteriores
Una vez conocida la distribución de probabilidad conjunta y las distribuciones marginales, es posible verificar si las variables aleatorias son independientes mediante la formula \[\begin{align*} f(x,y)=g(x)h(y) \end{align*}\] Entonces si son independientes, al evaluar la función de distribución conjunta y las marginales en cualquier punto debería surgir como resultado el mismo valor a ambos lados de la desigualdad. Por ejemplo, vamos a evaluar a \(X=4\) y \(Y=2\). En este caso se tendrá que \[\begin{align*} f(x=4,y=2)=\frac{2}{36} \end{align*}\] mientras que \[\begin{align*} g(x=4)=\frac{3}{36} \quad \text{ y } \quad h(y=2)=\frac{8}{36} \end{align*}\] Por tanto, al evaluar los dos lados de la desigualdad, se tendrá que \[\begin{align*} f(x=4,y=2) &= g(x=4)h(y=2) \\ \frac{2}{36} &= \frac{3}{36} \frac{8}{36} \\ \frac{1}{18} &\neq \frac{1}{54} \end{align*}\] Y en consecuencia, como los dos lados de la desigualdad son diferentes, se concluirá que la suma y la resta absoluta obtenida por el lanzamiento de los dos dados no son variables aleatorias independientes.
Ejercicio
Suponga que se tiene interés en observar el número promedio de horas de tiempo libre que posee un profesor en un día y el número promedio de horas de tiempo libre que poseen los estudiantes a los cuales se les dicta un curso de Estadística I. Para ello, se encuentra que la función de densidad de probabilidad conjunta está dada por \[\begin{align*} f(x,y)=\frac{1}{42}xy^2 \quad \quad 0<x<2; 1<y<4 \end{align*}\] siendo \(X\) la variable aleatoria que representa el número promedio de horas de tiempo libre del profesor y \(Y\) el número promedio de horas de tiempo libre de los estudiantes. Verifique si las variables aleatorias \(X\) y \(Y\) son estadísticamente independientes.
Solución
Similar al caso discreto, el objetivo será observar si el tiempo libre
promedio del profesor es independiente del tiempo libre promedio de los
estudiantes, y para ello será cuestión de observar al multiplicar las
distribuciones marginales se obtiene como resultado la misma
distribución conjunta.
Así tenemos entonces que, la distribución conjunta está dada por
\[\begin{align*}
f(x,y)=\frac{1}{42}xy^2 \quad \quad 0<x<2; 1<y<4
\end{align*}\] mientras que las distribuciones marginales están dadas
por \[\begin{align*}
g(x) =& \frac{1}{2}x &\quad \quad 0<x<2 \\
h(y) =& \frac{1}{21}y^2 &\quad \quad 1<y<4
\end{align*}\] por tanto, al aplicar la formula de independencia
tendremos que \[\begin{align*}
f(x,y)&=g(x)h(y) \\
\frac{1}{42}xy^2&= \left(\frac{1}{2}x\right) \left(\frac{1}{21}y^2\right) \\
\frac{1}{42}xy^2&= \frac{1}{42}xy^2
\end{align*}\] y en consecuencia, como ambos lados de la desigualdad son
iguales se tendrá que el número promedio de horas de tiempo libre que
tiene el profesor es independiente del número promedio de horas de
tiempo libre que tienen los estudiantes del curso de Estadística I.