Variables aleatorias

Es una función que asocia un número real a cada elemento del espacio muestral $S$. Comúnmente las variables aleatorias se denotan por letras mayúsculas del final del abecedario $(X,Y,Z)$ y a los valores observados por letras minúsculas $(x,y,z)$.

Las variables aleatorias se pueden clasificar en tres tipos

  • Variables Bernoulli: Cualquier variable aleatoria cuyos posibles valores sean 0 o 1.
  • Variables discretas: Son aquellas que tienen un número finito de posibilidades o una serie interminable de elementos como números enteros existentes (es decir, es enumerable).
  • Variables continuas: Son aquellas que contienen un número infinito de posibilidades, o igual número de puntos que un segmento de recta.

Ejercicio

Identifique el tipo de variables aleatorias y asigne un valor numérico a los elementos del espacio muestral.

  1. El número de lanzamientos de un dado hasta que caiga un \(4\).
  2. La proporción de estudiantes que se encuentran enfermas, en la Facultad de Ciencias Económicas.
  3. Toma un artículo de una banda de ensamble y verificar si éste se encuentra o no defectuoso.

Solución

  1. Si llamamos a \(F\) al evento de obtener un número diferente a \(4\) y a \(E\) al evento de obtener un \(4\), entonces observamos que al lanzar el dado, el número \(4\) puede caer en el primer lanzamiento, o en el segundo, o en el tercero, etc, etc, y por tanto el espacio muestral estará dado por \[\begin{align*} S:\{E, FE, FFE, FFFE, \ldots\} \end{align*}\] y en consecuencia, podemos definir la variable aleatoria discreta \(X\) con los números \(1\), \(2\), \(3\), \(\ldots\), para el número de lanzamientos necesarios hasta obtener un \(4\). Es decir, la variable aleatoria tendrá dominio en \[\begin{align*} X=1, 2, 3, \ldots \end{align*}\]
  2. Dado que es una proporción, entonces el espacio muestral puede ser cualquier valor que se encuentre entre \(0\) y \(1\), entonces tendremos a \(Y\), una variable aleatoria continua con dominio definido en \[\begin{align*} 0\leq Y\leq 1 \end{align*}\]
  3. El ejercicio consta en elegir un artículo de una banda de ensamble y comprobar si tiene o no defectos. En consecuencia, se tendrá un espacio muestral con dos puntos situaciones, \(D\) si el artículo está defectuoso, y \(N\) si el artículo no está defectuoso, tal que \[\begin{align*} S:\{D,N\} \end{align*}\] Entonces, como solo pueden haber dos posibilidades, defectuoso y no defectuoso, podemos definir una variable aleatoria Bernoulli \(Z\), la cual se definirá como \[\begin{align*} Z = \begin{cases} 0 & \text{ Si el artículo está defectuoso } \\ 1 & \text{ Si el artículo no está defectuoso } \end{cases} \end{align*}\]

Distribución de probabilidad discreta

Se dice que el conjunto de pares ordenados $(x,p(x))$ es una función de masa de probabilidad $(fmp)$ de la variable aleatoria discreta $X$, si para cualquier resultado posible de $X$ se cumple que

  1. $p(x)\geq0$ para todo $x \in$ en el dominio de $X$
  2. $\sum_x p(x)=1$
  3. $\sum_{x\in A}p(x) = \mathbb{P}(X\in A)$ con $A$ un conjunto de valores $\in$ al dominio de $X$.

Ejercicio

Suponga un experimento aleatorio que consta en consultar una familia conformada por \(3\) hijos, en donde, se asume que la probabilidad de ser niño o niña es la misma. Entonces, si se define la variable aleatoria \(X\), el número de niñas que hay en la familia. Defina

  1. El espacio muestral \(S\) del experimento aleatorio.
  2. Los valores que puede tomar la variable aleatoria \(X\)
  3. La función de probabilidad del experimento aleatorio.
  4. La función de masa de probabilidad está bien definida?
  5. Calcule la probabilidad de que en una familia que posee tres hijos, hayan \(2\) o más niñas

Solución

  1. Sea \(H\) la letra que representa que el miembro de la familia es niño y \(M\) para denotar que el miembro de la familia es niña, entonces, se tendrá que el espacio muestral se define como \[\begin{align*} S = \{HHH,\;HHM,\;HMH,\;MHH,\;HMM,\;MHM,\;MMH,\;MMM\} \end{align*}\]
  2. Como el interés de la variable aleatoria \(X\) radica en el número de niñas que hay en la familia, se tendrá entonces que a partir del espacio muestral \(S\) se puede contar el número de éxitos que hay en cada situación \[\begin{align*} S = \{\underset{0}{HHH},\;\underset{1}{HHM},\;\underset{1}{HMH},\;\underset{1}{MHH},\;\underset{2}{HMM},\;\underset{2}{MHM},\;\underset{2}{MMH},\;\underset{3}{MMM}\} \end{align*}\] Evidenciando, que podemos asignar los valores \(0,\) \(1,\) \(2\) y \(3\) a la variable aleatoria \(X\).
  3. Para encontrar la función de probabilidades del experimento aleatorio asociadas a la variable aleatoria \(X\), podemos emplear la definición de la frecuencia relativa, aprovechando que todos los puntos del espacio muestral poseen la misma probabilidad. En otro caso podríamos emplear un diagrama de árbol para encontrar dichas probabilidades.
    Para el caso de \(X=0\), observamos que de las \(8\) posibles situaciones que hay dentro del espacio muestral \(S\), solo tenemos una situación en donde no hay ninguna mujer, y en consecuencia, al aplicar la definición de frecuencia relativa, se tendrá que la probabilidad de que \(X=0\), es \[\begin{align*} \mathbb{P}(X=0) = \frac{1}{8} \end{align*}\] Procedimiento similar se aplica para \(X=1\), \(X=2\) y \(X=3\), obteniendo como resultado la siguiente tabla de probabilidades
    \(X\) \(0\) \(1\) \(2\) \(3\)
    \(p(x)\) \(\frac{1}{8}\) \(\frac{3}{8}\) \(\frac{3}{8}\) \(\frac{1}{8}\)
  4. Si, la variable aleatoria se encuentra bien definida, dado que cada una de las probabilidades es mayor o igual a \(0\), además, al sumar cada una de las probabilidades de la tabla
    \(X\) \(0\) \(1\) \(2\) \(3\)
    \(p(x)\) \(\frac{1}{8}\) \(\frac{3}{8}\) \(\frac{3}{8}\) \(\frac{1}{8}\)
    se encuentra que dicha suma es igual a \(1\).
  5. Dado que solo nos interesa la situación en la cual hay \(2\) o más niñas, se tendrá que nos están preguntando por la probabilidad de que \[\begin{align*} \mathbb{P}(X\geq2) = \sum_{x=2}^3p(x) = p(2) + p(3) = \frac{3}{8} + \frac{1}{8} = \frac{1}{2} \end{align*}\] y en consecuencia, se tendrá que la probabilidad de que en una familia de \(3\) hijos, se tenga \(2\) o más niñas, es del \(50\%\).

Función de distribución acumulada caso discreto

La función de distribución acumulada $(fda)$ denotada por $F(x)$, para una variable aleatoria discreta $X$ con distribución de probabilidad $p(x)$ es de la forma \begin{align*} F(x)=\mathbb{P}(X\leq x)=\sum_{t\leq x}p(t) \quad \quad -\infty<x<\infty \end{align*}

Para cualquier $x$ dentro del dominio de $X$, $F(x)$ será la suma acumulada de todos los $X$ menores a $x$, evaluados en $f(x)$.

Nota: Si se quieren calcular probabilidades con la función de distribución acumulada en el caso discreto, entonces, si $a$ y $b$ son dos números constantes enteras, deberán tenerse en cuenta las siguientes reglas

  • $\mathbb{P}(a \leq X \leq b) = \mathbb{P}(X\leq b) - \mathbb{P}(X\leq a - 1) = F(b) - F(a - 1)$
  • $\mathbb{P}(a < X \leq b) = \mathbb{P}(X\leq b) - \mathbb{P}(X\leq a) = F(b) - F(a)$
  • $\mathbb{P}(a \leq X < b) = \mathbb{P}(X\leq b-1) - \mathbb{P}(X\leq a-1) = F(b - 1) - F(a - 1)$
  • $\mathbb{P}(a < X < b) = \mathbb{P}(X\leq b-1) + \mathbb{P}(X\leq a) = F(b - 1) - F(a)$
  • $\mathbb{P}(X \geq a) = 1 - \mathbb{P}(X\leq a-1) = 1 - F(a-1)$
  • $\mathbb{P}(X > a) = 1 - \mathbb{P}(X\leq a) = 1 - F(a)$
  • $\mathbb{P}(X \leq b) = F(b)$
  • $\mathbb{P}(X < b) = \mathbb{P}(X\leq b-1) = F(b - 1)$

Ejercicio

Suponga un experimento aleatorio que consta en consultar una familia conformada por \(3\) hijos, en donde, se asume que la probabilidad de ser niño o niña es la misma. Entonces, si se define la variable aleatoria \(X\), el número de niñas que hay en la familia.

  1. Calcule la función de distribución acumulada \(F(x)\).
  2. Calcule la probabilidad de que en una familia que posee tres hijos, hayan \(2\) o más niñas, mediante el uso de \(F(x)\).

Solución

  1. Como la función de distribución acumulada parte de la función de masa de probabilidad, calculamos la función de masa de probabilidad para el número de niñas que hay en una familia que posee \(3\) hijos.
    \(X\) \(0\) \(1\) \(2\) \(3\)
    \(p(x)\) \(\frac{1}{8}\) \(\frac{3}{8}\) \(\frac{3}{8}\) \(\frac{1}{8}\)
    A partir de ésta tabla se procede a realizar el cálculo de la función de distribución acumulada \(F(x)\). Para ello, debemos calcular las siguientes probabilidades \(F(0) = \mathbb{P}(X\leq 0)\), \(F(1) = \mathbb{P}(X\leq1)\), \(F(2) = \mathbb{P}(X\leq2)\) y \(F(3) = \mathbb{P}(X\leq3)\) \[\begin{align*} F(0) & = \mathbb{P}(X\leq0) = p(0) = \frac{1}{8} \\ F(1) & = \mathbb{P}(X\leq1) = p(0) + p(1) = \frac{1}{8} + \frac{3}{8} = \frac{4}{8}\\ F(2) & = \mathbb{P}(X\leq2) = \sum_{x=0}^{2} p(x) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} = \frac{7}{8} \\ F(3) & = \mathbb{P}(X\leq3) = \sum_{x=0}^{3} p(x) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8} = \frac{8}{8} \end{align*}\] Entonces, mediante el empleo de estas probabilidades, podemos construir la función de distribución acumulada para la variable aleatoria \(X\), tal que \[\begin{align*} F(x) = \begin{cases} 0 & x<0 \\ \frac{1}{8} & 0\leq x<1 \\ \frac{4}{8} & 1\leq x<2 \\ \frac{7}{8} & 2\leq x<3 \\ \frac{8}{8} & x\geq 3 \end{cases} \end{align*}\] En donde se aprecia, que para valores menores a \(0\), no hay ninguna probabilidad definida, para valores mayores o iguales a \(0\) pero menores que \(1\) solo está definido \(F(0)=p(0)\), para valores mayores o iguales a \(1\) pero menores que \(2\) está definido \(F(1)=p(0)+p(1)\), para valores mayores o iguales a \(2\) pero menores que \(3\) está definido \(F(2)=p(0)+p(1)+p(2)\), y para valores mayores o iguales a \(3\) está definido \(F(3)=p(0)+p(1)+p(2)+p(3)\).
  2. Dado que el interés es calcular la probabilidad de que el número de niñas sea mayor a \(1\) pero no más de \(2\), entonces se tendrá que la probabilidad de interés es la siguiente \[\begin{align*} \mathbb{P}(1 < X \leq 2) \end{align*}\] Entonces, siguiendo las reglas anteriormente expuestas, dicha probabilidad puede calcularse mediante \[\begin{align*} \mathbb{P}(X \geq 2) & = 1 - F(2-1) \\ & = 1 - F(1) \\ & = 1 - \frac{4}{8} & = \frac{4}{8} \end{align*}\] y por tanto, se tendrá que la probabilidad de que en una familia de \(3\) hijos, tengan \(2\) o más niñas es de \(50\%\).

Distribución de probabilidad continua

La función $f(x)$ es una función de densidad de probabilidad (fdp) para la variable aleatoria continua $X$, definida en el conjunto de números reales, si

  1. $f(x)\geq0$ para todo $x\in \mathbb R$
  2. $\int_{-\infty}^\infty f(x)dx=1$
  3. $\int_a^b f(x) dx = \mathbb{P}(a<x<b)$ con $a$ y $b$ dos constantes $\in \mathbb{R}$

Ejercicio

Suponga que el tiempo que tarda una serie financiera en cumplir un ciclo, es una variable aleatoria continua con función de densidad de probabilidad dada por \[\begin{align*} f(x)=x^2(1-x)^2 \quad \quad 0<x<1 \end{align*}\] siendo \(X\) una variable aleatoria que representa el tiempo en horas que tarda la serie financiera en cumplir un ciclo. A partir de dicha función

  1. Verifique si la función de densidad de probabilidad está bien definida? De no estarlo, multiplique la función por una constante \(k\) para que quede bien definida.
  2. Calcule la probabilidad de que el tiempo que tarda la serie en cumplir un ciclo sea de \(30\) minutos a \(50\) minutos.

Solución

  1. Para verificar si la función está bien definida, es necesario en primer lugar observar si para todo \(X\) en el dominio definido, la función de probabilidad de densidad de probabilidad es mayor o igual a \(0\). Para ello supongamos \(3\) números diferentes, \(0.1\) \(0.4\) y \(0.7\), los cuales vamos a evaluar en la función de densidad. \[\begin{align*} f(0.1)=(0.1)^2(1-0.1)^2=0.0081 \\ f(0.4)=(0.4)^2(1-0.4)^2=0.0576 \\ f(0.7)=(0.7)^2(1-0.7)^2=0.0441 \end{align*}\] La idea entonces, es apreciar que para todo \(0<x<1\), \(f(x)\geq0\).
    En segundo lugar, para observar si la función de densidad de probabilidad está bien definida, es necesario observar si al integrar dicha función su resultado es igual a \(1\), es decir, \[\begin{align*} \int_{-\infty}^\infty f(x)dx & = \int_{-\infty}^0 0\; dx + \int_{0}^1 x^2(1-x)^2\; dx + \int_{1}^\infty 0\; dx \\ & = \int_{0}^1 x^2(1-x)^2\; dx \\ & = \int_{0}^1 x^2(1^2-2x+x^2)\; dx \\ & = \int_{0}^1 x^2-2x^3+x^4\; dx \\ & = \left(\frac{x^3}{3} - \frac{2x^4}{4} + \frac{x^5}{5} \right)\Bigg|^1_0 \\ & = \left(\frac{1^3}{3} - \frac{1^4}{2} + \frac{1^5}{5} \right) - \left(\frac{0^3}{3} - \frac{0^4}{2} + \frac{0^5}{5} \right) \\ & = \frac{1}{30} \end{align*}\] Entonces, como la integral no da exactamente \(1\), se tendrá que multiplicar dicha función de densidad por una constante \(k\) que haga que su resultado sea \(1\), es decir, si multiplicamos la función por \(k=30\), se tendrá como resultado que la integral será igual a \(1\), ya que, \[\begin{align*} 30\int_{-\infty}^\infty f(x)dx & = 30 \int_{0}^1 x^2(1-x)^2\; dx \\ & = 30 \left(\frac{1^3}{3} - \frac{1^4}{2} + \frac{1^5}{5} \right) \\ & = \frac{30}{30} \\ & = 1 \end{align*}\] Y en consecuencia, se tendrá que la nueva función de densidad de probabilidad está bien definida. \[\begin{align*} f(x) = 30x^2(1-x)^2 \quad \quad 0<x<1 \end{align*}\]
  2. Dado que la función de densidad está en horas, será necesario pasar los minutos a horas, en donde, al aplicar una regla de tres para cada límite de la integral que nos piden se tendrá que \[\begin{align*} 60_\text{min} &- 1_\text{hora} & \quad \quad & 60_\text{min} - 1_\text{hora}\\30_\text{min} &- a & \quad \quad & 50_\text{min} - b \end{align*}\] Entonces, al realizar la operación encontramos que los límites de la integral serán \[\begin{align*}a&=\frac{30_\text{min}\times1_{\text{hora}}}{60 _\text{min}}=0.5_\text{horas} \\ b&=\frac{50_\text{min}\times1_{\text{hora}}}{60 _\text{min}}=0.8333_\text{horas} \end{align*}\] Ahora, al realizar la integral tendremos que \[\begin{align*} \mathbb{P}(0.5 < X < 0.8333) & = \int_{0.5}^{0.8333} 30 x^2(1-x)^2\; dx \\ & = 30\int_{0.5}^{0.8333} x^2-2x^3+x^4\; dx \\ & = 30\left(\frac{x^3}{3} - \frac{2x^4}{4} + \frac{x^5}{5} \right)\Bigg|^{0.8333}_{0.5} \\ & = 30 \left[\left(\frac{0.8333^3}{3} - \frac{0.8333^4}{2} + \frac{0.8333^5}{5} \right) - \left(\frac{0.5^3}{3} - \frac{0.5^4}{2} + \frac{0.5^5}{5} \right)\right] \\ & = 0.4645 \end{align*}\] En consecuencia, se tendrá una probabilidad del \(46.45\%\) de que el tiempo que tarda la serie financiera en cumplir un ciclo estará entre \(30\) minutos y \(50\) minutos.

Función de distribución acumulada caso continuo

La función de distribución acumulada (fda) denotada por $F(x)$, para una variable aleatoria continua $X$ con distribución de densidad de probabilidad $f(x)$ es de la forma \begin{align*} F(x)=\mathbb{P}(X\leq x)=\int_{-\infty}^x f(t)dt \quad \quad -\infty<x<\infty \end{align*} para cualquier $x$, $F(x)$ es el área bajo la curva de densidad a la izquierda de valor que tome $x$.

Nota: Si se quieren calcular probabilidades con la función de distribución acumulada en el caso continuo, entonces, si $a$ y $b$ son dos números constantes, deberán tenerse en cuenta las siguientes reglas

  • $\mathbb{P}(a \leq X \leq b) = \mathbb{P}(X\leq b) - \mathbb{P}(X\leq a) = F(b) - F(a)$
  • $\mathbb{P}(X \geq a) = 1 - \mathbb{P}(X\leq a) = 1 - F(a)$
  • $\mathbb{P}(X \leq b) = F(b)$

Nota: Recordar que en el caso continuo, las probabilidad con o sin la igualdad son equivalentes, y por tanto, solo se escriben las tres reglas anteriores para generalizar todos los casos.

Ejercicio

Suponga que el tiempo que tarda una serie financiera en cumplir un ciclo, es una variable aleatoria continua con función de densidad de probabilidad dada por \[\begin{align*} f(x)=30x^2(1-x)^2 \quad \quad 0<x<1 \end{align*}\] siendo \(X\) una variable aleatoria que representa el tiempo en horas que tarda la serie financiera en cumplir un ciclo. A partir de dicha función

  1. Calcule la función de distribución acumulada \(F(x)\).
  2. Calcule la probabilidad de que el tiempo que tarda la serie financiera en cumplir un ciclo, se encuentre entre \(30\) minutos y \(50\) minutos, mediante el uso de \(F(x)\).

Solución

  1. Para encontrar la función de distribución acumulada a partir de una función de densidad de probabilidad, es necesario realizar la integral de la función de densidad, de la forma \[\begin{align*} F(x)& = \int_{-\infty}^x f(t)dt \\ & = \int_{-\infty}^0 0dt + \int_{0}^x 30t^2(1-t)^2 dt \\ & = 30\int_{0}^{x} t^2-2t^3+t^4\; dt \\ & = 30\left(\frac{t^3}{3} - \frac{2t^4}{4} + \frac{t^5}{5} \right)\Bigg|^{x}_{0} \\ & = 30\left[\left(\frac{x^3}{3} - \frac{x^4}{2} + \frac{x^5}{5} \right) - \left(\frac{0^3}{3} - \frac{0^4}{2} + \frac{0^5}{5} \right)\right] \\ F(x)& = 30\left(\frac{x^3}{3} - \frac{x^4}{2} + \frac{x^5}{5} \right) \end{align*}\]
  2. Dado que el interés es calcular la probabilidad de que el tiempo que tarda la serie financiera en cumplir un ciclo, se encuentre entre \(30\) minutos y \(50\) minutos, entonces se tendrá que la probabilidad de interés, en horas, es la siguiente \[\begin{align*} \mathbb{P}(0.5 < X < 0.8333) \end{align*}\] Entonces, siguiendo las reglas anteriormente expuestas, dicha probabilidad puede calcularse mediante \[\begin{align*} \mathbb{P}(0.5 < X < 0.8333) & = F(0.8333) - F(0.5) \\ & = 30\left(\frac{0.8333^3}{3} - \frac{0.8333^4}{2} + \frac{0.8333^5}{5} \right) - 30\left(\frac{0.5^3}{3} - \frac{0.5^4}{2} + \frac{0.5^5}{5} \right) \\ & = 0.4645 \end{align*}\] y por tanto, se tendrá que la probabilidad de que el tiempo que tarde la serie financiera en cumplir un ciclo estará entre \(30\) minutos y \(50\) minutos, es de \(46.45\%\).