Métodos de muestreo

Métodos probabilísticos

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño $n$ tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables.

Muestreo aleatorio simple (MAS)

El muestreo aleatorio simple es un procedimiento estadístico a partir del cual se selecciona, sin reemplazo, una muestra de tamaño $n$ de una población de tamaño $N$ unidades, garantizando que cada muestra de tamaño $n$ tenga a misma probabilidad de ser seleccionada.

En la práctica, cuando se emplea este tipo de muestreo, las unidades muestrales deben ser seleccionadas una a una, en donde, inicialmente, las unidades muestrales deben ser enumeradas de $1$ a $N$, con el fin de generar posteriormente, $n$ números aleatorios por algún algoritmo de aleatorización. Éstos números aleatorios pueden ser generados mediante el programa R, Excel, tablas de números aleatorios, calculadora, etc.

Adicionalmente, para emplear este método se requiere que las estimaciones de interés se refiera a toda la población objetivo y no a subconjuntos o subpoblaiones de la misma, de tal forma que dicha población objetivo, tenga un comportamiento homogeneo con respecto a las características de interés.

Estimación de parámetros de la población

Estimación de la media poblacional $\mu$

Cómo se vió en cursos tales como probabilidad e inferencia estadística, un estimador natural para la media poblacional $\mu$, es el obtenido mediante la media muestral $\bar{Y}$, el cual se calcula a partir de una muestra $Y_1, Y_2, \ldots, Y_n$, la cual representa los valores observados de una variable de interés, tal que \begin{align*} \bar{Y} = \frac{1}{n} \sum_{i=1}^n y_i \end{align*}

Además, como se mencionó también en dichos cursos, el estimador $\bar{Y}$ es un estimador puntual del parámetro poblacional $\mu$, lo cual hace que el valor calculado mediante $\bar{Y}$, no capturará con exactitud el valor real de $\mu$, y por tanto, se hace necesario realizar una estimación por intervalo para $\mu$, con el fin de garantizar, con un nivel de confianza $1-\alpha$, que el valor verdadero de $\mu$ se encuentre dentro de los límites inferior y superior del intervalo.

Ahora bien, con el fin de construir un intervalo de confianza para $\mu$, se requiere entonces, determinar el límite estimado del error de estimación. Y para ello, se hace necesario definir la varianza del estimador $\bar{Y}$.

Note que a partir del estimador de $\bar{Y}$ es posible demostrar que éste es un estimador insesgado tal que \begin{align*} \mathbb{E}(\bar{Y}) = \mu \end{align*} De forma similar, es posible encontrar la varianza del estimador, el cual se define como \begin{align*} Var(\bar{Y}) = \frac{\sigma^2}{n}\left(\frac{N-n}{N-1}\right) \end{align*} siendo el término $\frac{N-n}{N-1}$ conocido como factor de corrección para poblaciones finitas cuando la varianza $\sigma^2$ es conocida.

Además, como la varianza poblacional $\sigma^2$ no se conoce generalmente, se hace necesario definir un estimador insesgado $\hat{\sigma}^2$, el cual se emplea para el posterior cálculo de la $Var(\bar{Y})$. Para encontrar el estimador $\hat{\sigma}^2$, se emplea el hecho de que \begin{align*} \mathbb{E}(S^2) = \frac{N}{N-1}\sigma^2 \end{align*} siendo $S^2$ definido como \begin{align*} S^2 = \frac{1}{N-1}\sum_{i=1}^N(y_i - \mu)^2 \end{align*} lo cual da como resultado que un estimador insesgado para $\sigma^2$, definido como $\hat{\sigma}^2$, esté dado por \begin{align*} \hat{\sigma}^2 = \frac{N-1}{N}S^2 \end{align*}

Del resultado anterior, es posible observar que la varianza de $\hat{Y}$ se podrá reescribir como \begin{align*} Var(\bar{Y}) = \frac{\hat{\sigma}^2}{n}\left(\frac{N-n}{N-1}\right) = \frac{N-1}{N}\frac{S^2}{n}\left(\frac{N-n}{N-1}\right) \end{align*} lo cual, luego de cancelar términos, genera la ecuación final para el cálculo de la varianza de $\bar{Y}$, tal que \begin{align*} Var(\bar{Y}) = \frac{S^2}{n}\left(\frac{N-n}{N}\right) \end{align*}

donde $\frac{N-n}{N}$ se conoce como el factor de corrección para poblaciones finitas, cuando se emplea el estimador insesgado $S^2$. Es de anotar, que si el tamaño poblacional tiende a infinito, es decir, si $N\to \infty$, y el tamaño poblacional, es mucho más grande que el tamaño de la muestra, es decir, $N>>n$ entonces se tendrá que el factor de corrección para poblaciones finitas será \begin{align*} \lim_{N\to\infty}\frac{N-n}{N}\to 1 \end{align*} y por consigiuente, este factor podrá omitirse.

Intervalos de confianza para la media poblacional

Ahora bien, una vez calculada la media y varianza muestral, será posible estimar los límites del error de estimación para $\mu$. En donde, si $n>30$ el límite del error de estimación estará dado por \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\bar{Y})} \\ & = Z_{\alpha/2}\sqrt{\frac{S^2}{n}\frac{N-n}{N}} \end{align*} junto a su intervalos de confianza del $(1-\alpha)\times100\%$ \begin{align*} \bar{Y} \pm Z_{\alpha/2}\sqrt{\frac{S^2}{n}\frac{N-n}{N}} \end{align*} y si $n\leq 30$ el límite del error de estimación estará dado por \begin{align*} B & = t_{\alpha/2, n-1}\sqrt{Var(\bar{Y})} \\ & = t_{\alpha/2, n-1}\sqrt{\frac{S^2}{n}\frac{N-n}{N}} \end{align*} y su intervalos de confianza del $(1-\alpha)\times100\%$ será \begin{align*} \bar{Y} \pm t_{\alpha/2, n-1}\sqrt{\frac{S^2}{n}\frac{N-n}{N}} \end{align*}

Selección del tamaño de muestra para la media poblacional $\mu$

Una vez definido el límite del error de estimación $B$ y el nivel de confianza $1-\alpha$ por el investigador para estimar $\mu$, se busca cual debe ser el tamaño de la muestra $n$, que debe tomarse de la población $N$, para garantizar que el límite del error de estimación no exceda a una cantidad específica $B$. Para ello, es posible despejar de la expresión \begin{align*} B = Z_{\alpha/2}\sqrt{Var(\bar{Y})} = Z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}\frac{N-n}{N-1}} \end{align*} el valor $n$ con el cual se garantiza con un nivel de confianza $1-\alpha$ que el límite del error de estimación no excederá $B$, tal que \begin{align*} \lceil n\rceil = \frac{\sigma^2N}{\frac{B^2}{Z_{\frac{\alpha}{2}}^2}(N-1)+\sigma^2} \end{align*}

dicha expresión puede ser reescrita como \begin{align*} \lceil n\rceil = \frac{1}{\frac{1}{N}+\frac{N-1}{N}\frac{1}{n_0}} \quad \text{ con }\quad n_0 = \frac{Z_{\frac{\alpha}{2}}^2\sigma^2}{B^2} \end{align*}

donde:
$N$ es el número de individuos en la población
$\sigma^2$ es la varianza poblacional de la variable de interés
$B$ es el límite del error de estimación para la media poblacional
$1-\alpha$ es el nivel de confianza, tal que $\mathbb{P}(|\hat{\mu}-\mu|\leq B)= 1-\alpha$
$n_0$ es el tamaño de la muestra cuando la población es infinita.

De no conocerse la varianza poblacional $\sigma^2$, ésta puede ser reemplazada por su estimador $\hat{\sigma}^2=\frac{N-1}{N}S^2$.

Estimación del total poblacional $\tau$

Por su parte, para el cálculo de un estimador para el valor total de la población, el cuál está relacionado con $\mu$, se tendrá que \begin{align*} \tau = N\mu \end{align*} en donde, dado que $\mu$ no es conocido, entonces, un estimador para $\tau$, a partir del estimador de $\hat{\mu}$, será de la forma \begin{align*} \hat{\tau} = N\hat{\mu} = N\bar{Y} \end{align*} con una varianza asociada de la forma \begin{align*} Var(\hat{\tau}) = N^2Var(\hat{\mu}) =N^2Var(\bar{Y}) \end{align*} la cual, al reemplazar $Var(\bar{Y})$ por la forma previamente presentada, se tendrá que \begin{align*} Var(\hat{\tau}) = N^2\frac{S^2}{n}\frac{N-n}{N} \end{align*}

Intervalos de confianza para el total poblacional

A partir de éstos valores, es posible estimar los límites para los errores de estimación, los cuales estarán dados para $n>30$ por \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\hat{\tau})} \\ & = Z_{\alpha/2}\sqrt{N^2\frac{S^2}{n}\frac{N-n}{N}} \end{align*} en donde, el intervalos de confianza del $(1-\alpha)\times100\%$ se definirá como \begin{align*} \hat{\tau} \pm Z_{\alpha/2}\sqrt{N^2\frac{S^2}{n}\frac{N-n}{N}} \end{align*} Similarmente para el caso de $n\leq30$, el error de estimación es dado por \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\hat{\tau})} \\ & = t_{\alpha/2,n-1}\sqrt{N^2\frac{S^2}{n}\frac{N-n}{N}} \end{align*} junto a su intervalo de confianza del $(1-\alpha)\times100\%$ \begin{align*} \hat{\tau} \pm t_{\alpha/2,n-1}\sqrt{N^2\frac{S^2}{n}\frac{N-n}{N}} \end{align*}

Selección del tamaño de muestra para el total poblacional $\tau$

Para la selección del tamaño de muestra $n$, cuando el parámetro de interés es el total poblacional $\tau$, se realiza el mismo procedimiento descrito para el tamaño de muestra para la media poblacional $\mu$, en donde, el investigador debe definir el límite del error de estimación $B$ y el nivel de confianza $1-\alpha$, y a partir de la ecuación de $B$ para $\tau$, \begin{align*} B = Z_{\alpha/2}\sqrt{Var(\hat{\tau})} = Z_{\alpha/2}\sqrt{N^2\frac{\sigma^2}{n}\frac{N-n}{N-1}} \end{align*} es posible despejar la ecuación para $n$, con la cual se puede garantizar que el límite del error de estimación no exceda a una cantidad específica $B$, tal que \begin{align*} \lceil n\rceil = \frac{\sigma^2N}{\frac{B^2}{Z_{\frac{\alpha}{2}}^2N^2}(N-1)+\sigma^2} \end{align*}

dicha expresión puede ser reescrita como \begin{align*} \lceil n\rceil = \frac{1}{\frac{1}{N}+\frac{N-1}{N^3}\frac{1}{n_0}} \quad \quad n_0 = \frac{Z_{\frac{\alpha}{2}^2}\sigma^2}{B^2} \end{align*}

donde:
$N$ es el número de individuos en la población.
$\sigma^2$ es la varianza poblacional de la variable de interés.
$B$ es el límite del error de estimación para el total poblacional.
$1-\alpha$ es el nivel de confianza, tal que $\mathbb{P}(|\hat{\mu}-\mu|\leq B)= 1-\alpha$.
$n_0$ es el tamaño de la muestra cuando la población es infinita.

De no conocerse la varianza poblacional $\sigma^2$, ésta puede ser reemplazada por su estimador $\hat{\sigma}^2=\frac{N-1}{N}S^2$.

Estimación de la proporción poblacional $p$

Para el caso de la proporción poblacional, considere que $Y_i$ es una variable dicotómica, tal que \begin{align*} Y_i = \begin{cases} 1, \quad \text{ si la unidad } i \text{ cumple con el atributo de interés} \\ 0, \quad \text{ si la unidad } i \text{ no cumple con el atributo de interés} \end{cases} \end{align*}

En tal caso, la proporción poblacional $p$, representará a la proporción de individuos que cumplen con el atributo de interés. Ahora bien, sea $Y_1, Y_2, \ldots, Y_n$ los valores obtenidos a partir de una muestra aleatoria de tamaño $n$, entonces se tendrá que un estimador insesgado para la proporción poblacional $p$ estará dado por \begin{align*} \hat{p} = \frac{\sum_{i=1}^ny_i}{n} = \frac{\text{Número de individuos que poseen el atributo}}{\text{Número de unidades en la muestra}} \end{align*}

y su varianza se definirá como \begin{align*} Var(\hat{p}) = \frac{\hat{p}(1-\hat{p})}{n-1}\frac{N-n}{N} \end{align*}

Intervalos de confianza para la proporción poblacional

A partir de éstos valores, es posible construir los respectivos intervalos de confianza para el caso de la proporción poblacional, en donde, se tendrá que si $n>30$, el límite del error de estimación estará dado por \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\hat{p})} \\ & = Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n-1}\frac{N-n}{N}} \end{align*}

siendo el intervalo de confianza del $100(1-\alpha)\%$ de confianza dado por \begin{align*} \hat{p} \pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n-1}\frac{N-n}{N}} \end{align*}

y si $n\leq30$, el límite del error de estimación se define como \begin{align*} B & = t_{\alpha/2,n-1}\sqrt{Var(\hat{p})} \\ & = t_{\alpha/2,n-1}\sqrt{\frac{\hat{p}(1-\hat{p})}{n-1}\frac{N-n}{N}} \end{align*}

junto a su correspondiente intervalo de confianza del $100(1-\alpha)\%$ de confianza \begin{align*} \hat{p} \pm t_{\alpha/2,n-1}\sqrt{\frac{\hat{p}(1-\hat{p})}{n-1}\frac{N-n}{N}} \end{align*}

Selección del tamaño de muestra para la proporción poblacional $p$

Para el caso de la proporción poblacional $p$, la selección del tamaño de muestra $n$, se hace similarmente, mediante la selección por parte del investigador del límite del error de estimación $B$ y el nivel de confianza $1-\alpha$, y al reemplazar la varianza poblacional por $\sigma^2 = p(1-p)$.

De lo anterior se obtiene entonces que el tamaño de mustra $n$ que permite garantizar que el limite del error de estimación no exceda a una cantidad específica $B$, estará dada por \begin{align*} \lceil n\rceil = \frac{p(1-p)N}{\frac{B^2}{Z_{\frac{\alpha}{2}}^2}(N-1)+p(1-p)} \end{align*}

donde:
$N$ es el número de individuos en la población.
$p$ es la proporción poblacional de individuos que cumplen con el atributo de interés.
$B$ es el límite del error de estimación para la proporción poblacional.
$1-\alpha$ es el nivel de confianza, tal que $\mathbb{P}(|\hat{\mu}-\mu|\leq B)= 1-\alpha$
$n_0$ es el tamaño de la muestra cuando la población es infinita.

De no conocerse la proporción poblacional $p$, ésta puede ser reemplazada por su estimador $\hat{p}$.