Jorge Iván Pérez

Métodos de muestreo

Muestreo aleatorio estratificado (MAE)

Es una técnica de muestreo mediante la cual se obtiene una muestra a partir la segmentación o separación de los elementos de una población en grupos mutuamente excluyentes, denotados como estratos. Posteriormente, a partir de la segmentación realizada, se realiza el muestreo de cada estrato, mediante la técnica de MAS, independiente.

Para emplear este método se requiere que la población objetivo, tenga un comportamiento homogeneo dentro de cada uno de los $L$ estratol, y un comportamiento heterogeneo entre estratos, con respecto a las características de interés.

El objetivo del método de MAE, será maximizar la información obtenida o minimizar el valor del límite del error de estimación $B$ , para cada una de los estratos, teniendo en cuenta la variabilidad de la población cuando ésta debido a que ésta no posee un comportamiento homogeneo, además de obtener estimaciones de los parámetros poblacionales de interés para cada uno de los estratos individualmente.

En la práctica, cuando se emplea este tipo de muestreo, se debe especificar claramente cada uno de los estratos, así como el estrato en la cual se ubica cada unidad muestral. Adicionalmente, se debe seleccionar la muestra de cada estrato de forma independiente, mediante un MAS Finalmente, se debe asegurar la independencia en la selección de MAS de cada uno de los estratos.

Estimación de parámetros de la población

Estimación del total de la población $\tau$

Sea $\tau_i$ el total asociado al i-ésimo estrato, con $i = 1,2,\ldots, L$ , con $L$ el número de estratos. Entonces, se tendrá que el total poblacional $\tau$ estará dado por \begin{align*} \tau = \sum_{i=1}^L \tau_i \end{align*}

Tanto $\tau$ como $\tau_i$ son valores generalmente desconocidos, lo cual hace que se requieran estimadores para cada uno de ellos. El estimador para el total del i-ésimo estrato $\tau_i$ estará dado por la expresión \begin{align*} \hat{\tau_i} = N_i \bar{Y}_i \end{align*}

para $i = 1,2, \ldots, L$ . Como se observa, este estimador está dado por el total de individuos pertenecientes al i-ésimo estrato $N_i$ , y el estimador $\bar{Y}_i$ del promedio poblacional del i-ésimo estrato $\mu_i$ .

Dado lo anterior, se tendrá que un estimador puntual para el parámetro del total de toda la población bajo estudio $\tau$ será \begin{align*} \hat{\tau}_{t} = \sum_{i=1}^L \hat{\tau}_i = \sum_{i=1}^L N_i \bar{Y}_i \end{align*}

Ahora, dado que el MAE requiere que haya independencia entre los MAS de los estratos, se tendrá que la varianza del estimador $\hat{\tau}$ será de la forma \begin{align*} Var(\hat{\tau}) & = Var\left(\sum_{i=1}^L \hat{\tau}_i \right) \\ & = \sum_{i=1}^L Var(N_i \bar{Y}_i) \\ & = \sum_{i=1}^L N_i^2Var(\bar{Y}_i) \\ & = \sum_{i=1}^L N_i^2 \frac{\sigma^2_i}{n_i} \frac{N_i-n_i}{N_i-1} \end{align*}

Dado que $\sigma^2_i$ es usualmente desconocido, se emplea el estimador $\hat{\sigma}^2_i = \frac{N_i-1}{N_i}S_i^2$ , dando como resultado el estimador insesgado para $Var(\hat{\tau})$ , tal que \begin{align*} Var(\hat{\tau}) & = \sum_{i=1}^L N_i^2 \frac{S^2_i}{n_i} \frac{N_i-n_i}{N_i} \end{align*}

Intervalos de confianza para el total de la población

A partir del estimadores para el total de la población $\hat{\tau}$ y la varianza del estimador $Var(\hat{\tau})$ , es posible encontrar el límite de los errores de estimación $B$ , en donde, para el caso en que $n>30$ , el límite de los errores de estimación se define como \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\hat{\tau})} \\ & = Z_{\alpha/2}\sqrt{\sum_{i=1}^L N_i^2 \frac{S^2_i}{n_i}\frac{N_i-n_i}{N_i}} \end{align*} en donde, el intervalos de confianza del $(1-\alpha)100\%$ se definirá como \begin{align*} \hat{\tau} \pm Z_{\alpha/2}\sqrt{\sum_{i=1}^L N_i^2 \frac{S^2_i}{n_i}\frac{N_i-n_i}{N_i}} \end{align*} Mientras que, para el caso de $n\leq30$ , el límite de los errores de estimación se define como \begin{align*} B & = t_{\alpha/2,n-1}\sqrt{Var(\hat{\tau})} \\ & = t_{\alpha/2,n-1}\sqrt{\sum_{i=1}^L N_i^2 \frac{S^2_i}{n_i}\frac{N_i-n_i}{N_i}} \end{align*} junto a su intervalo de confianza del $(1-\alpha)\times100\%$ \begin{align*} \hat{\tau} \pm t_{\alpha/2,n-1}\sqrt{\sum_{i=1}^L N_i^2 \frac{S^2_i}{n_i}\frac{N_i-n_i}{N_i}} \end{align*}

Estimación de la media poblacional $\mu$

Basados en la definición del parámetro $\tau$ , es posible obtener una definición para la obtención del parámetro $\mu$ , ya que $\tau$ puede definirse como \begin{align*} \tau = N\mu \end{align*} y por tanto = Dado ésto, y el estimador del total de las poblaciones $\hat{\tau}$ , podremos obtener un estimador para la media poblacional, tal que \begin{align*} \hat{\mu} = \bar{Y}_t & = \frac{\hat{\tau}}{N} \\ & = \frac{1}{N}\sum_{i=1}^L N_i\bar{Y}_i \end{align*}

Entonces, como $\bar{Y}_t$ depende de $\hat{\tau}$ se puede calcular una expresión para la varianza de la media poblacional $Var(\bar{Y})$ , tal que \begin{align*} Var(\hat{\mu}) = Var(\bar{Y}_t) & = \frac{1}{N^2}Var(\hat{\tau}) \\ & = \sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{S_i^2}{n_i} \frac{N_i-n_i}{N_i} \end{align*}

Intervalos de confianza para la media poblacional

Una vez obtenida un estimador para la media poblacional y para la varianza de la media estimada, es posible presentar una expresión para el límites del error de estimación $B$ . Si $n>30$ el límite del error de estimación se define como \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\bar{Y})} \\ & = Z_{\alpha/2}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{S^2_i}{n_i} \frac{N_i-n_i}{N_i}} \end{align*} junto a su intervalos de confianza del $(1-\alpha)\times100\%$ \begin{align*} \bar{Y} \pm Z_{\alpha/2}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{S^2_i}{n_i} \frac{N_i-n_i}{N_i}} \end{align*} y si $n\leq 30$ el límite del error de estimación se define como \begin{align*} B & = t_{\alpha/2, n-1}\sqrt{Var(\bar{Y})} \\ & = t_{\alpha/2, n-1}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{S^2_i}{n_i} \frac{N_i-n_i}{N_i}} \end{align*} y su intervalos de confianza del $(1-\alpha)\times100\%$ será \begin{align*} \bar{Y} \pm t_{\alpha/2, n-1}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{S^2_i}{n_i} \frac{N_i-n_i}{N_i}} \end{align*}

Estimación de la proporción poblacional $p$

Para encontrar un estimador para la proporción poblacional $p$ , considere a $A$ : el total de individuos que cumplen con el atributo en la población y a $A_i$ : el total de individuos que cumplen con el atributo en el i-ésimo estrato, para $i=1,2, \ldots, L$ , entonces se tendrá que $A$ puede expresarse como \begin{align*} A = \sum_{i=1}^L A_i \end{align*} El cual, al igual que los otros parámetros de la población no es generalmente conocido, y por tanto, un estimador insesgado para éste puede definirse como \begin{align*} \hat{A} = \sum_{i=1}^L \hat{A_i} = \sum_{i=1}^L N_i\hat{p}_i \end{align*} siendo $\hat{p}_i$ la proporción estimada de los individuos en la muestra del i-ésimo estrato que cumple con el atributo de interés. En consecuencia, el estimador $\hat{p}_i$ puede calcularse como \begin{align*} \hat{p}_i = \frac{a_i}{n_i} = \frac{\text{Número de individuos que poseen el atributo en el i-ésimo estrato}}{\text{Número de unidades en la muestra pertenecientes al i-ésimo estrato}} \end{align*}

A partir de este estimador, y de forma similar al método de muestreo aleatorio simple, es posible definir la varianza para la proporción estimada $Var(p)$ , tal que \begin{align*} Var(\hat{A}) & = Var\left(\sum_{i=1}^L \hat{A_i} \right) = Var\left(\sum_{i=1}^L N_i\hat{p}_i \right) \\ & = \sum_{i=1}^L Var\left(N_i\hat{p}_i \right) \\ & = \sum_{i=1}^L N_i^2Var\left(\hat{p}_i \right) \\ & = \sum_{i=1}^L N_i^2 \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i} \end{align*}

Ahora, basados en la definición del parámetro $A$ , es posible obtener una definición para la obtención del parámetro $p$ , ya que $A$ puede definirse como \begin{align*} A = Np \end{align*} y por tanto $p$ puede reescribirse como \begin{align*} p = \frac{A}{N} \end{align*}

Dado ésto, y que el estimador del total de individuos que cumplen con el atributo en la población $\hat{A}$ , podremos obtener un estimador para la proporción poblacional, tal que \begin{align*} \hat{p}_t & = \frac{\hat{A}}{N} \\ & = \frac{1}{N}\sum_{i=1}^L N_i\hat{p}_i \end{align*}

Entonces, como $\hat{p}_t$ depende de $\hat{A}$ se puede calcular una expresión para la varianza de la proporción poblacional $Var(\hat{p})$ , tal que \begin{align*} Var(\hat{p}_t) & = \frac{1}{N^2}Var(\hat{A}) \\ & = \sum_{i=1}^L\frac{N_i^2}{N^2} \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i} \\ & = \sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i} \end{align*}

Intervalos de confianza para la proporción poblacional

A partir de los valores anteriores, es posible calcular los intervalos de confianza para el caso de la proporción poblacional $p$ , en donde, se tendrá que si $n>30$ , el límite del error de estimación estará dado por \begin{align*} B & = Z_{\alpha/2}\sqrt{Var(\hat{p})} \\ & = Z_{\alpha/2}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i}} \end{align*}

siendo el intervalo de confianza del $100(1-\alpha)\%$ de confianza dado por \begin{align*} \hat{p} \pm Z_{\alpha/2}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i}} \end{align*}

y si $n\leq30$ , el límite del error de estimación se define como \begin{align*} B & = t_{\alpha/2,n-1}\sqrt{Var(\hat{p})} \\ & = t_{\alpha/2,n-1}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i}} \end{align*}

junto a su correspondiente intervalo de confianza del $100(1-\alpha)\%$ de confianza \begin{align*} \hat{p} \pm t_{\alpha/2,n-1}\sqrt{\sum_{i=1}^L\left(\frac{N_i}{N}\right)^2 \frac{p_i(1-p_i)}{n_i-1}\frac{N_i-n_i}{N_i}} \end{align*}

Selección del tamaño de muestra para los parámetros $\mu$ , $\tau$ y $p$

La cantidad de información de una muestra depende de $n$ , ya que $Var(\bar{Y}_t)$ disminuye cuando $n$ aumenta. El objetivo es encontrar un método para hallar n con el fin de obtener una cantidad fija de información para estimar un parámetro poblacional.

Suponga que para la estimación de $\bar{Y}_t$ se decide que el límite del error de estimación estará dentro de $B$ unidades de la media poblacional, con un nivel de confianza del $100(1-\alpha)\%$ , es decir \begin{align*} \mathbb{P}(|\mu-\bar{Y}_t|\leq B)\approx 1-\alpha \end{align*} de donde se tiene que \begin{align*} B=Z_{\frac{\alpha}{2}}\sqrt{Var(\bar{Y}_t)} \end{align*} lo cual, al despejar $Var\bar{Y}_t$ da como resultado \begin{align*} Var(\bar{Y}_t)=\frac{B^2}{Z_{\frac{\alpha}{2}}} \end{align*} de la expresión anterior, se puede observar que $Var(\bar{Y}_t)$ depende de la varianza de cada uno de los estratos $\sigma^2_1,\sigma^2_2, \ldots,\sigma^2_L$

Lo cual hace que no sea posible despejar facilmente el término $n$ . Debido a lo anterior, y con el proposito de resolver dicho problema, es a partir de la relación existente entre $n$ y $n_i$ , ya que es posible asumir que $n_i= w_i n$ , para $i=1,2,\ldots,L$ , en donde $w_i$ hace referencia al ponderador del estrato $i$ . Así se tendrá entonces que \begin{align*} \frac{B^2}{Z_{\frac{\alpha}{2}}} & = Var(\bar{Y}_t)=\sum_{i=1}^L \left(\frac{N_i}{N}\right)^2\frac{\sigma^2_i}{n_i}\frac{N_i-n_i}{N_i-1} \\ \frac{B^2}{Z_{\frac{\alpha}{2}}} & = \sum_{i=1}^L \left(\frac{N_i}{N}\right)^2\frac{\sigma^2_i}{w_in}\frac{N_i-w_in}{N_i-1} \\ n\frac{B^2}{Z_{\frac{\alpha}{2}}} & = \sum_{i=1}^L \left(\frac{N_i}{N}\right)^2\frac{\sigma^2_i}{w_i}\frac{N_i}{N_i-1} - \sum_{i=1}^L \left(\frac{N_i}{N}\right)^2 \frac{\sigma^2_in}{N_i-1} \\ n\frac{B^2}{Z_{\frac{\alpha}{2}}} + \sum_{i=1}^L \left(\frac{N_i}{N}\right)^2 \frac{\sigma^2_in}{N_i-1} & = \sum_{i=1}^L \left(\frac{N_i}{N}\right)^2\frac{\sigma^2_i}{w_i}\frac{N_i}{N_i-1} \\ n & = \frac{\sum_{i=1}^L \left(\frac{N_i}{N}\right)^2\frac{\sigma^2_i}{w_i}\frac{N_i}{N_i-1}}{\frac{B^2}{Z_{\frac{\alpha}{2}}} + \sum_{i=1}^L \left(\frac{N_i}{N}\right)^2 \frac{\sigma^2_i}{N_i-1}} \\ n & = \frac{\sum_{i=1}^L N_i^2\frac{\sigma^2_i}{w_i}N_i}{\frac{B^2}{Z_{\frac{\alpha}{2}}}N^2(N_i-1) + \sum_{i=1}^L N_i^2 \sigma^2_i} \end{align*} Entonces si definimos $D=\frac{B^2}{Z_{\frac{\alpha}{2}}}$ se tendrá que el tamaño de muestra $n$ estará dado por \begin{align*} n & =\frac{\sum_{i=1}^L N_i^2\frac{\sigma^2_i}{w_i}N_i}{DN^2(N_i-1) + \sum_{i=1}^L N_i^2 \sigma^2_i} \end{align*}

Finalmente, partiendo de esta ecuación, se tendrá que si se desea realizar el cálculo del tamaño de la muestra para el parámetro poblacional $\tau$ , es cuestión de hacer a $D$ igual a \begin{align*} D=\frac{B^2}{Z_{\frac{\alpha}{2}}N^2} \end{align*}

Si se desea realizar el cálculo del tamaño de la muestra para el caso del parámetro poblacional $\mu$ se tendrá de $D$ será de la forma \begin{align*} D=\frac{B^2}{Z_{\frac{\alpha}{2}}} \end{align*}

y si se desea realizar el cálculo del tamaño de la muestra cuando el parámetro de interés es $p$ , se tendrá que $D$ será de la forma \begin{align*} D=\frac{B^2}{Z_{\frac{\alpha}{2}}} \end{align*} en donde, para este caso, el parámetro $\sigma^2_i = p_i(1-p_i)$ .

Nota 1: Si el parámetro $\sigma^2$ no es conocido, recuerde que un estimador $\hat{\sigma}^2_i=\frac{N_i-1}{N_i}S^2_i$ .

Nota 2: Si no se tiene información previa sobre la variable de estudio, pero se conocer la amplitud de las observaciones dentro de cada estrato, es posible usar la siguiente aproximación para la desviación estándar de cada estrato \begin{align*} \sigma_i = \frac{R_i}{6} \end{align*} donde $R_i$ representa el rango de las observaciones y se calcula como \begin{align*} R_i = Y_{i_max} - Y_{i_min} \end{align*} Nota 3: Existen diferentes formas de determinar los ponderadores $w_i$ , los cuales se conocen como afijaciones o asignaciones de la muestra, y para la selección de la misma se deberá tener en cuenta lo siguientes criterios

El número de elementos en cada estrato afecta la cantidad de información en la muestra. 2. Se deben fijar tamaños de muestra grandes a estratos grandes.
Tener en cuenta la variabilidad de los estratos, a mayor variabilidad el tamaño de muestra debe ser mayor.
Si el costo de obtener una observación varía de un estrato a otro, se tomarán muestras pequeñas en estratos con costo alto con el fin de minimizar el costo.

Tipos de afijación o ponderadores $w_i$

El mejor esquema de afijación está influenciado por tres factores:

$N_i$ : # de unidades en cada estrato.
$\sigma^2_i$ : variabilidad de las observaciones dentro de cada estrato.
$c_i$ : Costo de obtener una observación en cada uno de los estratos.

definiremos ahora los tipos de afijación

1. Asignación óptima del tamaño de muestra

El objetivo es minimizar el costo para un valor fijo de $Var(\bar{Y}_t)$ o minimizar $Var(\bar{Y}_t)$ para un costo fijo. El valor de $n_i$ que se obtiene está dado por: \begin{align*} n_i = n\left[\frac{\frac{N_i\sigma_i}{\sqrt{c_i}}}{\frac{\sum_{k=1}^LN_k\sigma^2_k}{\sqrt{c_k}}}\right] \end{align*} entonces, dado que $n_i= nwi$ se tendrá que $w_i$ es igual a \begin{align*} w_i = \left[\frac{\frac{N_i\sigma_i}{\sqrt{c_i}}}{\frac{\sum_{k=1}^LN_k\sigma^2_k}{\sqrt{c_k}}}\right] \end{align*}

2. Asignación óptima de Neyman

Cuando los costos de obtener una unidad muestral en cada estrato es desconocida pero se pueden suponer iguales, es decir, $c_1 = c_2 = \ldots = c_L = c$ , se tendrá que la ecuación para el valor de $n_i$ será de la forma \begin{align*} n_i = n\left[\frac{N_i\sigma_i}{\sum_{k=1}^LN_k\sigma^2_k}\right] \end{align*} por tanto, se tendrá que $n_i= nwi$ , y en consecuencia $w_i$ será \begin{align*} w_i = \left[\frac{N_i\sigma_i}{\sum_{k=1}^LN_k\sigma^2_k}\right] \end{align*}

3. Asignación Proporcional

En este tipo de asignación, se usa cuando es posible suponer que los costos y las varianza son iguales de estrato a estrato, es decir, $c_1 = c_2 = \ldots = c_L = c$ y ` $\sigma^2_1 = \sigma^2_2 = \ldots = \sigma^2_L = \sigma^2$ , lo cual hará que el valor de $n_i$ sea de la forma \begin{align*} n_i = n\left[\frac{N_i}{\sum_{k=1}^LN_k}\right] \end{align*} dando por tanto que el valor $w_i$ sea de la forma \begin{align*} w_i = \left[\frac{N_i}{\sum_{k=1}^LN_k}\right] \end{align*} dada la realación $n_i = nw_i$