Medidas estadísticas
Caso de estudio
Suponga que se está interesado en observar la evolución en el desempeño
que tuvo un grupo de $10$
estudiantes en el curso de Estadística I.
Para ello se toma de referencia la nota obtenida en el primer y cuarto
parcial de la materia, obteniendo los siguientes resultados
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
---|---|---|---|---|---|---|---|---|---|---|
Parcial 1 | 2.7 | 4.0 | 3.1 | 2.7 | 2.9 | 1.3 | 2.6 | 2.8 | 3.3 | 2.1 |
Parcial 4 | 1.8 | 4.7 | 3.4 | 0.7 | 4.1 | 3.6 | 4.5 | 3.2 | 3.4 | 2.0 |
Medidas de localización
Estas medidas tienen por objetivo dividir un conjunto de datos ordenado
en partes iguales, entendidas estas como intervalos que contienen la
misma proporción de observaciones. Si se define
$x_{[1]}, x_{[2]}, \ldots, x_{[n]}$
, como un conjunto de $n$
observaciones ordenadas en forma creciente, entonces
Cuartil
Son los tres valores $(j=1,2,3)$
, que dividen a un conjunto de
datos ordenados en cuatro partes iguales. Para ello, es necesario
calcular inicialmente una variable $h_j$
de posicionamiento dado el
cuartil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{4} + 1 \quad \quad j=1,2,3 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del cuartil de
interés
\begin{align*} C_j=x_{[\lfloor h_j\rfloor} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,3 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Cuartil
En R puede calcularse los cuartiles de un conjunto de
observaciones mediante la función
quantile(datos, probs = c(0.25, 0.5, 0.75))
.
Ejercicio Caso de Estudio
Calcule los tres cuartiles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.
Solución Manual
Se presenta el cálculo del primer cuartil obtenido en el parcial \(1\). El cálculo de los demás cuartiles del parcial \(1\) y para el parcial \(4\) se dejan al estudiante.
Para realizar el cálculo de los cuartiles asociados a las notas obtenidas por los estudiantes en cada parcial, es necesario ordenar el total de notas obtenidas en orden ascendente, tal que para el parcial \(1\) se tendrá
Parcial 1 | 1.3 | 2.1 | 2.6 | 2.7 | 2.7 | 2.8 | 2.9 | 3.1 | 3.3 | 4.0 |
Ahora, dado que se tienen \(10\) observaciones, el variable de
posicionamiento \(h_j\) para el primer cuartil \((j=1)\) estará dado por
\[\begin{align*}
h_1 &= \frac{1(10-1)}{4} + 1 \\
&= 3.25
\end{align*}\]
En donde, al reemplazar este valor en la formula de cuartiles, con
\(j=1\), obtendremos
\[\begin{align*}
C_1 &= x_{\lfloor h_1\rfloor} + \left((h_1 - \lfloor h_1\rfloor) \times (x_{[\lfloor h_1\rfloor + 1]} - x_{\lfloor h_1\rfloor}) \right) \\
&= x_{\lfloor 3.25\rfloor} + \left((3.25 - \lfloor 3.25\rfloor) \times (x_{[\lfloor 3.25\rfloor + 1]} - x_{\lfloor 3.25\rfloor}) \right) \\
& = x_{[3]} + \left((3.25 - 3) \times (x_{[3+1]}-x_{[3]})\right) \\
&= x_{[3]} + \left(0.25 \times (x_{[4]}-x_{[3]})\right)
\end{align*}\]
Al reemplazar \(x_{[3]}\) y \(x_{[4]}\) por las notas del parcial \(1\),
que ocupan la posición \(3\) y \(4\) en el conjunto de observaciones
ordenadas, es decir, \(x_{[3]}=2.6\) y \(x_{[4]}=2.7\), darán como
resultado que el primer cuartil será igual a
\[\begin{align*}
C_1 &= 2.6 + \left(0.25 \times (2.7-2.6)\right)\\
&= 2.625
\end{align*}\]
Por tanto, se concluye que para las notas obtenidas en el parcial \(1\),
el \(25\%\) inferior de los estudiantes obtuvo una nota menor o igual a
\(2.625\), mientras que el \(75\%\) superior de los estudiantes obtuvo
notas mayores o iguales a \(2.625\).
Procedimiento e
interpretación similar se realiza para los demás cuartiles del parcial
\(1\), y para los tres cuartiles del parcial \(4\).
Ejercicio Caso de Estudio
Calcule los tres cuartiles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I con R.
Solución en R
Para realizar el cálculo de los cuartiles en R para las notas
obtenidas en los parciales \(1\) y \(4\), se emplea la función
quantile()
con el argumento probs = c(0.25, 0.5,
0.75)
, tal que
## Se calculan los cuartiles cada conjunto de datos
# Cuartiles Parcial 1
quantile(P1, probs = c(0.25, 0.5, 0.75))
25% 50% 75%
2.625 2.750 3.050
# Cuartiles Parcial 4
quantile(P4, probs = c(0.25, 0.5, 0.75))
25% 50% 75%
2.300 3.400 3.975
Quintil
Son los cuatro valores $(j=1,2,3,4)$
, que dividen a un conjunto de
datos ordenados en cinco partes iguales. Para ello, es necesario
calcular inicialmente una variable $h_j$
de posicionamiento dado el
quintil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{5} + 1 \quad \quad j=1,2,3,4 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del quintil de
interés
\begin{align*} Q_j=x_{[\lfloor h_j\rfloor} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,3,4 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Quintil
En R pueden calcularse los quintiles de un conjunto de
observaciones mediante la función
quantile(datos, probs = c(0.2, 0.4, 0.6, 0.8))
.
Ejercicio Caso de Estudio
Calcule los cuatro quintiles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.
Solución Manual
Se presenta el cálculo del tercer quintil obtenido en el parcial \(4\). El cálculo de los demás quintiles del parcial \(4\) y para el parcial \(1\) se dejan al estudiante.
Para realizar el cálculo de los quintiles asociados a las notas obtenidas por los estudiantes en cada parcial, es necesario ordenar el total de notas obtenidas en orden ascendente, tal que para el parcial \(4\) se tendrá
Parcial 4 | 0.7 | 1.8 | 2.0 | 3.2 | 3.4 | 3.4 | 3.6 | 4.1 | 4.5 | 4.7 |
Ahora, dado que se tienen \(10\) observaciones, el variable de
posicionamiento \(h_j\) para el cuarto quintil \((j=4)\) estará dado por
\[\begin{align*}
h_4 &= \frac{4(10-1)}{5} + 1 \\
&= 8.2
\end{align*}\]
En donde, al reemplazar este valor en la formula de quintiles, con
\(j=4\), obtendremos
\[\begin{align*}
Q_4 &= x_{\lfloor h_4\rfloor} + \left((h_4 - \lfloor h_1\rfloor) \times (x_{[\lfloor h_4\rfloor + 1]} - x_{\lfloor h_4\rfloor}) \right) \\
&= x_{\lfloor 8.2\rfloor} + \left((8.2 - \lfloor 8.2\rfloor) \times (x_{[\lfloor 8.2\rfloor + 1]} - x_{\lfloor 8.2\rfloor}) \right) \\
& = x_{[8]} + \left((8.2 - 8) \times (x_{[8+1]}-x_{[8]})\right) \\
&= x_{[8]} + \left(0.2 \times (x_{[9]}-x_{[8]})\right)
\end{align*}\]
Al reemplazar \(x_{[8]}\) y \(x_{[9]}\) por las notas del parcial \(4\),
que ocupan la posición \(8\) y \(9\) en el conjunto de observaciones
ordenadas, es decir, \(x_{[8]}=4.1\) y \(x_{[9]}=4.5\), darán como
resultado que el cuarto quintil será igual a
\[\begin{align*}
Q_4 &= 4.1 + \left(0.2 \times (4.5-4.1)\right)\\
&= 4.18
\end{align*}\]
En consecuencia, se concluye que para el parcial \(4\), el \(80\%\)
inferior de los estudiantes logró obtener una nota máxima de \(4.18\),
mientras que el \(20\%\) superior obtuvo notas de al menos \(4.18\).
Procedimiento e interpretación similar se realiza para los
demás quintiles del parcial \(4\), y para los cuatro quintiles del
parcial \(1\).
Ejercicio Caso de Estudio
Calcule los cuatro quintiles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I con R.
Solución en R
Para realizar el cálculo de los quintiles en R para las notas
obtenidas en los parciales \(1\) y \(4\), se emplea la función
quantile()
con el argumento probs = c(0.2, 0.4, 0.6,
0.8)
, tal que
## Se calculan los quintiles de cada conjunto de datos
# Quintiles Parcial 1
quantile(P1, probs = c(0.2, 0.4, 0.6, 0.8))
20% 40% 60% 80%
2.50 2.70 2.84 3.14
# Quintiles Parcial 4
quantile(P4, probs = c(0.2, 0.4, 0.6, 0.8))
20% 40% 60% 80%
1.96 3.32 3.48 4.18
Decil
Son los nueve valores $(j=1,2,\ldots,9)$
, que dividen a un
conjunto de datos ordenados en diez partes iguales. Para ello, es
necesario calcular inicialmente una variable $h_j$
de posicionamiento
dado el decil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{10} + 1 \quad \quad j=1,2,\dots,9 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del decil de
interés
\begin{align*} D_j=x_{[\lfloor h_j\rfloor} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,\dots,9 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Decil
En R pueden calcularse los deciles de un conjunto de
observaciones mediante la función
quantile(datos, probs = seq(0.1, 0.9, 0.1))
.
Ejercicio Caso de Estudio
Calcule los nueve deciles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.
Solución Manual
Similar al caso de cuartil y quintil, se presenta el cálculo de un solo
Decil, debido a que el cálculo de los demás posee un procedimiento
similar, y en consecuencia, se deja dicho cálculo al estudiante.
En este caso, se decide realizar el cálculo para el sexto Decil
\((j=6)\), asociado a na nota obtenida por los estudiantes en el parcial
\(1\). Para ello es necesario ordenar el total de notas obtenidas el
parcial \(1\) de forma ascendente, tal que
Parcial 1 | 1.3 | 2.1 | 2.6 | 2.7 | 2.7 | 2.8 | 2.9 | 3.1 | 3.3 | 4.0 |
Donde al tener \(10\) observaciones, se tendrá que la variable de
posicionamiento \(h_j\) para el sexto decil \((j=6)\) estará dado por
\[\begin{align*}
h_6 &= \frac{6(10-1)}{10} + 1 \\
&= 6.4
\end{align*}\]
Por tanto, al reemplazar este valor en la formula de deciles, siendo
\(j=6\) se tendrá
\[\begin{align*}
D_6 &= x_{\lfloor h_6\rfloor} + \left((h_6 - \lfloor h_6\rfloor) \times (x_{[\lfloor h_6\rfloor + 1]} - x_{\lfloor h_6\rfloor}) \right) \\
&= x_{\lfloor 6.4\rfloor} + \left((6.4 - \lfloor 6.4\rfloor) \times (x_{[\lfloor 6.4\rfloor + 1]} - x_{\lfloor 6.4\rfloor}) \right) \\
&= x_{[6]} + \left((6.4 - 6) \times (x_{[6+1]}-x_{[6]})\right) \\
&= x_{[6]} + \left(0.4 \times (x_{[7]}-x_{[6]})\right)
\end{align*}\]
Reemplazando \(x_{[6]}\) por \(2.8\) y \(x_{[7]}\) por \(2.9\), es
decir, la sexta y séptima nota más alta obtenida en el primer parcial,
se tendrá que el sexto Decil estará dado por
\[\begin{align*}
D_6 &= 2.8 + \left(0.4 \times (2.9-2.8)\right)\\
&= 2.84
\end{align*}\]
De lo anterior, se puede concluir que para el parcial \(1\), se tendrá
que el \(60\%\) inferior de los estudiantes obtuvo una nota máxima de
\(2.84\), mientras que el \(40\%\) superior obtuvo notas mínima de
\(2.84\).
El procedimiento e interpretación aquí presentada,
es similar al que se debe realizar para los demás deciles, tanto del
parcial \(1\), como del parcial \(4\).
Ejercicio Caso de Estudio
Calcule los nueve deciles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual con R.
Solución en R
Para realizar el cálculo de los deciles en R para las notas
obtenidas en los parciales \(1\) y \(4\), se emplea la función
quantile()
con el argumento probs = seq(0.1, 0.9,
0.1)
, tal que
## Se calculan deciles de cada conjunto de datos
# Deciles Parcial 1
quantile(P1, probs = seq(0.1, 0.9, 0.1))
10% 20% 30% 40% 50% 60% 70% 80% 90%
2.02 2.50 2.67 2.70 2.75 2.84 2.96 3.14 3.37
# Deciles Parcial 4
quantile(P4, probs = seq(0.1, 0.9, 0.1))
10% 20% 30% 40% 50% 60% 70% 80% 90%
1.69 1.96 2.84 3.32 3.40 3.48 3.75 4.18 4.52
Percentil
Son los noventa y nueve valores $(j=1,2,\ldots,99)$
, que dividen a
un conjunto de datos ordenados en cien partes iguales. Para ello, es
necesario calcular inicialmente una variable $h_j$
de posicionamiento
dado el percentil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{100} + 1 \quad \quad j=1,2,\dots,99 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del percentil de
interés
\begin{align*} P_j=x_{[\lfloor h_j\rfloor} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,\dots,99 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Percentil
En R pueden calcularse los percentiles de un conjunto de
observaciones mediante la función
quantile(datos, probs = seq(0.01, 0.99, 0.01))
.
Ejercicio Caso de Estudio
Calcule los cien percentiles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, de forma manual.
Solución Manual
Para el cálculo de los percentiles, se decide presentar el cálculo del
trigésimo y tercero percentil \((j=33)\), obtenido en el parcial \(4\).
El cálculo de los demás percentiles se realizan de forma similar, tanto
para el parcial \(4\) como para el parcial \(1\), los cuales se dejan al
estudiante.
Para realizar el cálculo de dicho percentil, se
ordenan las notas obtenidas en el parcial \(4\) de menor a mayor, tal
que
Parcial 4 | 0.7 | 1.8 | 2.0 | 3.2 | 3.4 | 3.4 | 3.6 | 4.1 | 4.5 | 4.7 |
Con las notas ordenadas, se realiza el cálculo para la variable de
posicionamiento \(h_j\), con \(j=33\), dado que se posee un total de
\(10\) observaciones, tal que \[\begin{align*}
h_{33} &= \frac{33(10-1)}{100} + 1 \\
&= 3.97
\end{align*}\]
Al reemplazar el valor obtenido en la variable de posicionamiento, en la
formula de percentiles, con \(j=33\), obtendremos
\[\begin{align*}
P_{33} &= x_{\lfloor h_{33}\rfloor} + \left((h_{33} - \lfloor h_{33}\rfloor) \times (x_{[\lfloor h_{33}\rfloor + 1]} - x_{\lfloor h_{33}\rfloor}) \right) \\
&= x_{\lfloor 3.97\rfloor} + \left((3.97 - \lfloor 3.97\rfloor) \times (x_{[\lfloor 3.97\rfloor + 1]} - x_{\lfloor 3.97\rfloor}) \right) \\
& = x_{[3]} + \left((3.97 - 3) \times (x_{[3+1]}-x_{[3]})\right) \\
&= x_{[3]} + \left(0.97 \times (x_{[4]}-x_{[3]})\right)
\end{align*}\]
En donde, \(x_{[3]}=2.0\) y \(x_{[4]}=3.2\), son las notas que ocupan la
posición \(3\) y \(4\) en el conjunto de notas ordenadas en el parcial
\(4\). Finalmente, al reemplazar dichos valores en la ecuación de
percentiles se tendrá que
\[\begin{align*}
P_{33} &= 2.0 + \left(0.97 \times (3.2-2.0)\right)\\
&= 3.164
\end{align*}\]
De lo anterior, se podrá concluir que el \(33\%\) inferior de los
estudiantes logró obtener una nota menor o igual a \(3.164\) en el
cuarto parcial, mientras que el \(67\%\) superior logró obtener una nota
mínima de \(3.164\) en el cuarto parcial.
El procedimiento e
interpretación aquí presentada, se puede replicar para realizar el
cálculo de los demás percentiles asociados a los dos parciales
estudiados.
Ejercicio Caso de Estudio
Calcule los cien percentiles para las notas obtenida por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I con R.
Solución en R
Para realizar el cálculo de los percentiles en R para las notas
obtenidas en los parciales \(1\) y \(4\), se emplea la función
quantile()
con el argumento probs = seq(0.01, 0.99,
0.01))
, tal que
## Se calculan los percentiles de cada conjunto de datos
# Percentiles Parcial 1
quantile(P1, probs = seq(0.01, 0.99, 0.01))
1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12%
1.372 1.444 1.516 1.588 1.660 1.732 1.804 1.876 1.948 2.020 2.092 2.140
13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24%
2.185 2.230 2.275 2.320 2.365 2.410 2.455 2.500 2.545 2.590 2.607 2.616
25% 26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36%
2.625 2.634 2.643 2.652 2.661 2.670 2.679 2.688 2.697 2.700 2.700 2.700
37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48%
2.700 2.700 2.700 2.700 2.700 2.700 2.700 2.700 2.705 2.714 2.723 2.732
49% 50% 51% 52% 53% 54% 55% 56% 57% 58% 59% 60%
2.741 2.750 2.759 2.768 2.777 2.786 2.795 2.804 2.813 2.822 2.831 2.840
61% 62% 63% 64% 65% 66% 67% 68% 69% 70% 71% 72%
2.849 2.858 2.867 2.876 2.885 2.894 2.906 2.924 2.942 2.960 2.978 2.996
73% 74% 75% 76% 77% 78% 79% 80% 81% 82% 83% 84%
3.014 3.032 3.050 3.068 3.086 3.104 3.122 3.140 3.158 3.176 3.194 3.212
85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96%
3.230 3.248 3.266 3.284 3.307 3.370 3.433 3.496 3.559 3.622 3.685 3.748
97% 98% 99%
3.811 3.874 3.937
# Percentiles Parcial 4
quantile(P4, probs = seq(0.01, 0.99, 0.01))
1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12%
0.799 0.898 0.997 1.096 1.195 1.294 1.393 1.492 1.591 1.690 1.789 1.816
13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24%
1.834 1.852 1.870 1.888 1.906 1.924 1.942 1.960 1.978 1.996 2.084 2.192
25% 26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36%
2.300 2.408 2.516 2.624 2.732 2.840 2.948 3.056 3.164 3.212 3.230 3.248
37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48%
3.266 3.284 3.302 3.320 3.338 3.356 3.374 3.392 3.400 3.400 3.400 3.400
49% 50% 51% 52% 53% 54% 55% 56% 57% 58% 59% 60%
3.400 3.400 3.400 3.400 3.400 3.400 3.400 3.408 3.426 3.444 3.462 3.480
61% 62% 63% 64% 65% 66% 67% 68% 69% 70% 71% 72%
3.498 3.516 3.534 3.552 3.570 3.588 3.615 3.660 3.705 3.750 3.795 3.840
73% 74% 75% 76% 77% 78% 79% 80% 81% 82% 83% 84%
3.885 3.930 3.975 4.020 4.065 4.108 4.144 4.180 4.216 4.252 4.288 4.324
85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96%
4.360 4.396 4.432 4.468 4.502 4.520 4.538 4.556 4.574 4.592 4.610 4.628
97% 98% 99%
4.646 4.664 4.682
Medidas de dispersión
Estas medidas tienen por objetivo determinar la dispersión o
variabilidad que posee un conjunto de observaciones, en donde, entre
mayor sean estas medidas, mayor será el grado de dispersión de los
datos. Si se define $x_1, x_2, \ldots, x_n$
como un conjunto de $n$
observaciones, entonces
Varianza
Mide la distancia media al cuadrado del conjunto de datos respecto a
la media
\begin{align*} S^2=\frac{1}{n-1}\sum_{i=1}^n{(x_i-\bar{X})^2} \end{align*}
En R puede calcularse la varianza de un conjunto de
observaciones mediante la función var(datos)
.
Ejercicio Caso de Estudio
Calcule la varianza de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, de forma manual.
Solución Manual
La varianza de las notas obtenidas en los parciales \(1\) y \(4\) por los estudiantes que cursaron Estadística I estará dada por \[\begin{align*} S^2_{P1} &= \frac{1}{10-1}\left[(2.7 - 2.75)^2 + (4.0 - 2.75)^2 + \ldots + (2.1 - 2.75) ^2\right] = 0.5072222 \\ S^2_{P4} &=\frac{1}{10-1}\left[(1.8 - 3.14)^2 + (4.7 - 3.14)^2 + \ldots + (2.0 - 3.14) ^2\right] = 1.622667 \end{align*}\] Es de anotar, que la interpretación de la varianza no tiene mucho sentido, debido a que la unidad de medición estará elevada al cuadrado, así que en general, los valores calculados se usan para realizar el cálculo de la desviación estándar.
Ejercicio Caso de Estudio
Calcule la varianza de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, con R.
Solución en R
Para realizar el cálculo de la varianza en R, para las nota
obtenida por los estudiantes en los dos parciales se emplea la función
var()
tal que
## Se calcula la varianza de cada conjunto de datos
# Varianza Parcial 1
var(P1)
[1] 0.5072222
# Varianza Parcial 4
var(P4)
[1] 1.622667
Desviación estándar
Es la raíz cuadrada de la distancia media del conjunto de datos respeto
a la media, es decir, indica qué tan dispersos se encuentra el conjunto
de observaciones de su valor promedio.
\begin{align*} S=\sqrt{S^2} \end{align*}
En R puede calcularse la desviación estándar de un conjunto de
observaciones mediante la función sd(datos)
.
Calcule la desviación estándar de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.
Solución Manual
La desviación estándar de las notas obtenidas en los parciales \(1\) y \(4\) por los estudiantes que cursaron Estadística I, es simplemente la raíz cuadrada de la varianza que se calculó anteriormente, y por tanto se tendrá que \[\begin{align*} S_{P1} &= \sqrt{0.5072222} = 0.7121953 \\ S_{P4} &=\sqrt{1.622667} = 1.273839 \end{align*}\] De los resultados obtenidos se tiene que, la dispersión que poseen los datos respecto a su valor promedio es de \(0.7121953\) para las notas obtenidas en el parcial \(1\) y de \(1.273839\) para las notas obtenidas en el parcial \(4\) de Estadística I. Esto quiere decir, que las notas obtenidas en el parcial \(1\) se encuentran más reunidas respecto a valor promedio, que las notas obtenidas en el parcial \(4\).
Ejercicio Caso de Estudio
Calcule la desviación estándar de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, con R.
Solución en R
Para realizar el cálculo de las desviaciones estándar para las nota
obtenida por los estudiantes en los dos parciales en el programa
R, se emplea la función sd()
tal que
## Se calcula la desviación estándar de cada conjunto de datos
# Desviación estándar Parcial 1
sd(P1)
[1] 0.7121954
# Desviación estándar Parcial 4
sd(P4)
[1] 1.273839
Coeficiente de variación
Es la desviación estándar como un porcentaje de la media aritmética de
un conjunto de datos. Sirve para observar el grado de variabilidad que
tiene un conjunto de observaciones respecto a su promedio
\begin{align*} CV = \frac{S}{|\bar{X}|} \times 100\% \end{align*}
Entre las funciones base del programa R no hay ninguna función
que calcule el coeficiente de variación de un conjunto de observaciones,
pero éste es fácil de calcular mediante el cociente entre la desviación
estándar $S$
y el valor absoluto de la media $\bar{X}$
, o creando
una función que realice el cálculo, de la forma
# Función para el cálculo del coeficiente de variación
CV <- function(x) (sd(x)/abs(mean(x))) * 100
Una vez creada la función, puede calcularse el coeficiente de variación
de un conjunto de observaciones mediante la función CV(datos)
.
Ejercicio Caso de Estudio
Calcule el porcentaje de variación de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, respecto a su valor promedio de forma manual.
Solución Manual
El coeficiente de variación refleja la variación porcentual que tiene un conjunto de observaciones respecto a su valor promedio, por tanto, al aplicar la ecuación del coeficiente de variación a las notas obtenidas en los parciales \(1\) y \(4\) por los estudiantes que cursaron Estadística I, se tiene que \[\begin{align*} CV_{P1} &= \frac{0.7121953}{|2.75|} \times 100\% = 25.89801 \% \\ CV_{P4} &= \frac{1.273839}{|3.14|} \times 100\% = 40.56812 \% \end{align*}\] De lo anterior, se aprecia que tal como se esperaba, la variación porcentual de los datos respecto a su media para el caso del parcial \(1\) es menor al obtenido en el parcial \(4\), pues se evidencia que el coeficiente de variación del parcial \(1\) es cercano al \(25.9\%\), mientras que en el parcial \(4\), se obtuvo un porcentaje de variación de \(40.57\%\).
Ejercicio Caso de Estudio
Calcule el porcentaje de variación de las notas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, respecto a su valor promedio en R.
Solución en R
Para realizar el cálculo en el programa R de los coeficientes
de variación, para las nota obtenida por los estudiantes en el primer y
cuarto parcial de Estadística 1, se emplea la función CV()
planteada anteriormente. tal que
# Se corre inicialmente la función CV para crearla
CV <- function(x) (sd(x)/abs(mean(x))) * 100
## Se calcula el coeficiente de variación de cada conjunto de datos
## Coeficiente de variación Parcial 1
CV(P1)
[1] 25.89801
# Coeficiente de variación Parcial 4
CV(P4)
[1] 40.56813
Rango
Es la distancia o amplitud que hay entre el valor máximo y mínimo en un
conjunto de datos \begin{align*} R = x_{max}-x_{min} \end{align*}
Entre las funciones base del programa R no hay ninguna función
que calcule el rango de un conjunto de observaciones de forma directa,,
pero éste es fácil de calcular mediante la resta del valor máximo
max(datos)
y mínimo min(datos)
, o creando una función que realice el
cálculo, de la forma
# Función para el cálculo del rango
Rango <- function(x) max(x) - min(x)
Una vez creada la función, puede calcularse el rango de un conjunto de
observaciones mediante la función Rango(datos)
. Una forma alternativa
para realizar el cálculo del rango de un conjunto de observaciones, es
empleando una combinaciones de funciones de la forma
diff(range(datos))
.
Ejercicio Caso de Estudio
Calcule el rango de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I, de forma manual.
Solución Manual
Para realizar el cálculo del rango o amplitud que poseen las notas obtenidas por los estudiantes que vieron el curso de Estadística I en los parciales \(1\) y \(4\), es necesario inicialmente ordenar las notas en orden ascendente, tal que
Parcial 1 | 1.3 | 2.1 | 2.6 | 2.7 | 2.7 | 2.8 | 2.9 | 3.1 | 3.3 | 4.0 |
Parcial 4 | 0.7 | 1.8 | 2.0 | 3.2 | 3.4 | 3.4 | 3.6 | 4.1 | 4.5 | 4.7 |
Una vez ordenados los valores, se localiza el valor máximo y mínimo de cada parcial, y se realiza entonces el cálculo del rango para cada caso \[\begin{align*} R_{P1} &= 4.0 - 1.3 = 2.7 \\ R_{P4} &= 4.7 - 0.7 = 4.0 \end{align*}\] Se evidencia entonces que la amplitud de las notas del parcial \(4\) es mucho mayor a la amplitud del parcial \(1\), puesto que se observa que el rango obtenido por las notas del parcial \(4\) es de \(4.0\) puntos, mientras que el rango obtenido por las notas del parcial \(1\) es de \(2.7\) puntos. De lo anterior, vemos que hay una consistencia con lo encontrado en la desviación estándar, en donde veíamos que la dispersión para el parcial \(4\) era mayor a la dispersión del parcial \(1\).
Ejercicio Caso de Estudio
Calcule el rango de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I en R.
Solución en R
Para realizar el cálculo en R del rango de las notas obtenidas
en el primer y cuarto parcial por los estudiantes de Estadística 1, se
emplea la función Rango()
planteada anteriormente, tal que
# Se corre inicialmente la función Rango para crearla
Rango <- function(x) max(x) - min(x)
## Se calcula el coeficiente de variación de cada conjunto de datos Rango
## Parcial 1
Rango(P1)
[1] 2.7
## Rango Parcial 4
Rango(P4)
[1] 4.0
Rango intercuartílico
Es la distancia o amplitud que hay entre el tercer cuartil $C_3$
y el
primer cuartil $C_1$
, de un conjunto de datos. Éste muestra la
amplitud del 50% de los datos centrales de un conjunto de observaciones.
Esta medida puede ser tomada como una medida de variabilidad para la
mediana. \begin{align*} IQR = C_3 - C_1 \end{align*}
En R puede calcularse el rango intercuartílico de un conjunto
de observaciones mediante la función IQR(datos)
.
Ejercicio Caso de Estudio
Calcule el rango intercuartílico de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I de forma manual.
Solución Manual
El rango intercuartílico se calcula de forma similar al rango, solo que
en lugar de emplear el valor máximo y el valor mínimo del conjunto de
observaciones, se emplea en su lugar, el tercer y primer cuartil.
Entonces, basados en los cálculos de los cuartiles obtenidos en la
Clase
01 (ver Solucion en R), se tendrá que el primer y tercer cuartil
para el parcial \(1\) son \(C_{1}= 2.625\) y \(C_{3}= 3.050\),
respectivamente, obteniendo un rango intercuartílico de
\[\begin{align*}
IQR_{P1} = 3.050 - 2.625 = 0.425
\end{align*}\]
mientras que, el primer y tercer cuartil para el parcial \(4\) son
\(C_{1}= 2.3\) y \(C_{3}= 3.975\), respectivamente, y en consecuencia,
el rango intercuartílico asociado al parcial \(4\) será
\[\begin{align*}
IQR_{P4}= 3.975 - 2.3 = 1.675
\end{align*}\]
Mostrando que, al eliminar el \(50\%\) de los datos más extremos, se
obtiene un rango de \(0.425\) para el caso del parcial \(1\), y de
\(1.675\) para el caso del parcial \(4\), lo cual, corrobora que aún
para el \(50\%\) de los datos centrales, se aprecia que la dispersión de
las notas del primer parcial es bastante menor que la dispersión de las
notas del cuarto parcial.
Ejercicio Caso de Estudio
Calcule el rango intercuartílico de las notas obtenidas por los \(10\) estudiantes en el primer y cuarto parcial del curso de Estadística I en R.
Solución en R
Para realizar el cálculo del rango intercuartílico en R de las
notas obtenidas en el primer y cuarto parcial por los estudiantes de
Estadística 1, se emplea la función IQR()
, tal que
## Se calcula el rango intercuartílico de cada conjunto de datos
# Rango intercuarílico Parcial 1
IQR(P1)
[1] 0.425
# Rango intercuartílico Parcial 4
IQR(P4)
[1] 1.675
Desviación absoluta mediana
Es una medida de la dispersión de un conjunto de observaciones respecto a su mediana
\begin{align*} MAD=b\times Me(|X_i-\tilde{X}|) \end{align*}
donde $b$
es una constante definida como $b=1/C_{3}$
, con $C_{3}$
el valor del tercer cuartil de la distribución de interés (no el
obtenido de los datos) y con $Me(|X_i-\tilde{X}|)$
la mediana del
valor absoluto de la diferencia $X_i-\tilde{X}$
. Además, si la
distribución es normal, entonces $b\approx1.4826$
.
En R puede calcularse la desviación absoluta mediana de un
conjunto de observaciones, asumiendo que la distribución es normal,
mediante la función mad(datos)
, si no es posible asumir que la
distribución es normal, entonces puede calcularse mediante la función
mad(datos, constant = b)
.
Ejercicio Caso de Estudio
Calcule la desviación absoluta mediana de las notas obtenidas por los \(10\) estudiantes, en el primer y cuarto parcial del curso de Estadística I de forma manual.
Solución Manual
Para realizar el cálculo de la desviación absoluta mediana para las notas obtenidas por los estudiantes en los parciales \(1\) y \(4\) del curso de Estadística I, es necesario inicialmente realizar el cálculo de \(|X_i-\tilde{X}|\) para cada una de las notas obtenidas en los dos parciales, siendo \(\tilde{X}\) el valor de la mediana calculada en la Clase 01 (ver Solucion manual o en R).
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
---|---|---|---|---|---|---|---|---|---|---|
Parcial 1 \(|X_i-\tilde{X}|\) | 0.05 | 1.25 | 0.35 | 0.05 | 0.15 | 1.45 | 0.15 | 0.05 | 0.55 | 0.65 |
Parcial 4 \(|X_i-\tilde{X}|\) | 1.60 | 1.30 | 0.00 | 2.70 | 0.70 | 0.20 | 1.10 | 0.20 | 0.00 | 1.40 |
Seguidamente, se realiza el cálculo de la mediana de los valores obtenidos en la tabla anterior, en donde, dado que se tienen \(10\) observaciones, entonces \(Me(|X_i-\tilde{X}|)\) para el parcial \(1\) será (recuerde que para encontrar la mediana es necesario ordenar las observaciones de forma ascendente) \[\begin{align*} Me(|X_i-\tilde{X}|) = \frac{1}{2}(0.15 + 0.35)= 0.25 \end{align*}\] mientras que, el valor \(Me(|X_i-\tilde{X}|)\) para el parcial \(4\) será \[\begin{align*} Me(|X_i-\tilde{X}|) = \frac{1}{2}(0.7 + 1.1)= 0.9 \end{align*}\] Ahora, al emplear estos dos valores, y asumiento que \(b=1.4826\), se tendrá que la desviación absoluta mediana para los parciales \(1\) y \(4\) son de \[\begin{align*} MAD_{P1} &= 1.4826 \times 0.25 = 0.37065 \\ MAD_{P4} &= 1.4826 \times 0.9 = 1.33434 \end{align*}\] Se tiene entonces que la desviación abosulta mediana o dispersión respecto a la mediana que poseen las notas de los estudiantes de Estadística I, en el primer parcial es de \(0.37\), mientras para el cuarto parcial es de \(1.33434\), lo cual indica que la dispersión de las notas para el cuarto parcial es superior a la dispersión de las notas asociada al primer parcial, lo cual es consistente con las otras medidas de dispersión vistas en esta sección.
Ejercicio Caso de Estudio
Calcule la desviación absoluta mediana de las notas obtenidas por los \(10\) estudiantes, en el primer y cuarto parcial del curso de Estadística I en R.
Solución en R
Para realizar el cálculo de la desviación absoluta mediana en
R, para las notas obtenidas en el primer y cuarto parcial por
los estudiantes de Estadística 1, se emplea la función
mad()
, de forma que
## Se calcula la desviación absoluta mediana de cada conjunto de datos
# Desviación absoluta mediana Parcial 1
mad(P1)
[1] 0.37065
# Desviación absoluta mediana Parcial 4
mad(P4)
[1] 1.33434