
Medidas estadísticas
Las medidas estadísticas tienen por objetivo resumir la información contenida en un conjunto de datos, en pocos valores numéricos que representan diferentes características. Estas medidas estadísticas nos darán información sobre la situación, dispersión, forma, asociación que posee un conjunto de datos de manera que sea posible captar rápidamente la estructura de los mismos.
Medidas de tendencia central
Estas medidas tienen por objetivo buscar valores que muestren el lugar
en el cual se encuentra el centro de un conjunto de observaciones. Si se
define $x_1, x_2, \ldots, x_n$
como un conjunto de $n$
observaciones, entonces
Media
Es el promedio numérico de las $n$
observaciones.
\begin{align*} \bar{X}=\sum_{i=1}^n\frac{x_i}{n}=\frac{x_1+x_2+\ldots+x_n}{n} \end{align*}
En R, puede calcularse el valor promedio de un conjunto de
observaciones mediante la función mean(datos)
.
Ejercicio Caso de Estudio
Calcule el precio promedio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del precio promedio de venta en
metros cuadrados, se emplea la función mean()
tal que
mean(datos$preciovtax)
[1] 1524.358
Lo cual significa que en promedio el precio de venta en metros cuadrados, sin incluir el garaje, en miles de pesos es de \(1524.358\).
Mediana
Es el valor que ocupa el lugar central en un conjunto de datos, es
decir, el valor que divide el conjunto de observaciones en dos partes
que contienen el 50% de las observaciones. Para realizar el cálculo de
la mediana es necesario ordenar inicialmente el conjunto de
observaciones de forma ascendente.
\begin{align*} \tilde{X}=\begin{cases}x_{\left[\frac{(n+1)}{2}\right]} & \text{si } n \text{ es impar}\\\frac{1}{2}\left(x_{\left[\frac{n}{2}\right]}+x_{\left[\frac{n}{2}+1\right]}\right) & \text{si } n \text{ es par}\end{cases} \end{align*}
donde $x_{\left[j\right]}$
representa la $j$
-ésima observación
ordenada. En R puede calcularse la mediana de un conjunto de
observaciones mediante la función median(datos)
.
Ejercicio Caso de Estudio
Calcule el precio mediano de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del precio mediano de venta en
metros cuadrados en miles de pesos, sin incluir el garaje del bien, se
emplea la función median()
tal que
median(datos$preciovtax)
[1] 1200
Lo cual significa que el precio mediano de venta en metros cuadrados, en miles de pesos sin incluir el garaje es de \(1200\).
Moda
Es el valor que ocurre con mayor frecuencia en un conjunto de datos, es decir, es la observación que se repite con mayor frecuencia. Es de anotar que en un conjunto de observaciones, se puede tener más de una moda, en cuyo caso se dirá que el conjunto de datos es bimodal, trimodal o multimodal.
Entre las funciones base del programa R no hay ninguna función que calcule la moda de un conjunto de observaciones, y por tanto, debe crearse una función que realice el cálculo, de la forma
# Función para el cálculo de la moda
Moda <- function(x) {
keys <- na.omit(unique(x))
keys[which.max(tabulate(match(x, keys)))]
}
Una vez creada la función, puede calcularse la moda de un conjunto de
observaciones mediante la función Moda(datos)
.
Ejercicio Caso de Estudio
Calcule el precio modal de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del precio modal de venta en
metros cuadrados en miles de pesos, sin incluir el garaje del bien, se
emplea la función Moda()
que se creó previamente, tal que
### Se crea la función
Moda <- function(x) {
keys <- na.omit(unique(x))
keys[which.max(tabulate(match(x, keys)))]
}
### Se realiza el cálculo de la moda
Moda(datos$preciovtax)
[1] 1000
Lo cual significa que el precio de venta por en metros cuadrados que más se repite, en miles de pesos sin incluir el garaje es de \(1000\).
Media recortada
Es una medida similar a la media, con la diferencia de que, en este
caso, se ordenan las observaciones de forma ascendente, y luego se
recortan un número $r$
observaciones superiores e inferiores, tal que
$r=n\times trim$
, $trim$
un valor porcentual entre 0 y 0.5
\begin{align*} \bar{X}_{trim}=\frac{1}{n-2r}\sum_{i={r+1}}^{n-r}x_i \end{align*}
En R, puede calcularse el valor de la media recortada de un
conjunto de observaciones mediante la función
mean(datos, trim = trim)
.
Ejercicio Caso de Estudio
Calcule el precio promedio de venta en metros cuadrados preciovtax, recortada al \(10\%\).
Solución en R
Para realizar el cálculo en R del precio promedio de venta en
metros cuadrados recordando los datos al \(10\%\), se emplea la función
mean()
, junto con el argumento trim = 0.10
tal
que
mean(datos$preciovtax, trim = 0.1)
[1] 1336
Lo cual significa que al eliminar la influencia del \(10\%\) superior e inferior de los datos, se tiene que en promedio el precio de venta en metros cuadrados, sin incluir el garaje, en miles de pesos es de \(1336\).
Medidas de localización
Estas medidas tienen por objetivo dividir un conjunto de datos ordenado
en partes iguales, entendidas estas como intervalos que contienen la
misma proporción de observaciones. Si se define
$x_{[1]}, x_{[2]}, \ldots, x_{[n]}$
, como un conjunto de $n$
observaciones ordenadas en forma creciente, entonces
Cuartil
Son los tres valores $(j=1,2,3)$
, que dividen a un conjunto de
datos ordenados en cuatro partes iguales. Para ello, es necesario
calcular inicialmente una variable $h_j$
de posicionamiento dado el
cuartil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{4} + 1 \quad \quad j=1,2,3 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del cuartil de
interés
\begin{align*} C_j=x_{\lfloor h_j\rfloor]} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,3 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Cuartil
En R puede calcularse los cuartiles de un conjunto de
observaciones mediante la función
quantile(datos, probs = c(0.25, 0.5, 0.75))
.
Ejercicio Caso de Estudio
Calcule el valor de los tres cuartiles asociados a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de los tres cuartiles asociados
al precio de venta en metros cuadrados, se emplea la función
quantile()
, junto con el argumento probs = c(0.25,
0.5, 0.75)
tal que
quantile(datos$preciovtax, probs = c(0.25, 0.5, 0.75))
25% 50% 75%
790 1200 1900
Encontrando que los tres valores que dividen el precio de venta en metros cuadrados en cuatro partes iguales son, \(790\), \(1200\) y \(1900\).
Quintil
Son los cuatro valores $(j=1,2,3,4)$
, que dividen a un conjunto de
datos ordenados en cinco partes iguales. Para ello, es necesario
calcular inicialmente una variable $h_j$
de posicionamiento dado el
quintil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{5} + 1 \quad \quad j=1,2,3,4 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del quintil de
interés
\begin{align*} Q_j=x_{\lfloor h_j\rfloor]} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,3,4 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Quintil
En R pueden calcularse los quintiles de un conjunto de
observaciones mediante la función
quantile(datos, probs = c(0.2, 0.4, 0.6, 0.8))
.
Ejercicio Caso de Estudio
Calcule el valor de los cuatro quintiles asociados a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de los cuatro quintiles asociados
al precio de venta en metros cuadrados, se emplea la función
quantile()
, junto con el argumento probs = c(0.2,
0.4, 0.6, 0.8)
tal que
quantile(datos$preciovtax, probs = c(0.2, 0.4, 0.6, 0.8))
20% 40% 60% 80%
700.0 1000.0 1433.0 2110.6
Encontrando que los cuatro valores que dividen el precio de venta en metros cuadrados en cinco partes iguales son, \(700\), \(1000\), \(1433\) y \(2110.6\).
Decil
Son los nueve valores $(j=1,2,\ldots,9)$
, que dividen a un
conjunto de datos ordenados en diez partes iguales. Para ello, es
necesario calcular inicialmente una variable $h_j$
de posicionamiento
dado el decil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{10} + 1 \quad \quad j=1,2,\dots,9 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del decil de
interés
\begin{align*} D_j=x_{\lfloor h_j\rfloor]} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,\dots,9 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Decil
En R pueden calcularse los deciles de un conjunto de
observaciones mediante la función
quantile(datos, probs = seq(0.1, 0.9, 0.1))
.
Ejercicio Caso de Estudio
Calcule el valor de los nueve deciles asociados a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de los nueve deciles asociados al
precio de venta en metros cuadrados, se emplea la función
quantile()
, junto con el argumento probs = seq(0.1,
0.9, 0.1)
tal que
quantile(datos$preciovtax, probs = seq(0.1, 0.9, 0.1))
10% 20% 30% 40% 50% 60% 70% 80% 90%
580.0 700.0 850.0 1000.0 1200.0 1433.0 1748.0 2110.6 2844.0
Encontrando que los nueve valores que dividen el precio de venta en metros cuadrados en diez partes iguales son, \(580\), \(700\), \(850\), \(1000\), \(1200\), \(1433\), \(1748\), \(2110.6\), \(2844\).
Percentil
Son los noventa y nueve valores $(j=1,2,\ldots,99)$
, que dividen a
un conjunto de datos ordenados en cien partes iguales. Para ello, es
necesario calcular inicialmente una variable $h_j$
de posicionamiento
dado el percentil $j$
de interés, tal que
\begin{align*} h_j = \frac{j(n-1)}{100} + 1 \quad \quad j=1,2,\dots,99 \end{align*}
y posteriormente, con éste valor se realiza el cálculo del percentil de
interés
\begin{align*} P_j=x_{\lfloor h_j\rfloor]} + \left((h_j - \lfloor h_j\rfloor) \times (x_{[\lfloor h_j\rfloor + 1]} - x_{\lfloor h_j\rfloor}) \right) \quad \quad j=1,2,\dots,99 \end{align*}
siendo $\lfloor h_j\rfloor$
el valor piso de $h_j$
, es decir, el
entero de $h$
aproximando siempre hacia abajo.
Representación Percentil
En R pueden calcularse los percentiles de un conjunto de
observaciones mediante la función
quantile(datos, probs = seq(0.01, 0.99, 0.01))
.
Ejercicio Caso de Estudio
Calcule el valor de los noventa y nueve percentiles asociados a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de los noventa y nueve
percentiles asociados al precio de venta en metros cuadrados, se emplea
la función quantile()
, junto con el argumento probs =
seq(0.01, 0.99, 0.01)
tal que
quantile(datos$preciovtax, probs = seq(0.01, 0.99, 0.01))
1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11%
350.0 400.0 430.0 459.0 500.0 500.0 510.0 545.0 550.0 580.0 600.0
12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22%
600.0 600.0 630.0 650.0 650.0 680.0 700.0 700.0 700.0 714.0 740.0
23% 24% 25% 26% 27% 28% 29% 30% 31% 32% 33%
750.0 760.0 790.0 800.0 800.0 809.0 833.0 850.0 860.0 890.0 900.0
34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44%
900.0 915.0 948.0 952.0 980.0 1000.0 1000.0 1000.0 1010.0 1050.0 1073.0
45% 46% 47% 48% 49% 50% 51% 52% 53% 54% 55%
1100.0 1100.0 1111.0 1150.0 1200.0 1200.0 1200.0 1218.0 1250.0 1300.0 1300.0
56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66%
1320.0 1350.0 1397.0 1400.0 1433.0 1480.0 1500.0 1500.0 1538.0 1587.0 1600.0
67% 68% 69% 70% 71% 72% 73% 74% 75% 76% 77%
1622.0 1667.0 1700.0 1748.0 1800.0 1800.0 1820.0 1881.0 1900.0 1981.0 2000.0
78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88%
2000.0 2089.0 2110.6 2200.0 2231.0 2300.0 2390.0 2450.0 2500.0 2550.0 2637.0
89% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99%
2777.0 2844.0 3000.0 3100.0 3300.0 3500.0 3707.0 4000.0 4300.0 4800.0 5800.0
Encontrando que los noventa y nueve valores que dividen el precio de venta en metros cuadrados en cien partes.
Medidas de dispersión
Estas medidas tienen por objetivo determinar la dispersión o
variabilidad que posee un conjunto de observaciones, en donde, entre
mayor sean estas medidas, mayor será el grado de dispersión de los
datos. Si se define $x_1, x_2, \ldots, x_n$
como un conjunto de $n$
observaciones, entonces
Varianza
Mide la distancia media al cuadrado del conjunto de datos respecto a
la media
\begin{align*} S^2=\frac{1}{n-1}\sum_{i=1}^n{(x_i-\bar{X})^2} \end{align*}
En R puede calcularse la varianza de un conjunto de
observaciones mediante la función var(datos)
.
Ejercicio Caso de Estudio
Calcule el valor de la varianza asociada a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de la varianza asociada al precio
de venta en metros cuadrados, se emplea la función var()
,
tal que
var(datos$preciovtax)
[1] 1238067
Encontrando que el valor de la varianza para el precio de venta en metros cuadrados sin incluir el garaje, en miles de pesos cuadrados es de \(1238067\).
Desviación estándar
Es la raíz cuadrada de la distancia media del conjunto de datos respeto
a la media, es decir, indica qué tan dispersos se encuentra el conjunto
de observaciones de su valor promedio.
\begin{align*} S=\sqrt{S^2} \end{align*}
En R puede calcularse la desviación estándar de un conjunto de
observaciones mediante la función sd(datos)
.
Ejercicio Caso de Estudio
Calcule el valor de la desviación estándar asociada a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de la desviación estándar
asociada al precio de venta en metros cuadrados, se emplea la función
sd()
, tal que
sd(datos$preciovtax)
[1] 1112.684
Lo cual significa que en promedio el precio de venta en metros cuadrados, sin incluir el garaje, en miles de pesos es de \(1524.358\), con una desviación estándar de \(1112.684\) miles de pesos.
Coeficiente de variación
Es la desviación estándar como un porcentaje de la media aritmética de
un conjunto de datos. Sirve para observar el grado de variabilidad que
tiene un conjunto de observaciones respecto a su promedio
\begin{align*} CV = \frac{S}{|\bar{X}|} \times 100\% \end{align*}
Entre las funciones base del programa R no hay ninguna función
que calcule el coeficiente de variación de un conjunto de observaciones,
pero éste es fácil de calcular mediante el cociente entre la desviación
estándar $S$
y el valor absoluto de la media $\bar{X}$
, o creando
una función que realice el cálculo, de la forma
# Función para el cálculo del coeficiente de variación
CV <- function(x) (sd(x)/abs(mean(x))) * 100
Una vez creada la función, puede calcularse el coeficiente de variación
de un conjunto de observaciones mediante la función CV(datos)
.
Ejercicio Caso de Estudio
Calcule el coeficiente de variación asociado a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del coeficiente de variación del
precio de venta en metros cuadrados en miles de pesos, sin incluir el
garaje del bien, se emplea la función CV()
que se creó
previamente, tal que
### Se crea la función
CV <- function(x) (sd(x)/abs(mean(x))) * 100
### Se realiza el cálculo del coeficiente de variación
CV(datos$preciovtax)
[1] 72.99364
Lo cual significa que el porcentaje de variación del precio de venta por en metros cuadrados, en miles de pesos sin incluir el garaje es del \(72.99%\).
Rango
Es la distancia o amplitud que hay entre el valor máximo y mínimo en un
conjunto de datos \begin{align*} R = x_{max}-x_{min} \end{align*}
Entre las funciones base del programa R no hay ninguna función
que calcule el rango de un conjunto de observaciones de forma directa,,
pero éste es fácil de calcular mediante la resta del valor máximo
max(datos)
y mínimo min(datos)
, o creando una función que realice el
cálculo, de la forma
# Función para el cálculo del rango
Rango <- function(x) max(x) - min(x)
Una vez creada la función, puede calcularse el rango de un conjunto de
observaciones mediante la función Rango(datos)
. Una forma alternativa
para realizar el cálculo del rango de un conjunto de observaciones, es
empleando una combinaciones de funciones de la forma
diff(range(datos))
.
Ejercicio Caso de Estudio
Calcule el rango del asociado a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del rango del precio de venta en
metros cuadrados en miles de pesos, sin incluir el garaje del bien, se
emplea la función Rango()
que se creó previamente, tal que
### Se crea la función
Rango <- function(x) max(x) - min(x)
### Se realiza el cálculo del Rango
Rango(datos$preciovtax)
[1] 16552
Lo cual significa que la diferencia entre el precio más alto y el más bajo de venta en metros cuadrados, en miles de pesos sin incluir el garaje es del \(16552\).
Rango intercuartílico
Es la distancia o amplitud que hay entre el tercer cuartil $C_3$
y el
primer cuartil $C_1$
, de un conjunto de datos. Éste muestra la
amplitud del 50% de los datos centrales de un conjunto de observaciones.
Esta medida puede ser tomada como una medida de variabilidad para la
mediana. \begin{align*} IQR = C_3 - C_1 \end{align*}
En R puede calcularse el rango intercuartílico de un conjunto
de observaciones mediante la función IQR(datos)
.
Ejercicio Caso de Estudio
Calcule el rango intercuartílico asociado a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del rango intercuartílico del
precio de venta en metros cuadrados en miles de pesos, sin incluir el
garaje del bien, se emplea la función IQR()
, tal que
IQR(datos$preciovtax)
[1] 1110
Lo cual significa que la diferencia entre el \(50\%\) central de los precio de venta en metros cuadrados, en miles de pesos sin incluir el garaje es del \(1110\).
Desviación absoluta mediana
Es una medida de la dispersión de un conjunto de observaciones respecto a su mediana
\begin{align*} MAD=b\times Me(|X_i-\tilde{X}|) \end{align*}
donde $b$
es una constante definida como $b=1/C_{3}$
, con $C_{3}$
el valor del tercer cuartil de la distribución de interés (no el
obtenido de los datos) y con $Me(|X_i-\tilde{X}|)$
la mediana del
valor absoluto de la diferencia $X_i-\tilde{X}$
. Además, si la
distribución es normal, entonces $b\approx1.4826$
.
En R puede calcularse la desviación absoluta mediana de un
conjunto de observaciones, asumiendo que la distribución es normal,
mediante la función mad(datos)
, si no es posible asumir que la
distribución es normal, entonces puede calcularse mediante la función
mad(datos, constant = b)
, tal que
Ejercicio Caso de Estudio
Calcule la desviación absoluta mediana asociada a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R de la desviación absoluta mediana
del precio de venta en metros cuadrados en miles de pesos, sin incluir
el garaje del bien, se emplea la función mad()
, tal que
mad(datos$preciovtax)
[1] 741.3
Lo cual significa que el precio mediano de venta en metros cuadrados, en miles de pesos sin incluir el garaje es de \(1200\), con una desviación absoluta mediana de \(741.3\) miles de pesos.
Medidas de forma
Estas medidas tienen por objetivo evidenciar si el conjunto de observaciones tiene o no una forma simétrica y observar su nivel de concentración.
Coeficiente de asimetría
Este valor permite identificar si el conjunto de datos se distribuye
uniformemente alrededor de las medidas de tendencia central.
\begin{align*} \gamma_1 = \frac{1}{n}\frac{\sum_{i=1}^n{(x_i-\bar{X})^3}}{S^3} \quad \quad -\infty<\gamma_1<\infty \end{align*}
El signo de $\gamma_1$
indica la dirección de la asimetría.
$\gamma_1>0$
indica asimetría positiva, es decir, las observaciones se reúnen más en la parte izquierda de las medidas de tendencia central.$\gamma_1<0$
indica asimetría negativa, es decir, las observaciones se reúnen más en la parte derecha de las medidas de tendencia central.$\gamma_1\sim0$
indica simetría, es decir, existe aproximadamente la misma cantidad de observaciones a los dos lados de las medidas de tendencia central.
Representación tipos de Asimetría
Entre las funciones base del programa R no hay ninguna función
que calcule el coeficiente de asimetría de un conjunto de observaciones,
pero es posible realizar el cálculo mediante la función
skewness(datos)
de la librería e1071
.
Ejercicio Caso de Estudio
Calcule el coeficiente de asimetría asociada a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del coeficiente de asimetría del
precio de venta en metros cuadrados en miles de pesos, sin incluir el
garaje del bien, se emplea la función skewness()
de la
librería e1071, tal que
# Se carga la librería
library(e1071)
# Se realiza el cálculo del coeficiente de asimetría
skewness(datos$preciovtax)
[1] 2.396478
Lo cual significa que el coeficiente de asimetría del precio de venta en metros cuadrados, en miles de pesos sin incluir el garaje es de \(2.3964\), lo cual significa que al ser positivo, quiere decir que es más probable que los precios de venta se encuentren más reunidos para precios bajos, y que los precios altos son menos probables.
Coeficiente de exceso de curtosis
Este valor permite observar el grado de concentración del conjunto de
datos
\begin{align*} \gamma_2 = \frac{1}{n}\frac{\sum_{i=1}^n{(x_i-\bar{X})^4}}{S^4}-3 \quad \quad -2<\gamma_2<\infty \end{align*}
El signo de $\gamma_2$
indica el nivel de concentración.
$\gamma_2>0$
indica leptocurtosis, es decir, la forma de los datos es más en punta y posee colas menos anchas.$\gamma_2<0$
indica platicurtosis, es decir, la forma de los datos es más plana y posee colas más anchas.$\gamma_2\sim0$
indica mesocurtosis, es decir, tanto la punta como las colas son similares a la distribución normal.
Representación tipos de kurtosis
Entre las funciones base del programa R no hay ninguna función
que calcule el coeficiente de exceso de curtosis de un conjunto de
observaciones, pero es posible realizar el cálculo mediante la función
kurtosis(datos)
de la librería e1071
.
Ejercicio Caso de Estudio
Calcule el coeficiente de exceso de curtosis asociada a la variable precio de venta en metros cuadrados preciovtax.
Solución en R
Para realizar el cálculo en R del coeficiente de exceso de
curtosis del precio de venta en metros cuadrados en miles de pesos, sin
incluir el garaje del bien, se emplea la función kurtosis()
de la librería e1071, tal que
# Se carga la librería
library(e1071)
# Se realiza el cálculo del coeficiente de exceso de curtosis
kurtosis(datos$preciovtax)
[1] 9.817481
Lo cual significa que el coeficiente de exceso de curtosis del precio de venta en metros cuadrados, en miles de pesos sin incluir el garaje es de \(9.817481\), lo cual significa que al ser un valor positivo, quiere decir que es la forma de los precios de venta es leptocurtica, es decir, que los datos se encuentran más reunidos y la forma de la distribución tiene forma punteaguda.
Medidas de asociación
Estas medidas tienen por objetivo estimar la magnitud con la que dos
fenómenos se relacionan, en donde, entre mayor sean estas medidas, mayor
será el grado de asociación que tendrán las variables. Si se define
$x_1, x_2, \ldots, x_n$
y $y_1, y_2, \ldots, y_n$
como dos conjuntos
de $n$
observaciones, entonces
Covarianza
Mide si existe o no dependencia lineal entre las variables, e indica el
grado de variación conjunta de dos variables respecto a sus medias
\begin{align*} S_{xy} = \frac{1}{n}\sum_{i=1}^n{(x_i-\bar{X})(y_i-\bar{Y})} \end{align*}
El signo de $S_{xy}$
indica el tipo de dependencia lineal que hay
entre las variables.
$S_{xy} > 0$
indica que hay dependencia lineal positiva entre las variables, es decir, cuando aumenta una variable, la otra también aumenta.$S_{xy} < 0$
indica que hay dependencia lineal negativa entre las variables, es decir, cuando aumenta una variable, la otra disminuye.$S_{xy} \approx 0$
indica que no existencia dependencia lineal entre las dos variables.
En R puede calcularse la covarianza de dos conjunto de
observaciones mediante la función cov(datos1, datos2)
.
Ejercicio Caso de Estudio
Calcule la covarianza que existe entre la variable precio de venta en metros cuadrados preciovtax y la variable del metros cuadrados de la unidad de garaje areaunitga.
Solución en R
Para realizar el cálculo en R del coeficiente de covarianza que
existe entre las variables preciovtax y areaunitga, se
emplea la función cov()
, tal que
cov(datos$preciovtax, datos$areaunitga)
[1] 1806.643
Lo cual significa que la covarianza entre la variable precio de venta en metros cuadrados preciovtax y la variable del metros cuadrados de la unidad de garaje areaunitga es de \(1806.643\), y por tanto, como dicho valor es positivo significa que existe una dependencia lineal positiva entre estas dos variables.
Correlación
Mide la fuerza de la dependencia lineal que hay entre variables, esta va
entre -1 y 1
\begin{align*} \rho_{xy} = \frac{S_{xy}}{S_{x}S_{y}} \quad \quad -1<\rho_{xy}<1 \end{align*}
El valor de $\rho_{xy}$
indica el tipo y fuerza de la dependencia
lineal que hay entre las variables
$\rho_{xy} = 1$
indica que existe dependencia lineal positiva exacta entre las variables, es decir, cuando aumenta una variable, la otra aumenta proporcionalmente en la misma cantidad. Este aumento es de la forma$Y = a + bX$
, siendo$a$
y$b$
dos constantes, con$b>0$
.$\rho_{xy} = -1$
indica que existe dependencia lineal negativa exacta entre las variables, es decir, cuando aumenta una variable, la otra disminuye proporcionalmente en la misma cantidad. Este aumento es de la forma$Y = a + bX$
con$a y b$
dos constantes, y$b<0$
.$\rho_{xy} = 0$
No existe dependencia lineal entre las variables.
Además, se tendrá que si
$0.5 < \rho_{xy} \leq 1$
fuerte correlación positiva entre$X$
y$Y$
.$0.3 < \rho_{xy} \leq 0.5$
moderada correlación positiva entre$X$
y$Y$
.$0.1 < \rho_{xy} \leq 0.3$
débil correlación positiva entre$X$
y$Y$
.$-0.1 \leq \rho_{xy} \leq 0.1$
débil o ninguna correlación entre$X$
y$Y$
.$-0.3 \leq \rho_{xy} < -0.1$
débil correlación negativa entre$X$
y$Y$
.$-0.5 \leq \rho_{xy} < -0.3$
moderada correlación negativa entre$X$
y$Y$
.$-1 \leq \rho_{xy} < -0.5$
fuerte correlación negativa entre$X$
y$Y$
.
En R puede calcularse la correlación de dos conjunto de
observaciones mediante la función cor(datos1, datos2)
.
Ejercicio Caso de Estudio
Calcule la correlación que existe entre la variable precio de venta en metros cuadrados preciovtax y la variable del metros cuadrados de la unidad de garaje areaunitga.
Solución en R
Para realizar el cálculo en R la correlación que existe entre
las variables preciovtax y areaunitga, se emplea la
función cor()
, tal que
cor(datos$preciovtax, datos$areaunitga)
[1] 0.4419193
Lo cual significa que la correlación que exite entre la variable precio de venta en metros cuadrados preciovtax y la variable del metros cuadrados de la unidad de garaje areaunitga es del \(44.19%\), lo cual significa que hay una relación lineal positiva moderada entre estas dos variables.