Análisis de Regresión
El análisis de regresión es una técnica estadística que se emplea para investigar y modelar la relación existente entre variables.
Existen numerosas aplicaciones del análisis de regresión, las cuales se dan en casi cualquier campo de estudio como lo es en ingeniería, economía, biología, medicina, ciencias sociales, entre otras, y por tanto puede ser considerada como la técnica estadística más usada en la práctica.
Para entender este tipo de relación, se suponen inicialmente dos
variables, la primera variable será la variable $Y$
la cual es
variable dependiente o variable respuesta, mientras que la segunda
variable será la variable $X$
la cual es la variable independiente o
variable explicativa.
El objetivo será estudiar la relación asociada entre $Y$
y $X$
(la
cual no es necesariamente de causa-efecto), y para ello miraremos los
siguientes casos de estudio.
-
Caso 1 (Diseño experimental controlado): Se realiza un
estudio en un supermercado para observar la relación existente entre el
espacio asignado para la exhibición de licores y las ventas semanales de
licores que se realizan. Suponga que durante \(15\) semanas se decide
distribuir de forma aleatoria el espacio disponible para la exhibición,
usando como referencia el número de estanterías iguales a \(3\), \(5\) y
\(7\). Los resultados para las \(15\) semanas se registran a
continuación.
Espacio asignado Ventas semanales 3 491 7 534 3 495 3 500 5 496 7 527 5 491 3 476 5 512 5 492 7 546 7 532 5 492 3 461 7 529 -
Interés - Objetivos
- Investigar la relación existente entre las ventas semanales y el espacio asignado.
- Determinar si hay una relación significativa entre el espacio asignado a los licores y las ventas semanales.
- Hacer la estimación de las ventas semanales cuando se asigna un espacio para exhibición de licor de \(7\) estanterías.
- Predecir el valor de las ventas semanales si para la semana siguiente se asigna un espacio de \(4\) estanterías para exhibir licor.
-
Caso 2 (Mediciones Repetidas): Un estudiante de gestión
socioeconómica de proyectos quiere observar si hay una relación entre el
gasto en campañas publicitarias y las donaciones recibidas para la
construcción de parques y bibliotecas para sectores de la población con
bajos recursos. Para realizar el estudio se toma como referencia \(10\)
meses en los cuales hicieron gastos en publicidad y obtuvieron los
siguientes datos en millones de pesos
Gasto en Publicidad Donaciones recibidas 40 385 20 400 25 395 20 365 30 475 50 440 40 490 20 420 50 560 40 525 -
Interés - Objetivos
- Investigar la relación existente entre las ventas semanales y el espacio asignado.
- Ajustar un modelo que permita explicar las donaciones recibidas en función del gasto en publicidad.
- Predecir el valor de las donaciones realizadas en caso de gastar en publicidad \(53\) millones de pesos.
-
Caso 3 (Datos Históricos): Un perito desea determinar
si existe alguna relación entre el costo de una propiedad y el valor
registrado en el predial. Para ello selecciona \(10\) propiedades de una
base de datos y registra el valor de la propiedad para verificar el
valor registrado en el predial obteniendo los siguientes resultados en
millones de pesos
Costo propiedad Valor predial 214.199 112.361 284.061 238.541 239.673 159.144 269.327 212.431 192.689 74.433 250.846 178.492 260.795 196.032 246.879 172.886 238.412 156.830 223.949 191.174 -
Interés - Objetivos
- Ajustar un modelo de regresión que explique el valor comercial de la propiedad en función del valor del predial
- Predecir el valor de una propiedad cuyo valor en el predial es de \(180\) millones de pesos.
Regresión Lineal Simple
Si se supone que la relación entre $Y$
y $X$
es lineal, un modelo
adecuado estaría dado por
\begin{align*} Y=\beta_0 + \beta_1 X+ \varepsilon \quad \quad (I) \end{align*}
donde
$\beta_0$
y$\beta_1$
: son dos constantes desconocidas denominadas parámetros del modelo, estimados a partir de los datos.$\beta_0$
representa el intercepto.$\beta_1$
representa la pendiente.$\varepsilon$
representa al componente de error aleatorio denominado error estadístico, el cual explica por qué el modelo de regresión lineal simple no ajusta exactamente los datos.
Nota: Es de anotar que el término de error $\varepsilon$
contiene
todos los efectos de otras variables que no fueron consideradas en el
modelo, errores de medición u otras consideraciones no tenidas en cuenta
por el investigador.
Supuestos del modelo de regresión lineal simple
- Se tiene una muestra aleatoria de
$n$
parejas$(y_1, x_1), (y_2, x_2), \ldots, (y_n, x_n)$
, en donde el objetivo principal del análisis de regresión es encontrar la recta que mejor ajuste a los pares de observaciones, y por tanto se supone que las parejas satisfacen el modelo$(I)$
, tal que\begin{align*} y_i=\beta_0 + \beta_1 x_i+ \varepsilon_i \quad \text{ para } i =0,1,2, \ldots, n \quad \quad (II) \end{align*}
donde$y_i$
es la i-ésima observación de la variable$Y$
, dado que$X$
es igual a$x_i$
. - Del modelo
$(II)$
suponga que las$\varepsilon_i$
son variables aleatorias independientes con media$\mathbb{E}(\varepsilon_i)=0$
y varianza$Var(\varepsilon_i)=\sigma^2$
, de tal forma que\begin{align*} \mathbb{E}(y_i)=\beta_0 + \beta_1 x_i+ \mathbb{E}(\varepsilon_i) = \beta_0 + \beta_1 x_i \end{align*}
y\begin{align*} Var(y_i)=Var(\varepsilon_i) = \sigma^2 \end{align*}
en donde, si además se cumple que$\varepsilon_i\sim N(0,\sigma^2)$
, entonces se tendrá que\begin{align*} y_i\sim N(\beta_0+\beta_1x_i, \sigma^2) \end{align*}
Estimación de parámetros
El objetivo de un modelo de regresión será entonces estimar los
parámetros $\beta_0, \beta_1, \sigma^2$
del modelo lineal, y para ello
puede recurrirse a diferentes métodos, entre los cuales destaca el
método de Máxima Verosimilitud y el método de mínimos cuadrados.
Método de Máxima Verosimiliud
Bajo el supuesto de que
$\varepsilon \stackrel{iid}{\sim} N(0,\sigma^2)$
, entonces
$y_i|x_i \stackrel{iid}{\sim} N(\beta_0 + \beta_1 x_i, \sigma^2)$
,
luego la función de verosimilitud asociada a los pares $(y_1, x_1)$
,
$(y_2, x_2)$
, $\ldots$
, $ (y_n,x_n)$
está dada por
\begin{align*} L(\beta_0, \beta_1, \sigma^2; (y_i, x_i)) &= \prod_{i=1}^n f(y_i; \beta_0, \beta_1, \sigma^2)\\ &= \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sqrt{\sigma^2}}e^{-\frac{1}{2}\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{\sigma^2}} \end{align*}
Entonces, al maximizar la función de probabilidad tal como se enseño en
la
Clase
08 se encontrará que los estimadores de $\beta_0$
, $\beta_1$
y
$\sigma^2$
que maximizan $L(\cdot)$
están dados por
\begin{align*} \hat{\beta}_0&=\bar{Y} - \hat{\beta}_1\bar{X}\\ \hat{\beta}_1&=\frac{S_{xy}}{S_{xx}}= \frac{\sum_{i=1}^n (x_i - \bar{X})(y_i - \bar{Y})}{\sum_{i=1}^{n}(x_i - \bar{X})^2} = \frac{\sum_{i=1}^{n}(x_i-\bar{X}) y_i}{\sum_{i=1}^{n} (x_i - \bar{X})^2}\\ \hat{\sigma}^2&= \frac{\sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2}{n} \end{align*}
Método de Mínimos Cuadrados
Sea una muestra aleatoria $(y_1, x_1), (y_2, x_2), \ldots, (y_n, x_n)$
a partir de la cual se desea ajustar el siguiente modelo
\begin{align*} y_i=\beta_0 + \beta_1 x_i+ \varepsilon_i \end{align*}
donde $\varepsilon_i$
es una variable aleatoria desconocida con
distribución de probabilidad independiente e idénticamente distribuida
con media $\mathbb{E}(\varepsilon_i)=0$
y varianza
$Var(\varepsilon_i)=\sigma^2$
.
Entonces si denotamos a $\hat{\beta}_0, \hat{\beta}_1$
, los
estimadores de los parámetros $\beta_0, \beta_1$
, entonces la recta de
regresión estimada será
\begin{align*} \hat{y_i}=\hat{\beta}_0 + \hat{\beta}_1 x_i \end{align*}
donde $\hat{y}_i$
es el estimador de $\mathbb{E}(y_i|x=x_i)$
.
Entonces la diferencia entre $y_i$
y $\hat{y_i}$
se conoce como
error de estimación del ajuste $e_i$
y está dado por
\begin{align*} e_i = y_i - \hat{y}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \end{align*}
Supuestos
$e_i\sim N(0,\sigma^2_e)$
, varianza constante (homocedasticidad)$cov(e_i. e_j)=0$
para todo$i \neq j$
.
A partir de la ecuación anterior será posible encontrar los estimadores
$\hat{\beta}_0$
y $\hat{\beta}_1$
mediante la minimización de la
suma de los cuadrados de los errores.
\begin{align*} SCE=\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n (y_i -\hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \end{align*}
de la forma
\begin{align*} \frac{\partial SCE}{\partial \hat{\beta}_i} = 0 \end{align*}
Al resolver el sistema de ecuaciones se obtendrá que
\begin{align*} \hat{\beta}_1 &= \frac{\sum_{i=1}^n (x_i-\bar{X})(y_i-\bar{Y})}{\sum_{i=1}^n (x_i-\bar{X})^2} = \frac{S_{xy}}{S_{xx}}\\ \hat{\beta}_0 &= \bar{Y} - \hat{\beta}_1\bar{X} \end{align*}
Note que
- Los EMV para
$\beta_0$
y$\beta_1$
coinciden con los estimadores de mínimos cuadrados. - Observe que
$\hat{\beta}_0$
y$\hat{\beta}_1$
pueden ser reescritos como
\begin{align*} \hat{\beta}_1 &= \sum_{i=1}^{n} y_ic_i \qquad \text{ donde } c_i=\frac{(x_i-\bar{X})}{\sum_{i=1}^{n}(x_i - \bar{X})^2}\\ \hat{\beta}_0 &= \sum_{i=1}^{n} y_i di \qquad \text{ donde } d_i=\left(\frac{1}{n} - c_i\bar{X}\right) \end{align*}
Además, se puede probar que
$\sum_{i=1}^{n}c_i=0$
$\sum_{i=1}^{n}d_i=1$
$\sum_{i=1}^{n}c_ix_i=1$
$\sum_{i=1}^{n}d_ix_i=0$
$\sum_{i=1}^{n}c_i^2=\frac{1}{\sum_{i=1}^{n} (x_i-\bar{X})^2} = \frac{1}{S_{xx}}$
$\sum_{i=1}^{n}d_i^2=\frac{\sum_{i=1}^{n}x_i^2}{n\sum_{i=1}^{n} (x_i-\bar{X})^2} = \frac{\sum_{i=1}^{n}x_i^2}{nS_{xx}}$
Propiedades de $\hat{\beta}_0, \hat{\beta}_1$
A continuación se presentan algunas propiedades que cumplen los
estimadores de los parámetros $\hat{\beta}_0, \hat{\beta}_1$
. La
demostración corre por cuenta del estudiante.
$\mathbb{E}(\hat{\beta}_0) = \beta_0$
$\mathbb{E}(\hat{\beta}_1) = \beta_1$
$Var(\hat{\beta}_0) = \sigma^2 \left[\frac{1}{n} + \frac{\bar{X}^2}{S_{xx}}\right]$
$Var(\hat{\beta}_1) = \frac{1}{S_{xx}}\sigma^2$
Nota
Dado que el método de mínimos cuadrados no posee un estimador para la
varianza $\sigma^2$
, se emplea entonces un estimador insesgado el cual
estará dado por
\begin{align*} \sigma^2_e &=\frac{1}{n-2}\sum_{i=1}^n e^2_i \\ &= \frac{1}{n-2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 \\ &= \frac{S_{yy} - \hat{\beta}_1 S_{xy}}{n-2} \end{align*}