Análisis de Regresión

El análisis de regresión es una técnica estadística que se emplea para investigar y modelar la relación existente entre variables.

Existen numerosas aplicaciones del análisis de regresión, las cuales se dan en casi cualquier campo de estudio como lo es en ingeniería, economía, biología, medicina, ciencias sociales, entre otras, y por tanto puede ser considerada como la técnica estadística más usada en la práctica.

Para entender este tipo de relación, se suponen inicialmente dos variables, la primera variable será la variable $Y$ la cual es variable dependiente o variable respuesta, mientras que la segunda variable será la variable $X$ la cual es la variable independiente o variable explicativa.

El objetivo será estudiar la relación asociada entre $Y$ y $X$ (la cual no es necesariamente de causa-efecto), y para ello miraremos los siguientes casos de estudio.

  1. Caso 1 (Diseño experimental controlado): Se realiza un estudio en un supermercado para observar la relación existente entre el espacio asignado para la exhibición de licores y las ventas semanales de licores que se realizan. Suponga que durante \(15\) semanas se decide distribuir de forma aleatoria el espacio disponible para la exhibición, usando como referencia el número de estanterías iguales a \(3\), \(5\) y \(7\). Los resultados para las \(15\) semanas se registran a continuación.
    Espacio asignado Ventas semanales
    3 491
    7 534
    3 495
    3 500
    5 496
    7 527
    5 491
    3 476
    5 512
    5 492
    7 546
    7 532
    5 492
    3 461
    7 529
      Interés - Objetivos
    • Investigar la relación existente entre las ventas semanales y el espacio asignado.
    • Determinar si hay una relación significativa entre el espacio asignado a los licores y las ventas semanales.
    • Hacer la estimación de las ventas semanales cuando se asigna un espacio para exhibición de licor de \(7\) estanterías.
    • Predecir el valor de las ventas semanales si para la semana siguiente se asigna un espacio de \(4\) estanterías para exhibir licor.
  2. Caso 2 (Mediciones Repetidas): Un estudiante de gestión socioeconómica de proyectos quiere observar si hay una relación entre el gasto en campañas publicitarias y las donaciones recibidas para la construcción de parques y bibliotecas para sectores de la población con bajos recursos. Para realizar el estudio se toma como referencia \(10\) meses en los cuales hicieron gastos en publicidad y obtuvieron los siguientes datos en millones de pesos
    Gasto en Publicidad Donaciones recibidas
    40 385
    20 400
    25 395
    20 365
    30 475
    50 440
    40 490
    20 420
    50 560
    40 525
      Interés - Objetivos
    • Investigar la relación existente entre las ventas semanales y el espacio asignado.
    • Ajustar un modelo que permita explicar las donaciones recibidas en función del gasto en publicidad.
    • Predecir el valor de las donaciones realizadas en caso de gastar en publicidad \(53\) millones de pesos.
  3. Caso 3 (Datos Históricos): Un perito desea determinar si existe alguna relación entre el costo de una propiedad y el valor registrado en el predial. Para ello selecciona \(10\) propiedades de una base de datos y registra el valor de la propiedad para verificar el valor registrado en el predial obteniendo los siguientes resultados en millones de pesos
    Costo propiedad Valor predial
    214.199 112.361
    284.061 238.541
    239.673 159.144
    269.327 212.431
    192.689 74.433
    250.846 178.492
    260.795 196.032
    246.879 172.886
    238.412 156.830
    223.949 191.174
      Interés - Objetivos
    • Ajustar un modelo de regresión que explique el valor comercial de la propiedad en función del valor del predial
    • Predecir el valor de una propiedad cuyo valor en el predial es de \(180\) millones de pesos.
    Nota: Note que en este último caso, el costo de la propiedad \(Y\), puede estar determinada por otras variables además del predial, pero inicialmente solo nos concentraremos en la relación lineal entre el costo y el predial.

Regresión Lineal Simple

Si se supone que la relación entre $Y$ y $X$ es lineal, un modelo adecuado estaría dado por \begin{align*} Y=\beta_0 + \beta_1 X+ \varepsilon \quad \quad (I) \end{align*}

donde

  • $\beta_0$ y $\beta_1$: son dos constantes desconocidas denominadas parámetros del modelo, estimados a partir de los datos.
  • $\beta_0$ representa el intercepto.
  • $\beta_1$ representa la pendiente.
  • $\varepsilon$ representa al componente de error aleatorio denominado error estadístico, el cual explica por qué el modelo de regresión lineal simple no ajusta exactamente los datos.

Nota: Es de anotar que el término de error $\varepsilon$ contiene todos los efectos de otras variables que no fueron consideradas en el modelo, errores de medición u otras consideraciones no tenidas en cuenta por el investigador.

Supuestos del modelo de regresión lineal simple

  1. Se tiene una muestra aleatoria de $n$ parejas $(y_1, x_1), (y_2, x_2), \ldots, (y_n, x_n)$, en donde el objetivo principal del análisis de regresión es encontrar la recta que mejor ajuste a los pares de observaciones, y por tanto se supone que las parejas satisfacen el modelo $(I)$, tal que \begin{align*} y_i=\beta_0 + \beta_1 x_i+ \varepsilon_i \quad \text{ para } i =0,1,2, \ldots, n \quad \quad (II) \end{align*} donde $y_i$ es la i-ésima observación de la variable $Y$, dado que $X$ es igual a $x_i$.
  2. Del modelo $(II)$ suponga que las $\varepsilon_i$ son variables aleatorias independientes con media $\mathbb{E}(\varepsilon_i)=0$ y varianza $Var(\varepsilon_i)=\sigma^2$, de tal forma que \begin{align*} \mathbb{E}(y_i)=\beta_0 + \beta_1 x_i+ \mathbb{E}(\varepsilon_i) = \beta_0 + \beta_1 x_i \end{align*} y \begin{align*} Var(y_i)=Var(\varepsilon_i) = \sigma^2 \end{align*} en donde, si además se cumple que $\varepsilon_i\sim N(0,\sigma^2)$, entonces se tendrá que \begin{align*} y_i\sim N(\beta_0+\beta_1x_i, \sigma^2) \end{align*}

Estimación de parámetros

El objetivo de un modelo de regresión será entonces estimar los parámetros $\beta_0, \beta_1, \sigma^2$ del modelo lineal, y para ello puede recurrirse a diferentes métodos, entre los cuales destaca el método de Máxima Verosimilitud y el método de mínimos cuadrados.

Método de Máxima Verosimiliud

Bajo el supuesto de que $\varepsilon \stackrel{iid}{\sim} N(0,\sigma^2)$, entonces $y_i|x_i \stackrel{iid}{\sim} N(\beta_0 + \beta_1 x_i, \sigma^2)$, luego la función de verosimilitud asociada a los pares $(y_1, x_1)$, $(y_2, x_2)$, $\ldots$, $ (y_n,x_n)$ está dada por \begin{align*} L(\beta_0, \beta_1, \sigma^2; (y_i, x_i)) &= \prod_{i=1}^n f(y_i; \beta_0, \beta_1, \sigma^2)\\ &= \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sqrt{\sigma^2}}e^{-\frac{1}{2}\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{\sigma^2}} \end{align*}

Entonces, al maximizar la función de probabilidad tal como se enseño en la Clase 08 se encontrará que los estimadores de $\beta_0$, $\beta_1$ y $\sigma^2$ que maximizan $L(\cdot)$ están dados por

\begin{align*} \hat{\beta}_0&=\bar{Y} - \hat{\beta}_1\bar{X}\\ \hat{\beta}_1&=\frac{S_{xy}}{S_{xx}}= \frac{\sum_{i=1}^n (x_i - \bar{X})(y_i - \bar{Y})}{\sum_{i=1}^{n}(x_i - \bar{X})^2} = \frac{\sum_{i=1}^{n}(x_i-\bar{X}) y_i}{\sum_{i=1}^{n} (x_i - \bar{X})^2}\\ \hat{\sigma}^2&= \frac{\sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2}{n} \end{align*}

Método de Mínimos Cuadrados

Sea una muestra aleatoria $(y_1, x_1), (y_2, x_2), \ldots, (y_n, x_n)$ a partir de la cual se desea ajustar el siguiente modelo \begin{align*} y_i=\beta_0 + \beta_1 x_i+ \varepsilon_i \end{align*}

donde $\varepsilon_i$ es una variable aleatoria desconocida con distribución de probabilidad independiente e idénticamente distribuida con media $\mathbb{E}(\varepsilon_i)=0$ y varianza $Var(\varepsilon_i)=\sigma^2$.

Entonces si denotamos a $\hat{\beta}_0, \hat{\beta}_1$, los estimadores de los parámetros $\beta_0, \beta_1$, entonces la recta de regresión estimada será \begin{align*} \hat{y_i}=\hat{\beta}_0 + \hat{\beta}_1 x_i \end{align*}

donde $\hat{y}_i$ es el estimador de $\mathbb{E}(y_i|x=x_i)$. Entonces la diferencia entre $y_i$ y $\hat{y_i}$ se conoce como error de estimación del ajuste $e_i$ y está dado por \begin{align*} e_i = y_i - \hat{y}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \end{align*}

Supuestos

  • $e_i\sim N(0,\sigma^2_e)$, varianza constante (homocedasticidad)
  • $cov(e_i. e_j)=0$ para todo $i \neq j$.

A partir de la ecuación anterior será posible encontrar los estimadores $\hat{\beta}_0$ y $\hat{\beta}_1$ mediante la minimización de la suma de los cuadrados de los errores.

\begin{align*} SCE=\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n (y_i -\hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \end{align*}

de la forma

\begin{align*} \frac{\partial SCE}{\partial \hat{\beta}_i} = 0 \end{align*}

Al resolver el sistema de ecuaciones se obtendrá que

\begin{align*} \hat{\beta}_1 &= \frac{\sum_{i=1}^n (x_i-\bar{X})(y_i-\bar{Y})}{\sum_{i=1}^n (x_i-\bar{X})^2} = \frac{S_{xy}}{S_{xx}}\\ \hat{\beta}_0 &= \bar{Y} - \hat{\beta}_1\bar{X} \end{align*}

Note que

  • Los EMV para $\beta_0$ y $\beta_1$ coinciden con los estimadores de mínimos cuadrados.
  • Observe que $\hat{\beta}_0$ y $\hat{\beta}_1$ pueden ser reescritos como

\begin{align*} \hat{\beta}_1 &= \sum_{i=1}^{n} y_ic_i \qquad \text{ donde } c_i=\frac{(x_i-\bar{X})}{\sum_{i=1}^{n}(x_i - \bar{X})^2}\\ \hat{\beta}_0 &= \sum_{i=1}^{n} y_i di \qquad \text{ donde } d_i=\left(\frac{1}{n} - c_i\bar{X}\right) \end{align*}

Además, se puede probar que

  • $\sum_{i=1}^{n}c_i=0$
  • $\sum_{i=1}^{n}d_i=1$
  • $\sum_{i=1}^{n}c_ix_i=1$
  • $\sum_{i=1}^{n}d_ix_i=0$
  • $\sum_{i=1}^{n}c_i^2=\frac{1}{\sum_{i=1}^{n} (x_i-\bar{X})^2} = \frac{1}{S_{xx}}$
  • $\sum_{i=1}^{n}d_i^2=\frac{\sum_{i=1}^{n}x_i^2}{n\sum_{i=1}^{n} (x_i-\bar{X})^2} = \frac{\sum_{i=1}^{n}x_i^2}{nS_{xx}}$

Propiedades de $\hat{\beta}_0, \hat{\beta}_1$

A continuación se presentan algunas propiedades que cumplen los estimadores de los parámetros $\hat{\beta}_0, \hat{\beta}_1$. La demostración corre por cuenta del estudiante.

  • $\mathbb{E}(\hat{\beta}_0) = \beta_0$
  • $\mathbb{E}(\hat{\beta}_1) = \beta_1$
  • $Var(\hat{\beta}_0) = \sigma^2 \left[\frac{1}{n} + \frac{\bar{X}^2}{S_{xx}}\right]$
  • $Var(\hat{\beta}_1) = \frac{1}{S_{xx}}\sigma^2$

Nota

Dado que el método de mínimos cuadrados no posee un estimador para la varianza $\sigma^2$, se emplea entonces un estimador insesgado el cual estará dado por \begin{align*} \sigma^2_e &=\frac{1}{n-2}\sum_{i=1}^n e^2_i \\ &= \frac{1}{n-2}\sum_{i=1}^n (y_i - \hat{y}_i)^2 \\ &= \frac{S_{yy} - \hat{\beta}_1 S_{xy}}{n-2} \end{align*}