Análisis de Regresión
Analisis de varianza
Una forma equivalente de hacer la prueba de significancia de la
regresión $H_0:\beta_1=0$
vs $H_1:\beta_1\neq0$
es a partir del
análisis de varianza, donde se descompone la varianza total de $Y$
($SCT$
) en dos fuentes, la variabilidad explicada por el modelo
($SCR$
) y la variabilidad no explicada por el modelo ($SCE$
).
$SCT = \sum_{i=1}^n (y_i-\bar{Y})^2$
$SCR = \sum_{i=1}^n (\hat{y}_i-\bar{Y})^2$
$SCE = \sum_{i=1}^n (y_i-\hat{y}_i)^2$
Observe que las diferencias de las $y_i$
con a su media $\bar{Y}$
pueden escribirse como
\begin{align*} (y_i - \bar{Y}) = (\hat{y}_i - \bar{Y}) + (\underbrace{y_i - \hat{y_i}}_{e_i}) \end{align*}
lo cual puede reescribirse como
\begin{align*} SCT = SCR + SCE \end{align*}
al aplicar la función de sumatoria a ambos lados de la función.
Nota
a)Para llegar a la ecuación anterior se puede verificar que
\begin{align*} \sum_{i=1}^{n}(\hat{y}_i - \bar{Y})e_i = \sum_{i=1}^{n}(\hat{y}_i - \bar{Y}) (y_i - \hat{y_i}) \end{align*}
b)La expresiones de $SCT$
, $SCR$
y $SCE$
pueden ser reescritas
como
\begin{align*} &SST = \sum_{i=1}^{n}y_i^2 - n\bar{Y}\\ &SSR = \hat{\beta}_1S_{xy} = \hat{\beta}_1^2 S_{xx}\\ &\text{y luego se podrá calcular }SCE \text{ como}\\ &SCE = SST - SSR \end{align*}
c)Cada suma de cuadrados tiene asociado un número de grados de libertad
diferentes, tal que
\begin{align*} \underbrace{SCT}_{n-1} = \underbrace{SCR}_{1} + \underbrace{SCE}_{n-2} \end{align*}
con base en lo anterior es posible construir estimadores independientes
de $\sigma^2$
, usando la respectiva suma de cuadrados dividido sus
grados de libertad, tal que
\begin{align*} MSR = \frac{SCR}{1} \quad \quad MSE = \frac{SCE}{n-2} \end{align*}
finalmente se establece el estadítico de prueba bajo el supuesto de
normalidad
\begin{align*} F_c= \frac{SCR / 1}{SCE / n-2} \sim F_{1, n-2} \end{align*}
En donde el criterio de decisión estará dado, la región crítica, la cual
estará dada por
\begin{align*} RC:\{F|F>F_{\alpha, 1, n-2}\} \end{align*}
o el P-valor, el cual estará dado por
\begin{align*} \text{P-valor} = \mathbb{P}(F_{1,n-2} > F_c) \end{align*}
donde si P-valor es menor al nivel de significancia $\alpha$
se
rechaza la hipótesis nula y se concluye que el modelo lineal propuesto
es significativo para explicar el comportamiento $Y$
.
Coeficiente de determinación
Una forma de medir la bondad del ajuste del modelo de regresión es
mediante el coeficiente de determinación $R^2$
, el cual se define como
\begin{align*} R^2=\frac{SCR}{SCT} = 1 - \frac{SCE}{SCT} \end{align*}
y representa la proporción de variación total de $Y$
, explicada por su
relación lineal con $X$
.
Dado que $R^2$
se encuentra entre $0$
y $1$
, entonces valores
cercanos a cero indican que la relación entre $X$
y $Y$
es muy
pobre, mientras que, valores cercanos a uno, indican que la recta
ajustada se aproxima relativamente bien a los puntos.
Nota: Un $R^2$
alto no garantiza necesariamente que el modelo
regresión lineal ajustado sea adecuado para los datos, debido que hay
factores que afectan a este valor, como lo es el número de datos usados.
Respuesta media y predicción de nuevas observaciones
Una importante utilidad del modelo de regresión es que nos permite la
estimación de la media de la distribución de $Y$
para un valor dado de
$X$
, y además nos permite realizar predicciones sobre una nueva
variable $y_0$
correspondiente a un nivel especificado de variables
$x_0$
.
Respuesta media
Considere un valor determinado $x = x_0$
, y el objetivo será estimar
su respuesta media $\mathbb{E}(Y|x_0)$
. La estimación puede ser
puntual o por intervalo, y donde, la estimación es válida solo para
valores de $x_0$
dentro del rango de valores originales de $X$
, que
se usaron para ajustar el modelo.
Entonces el estimador puntual de la respuesta media de $Y$
dado
$x_0$
\begin{align*} \hat{y_0}= \hat{\mathbb{E}}(Y|x_0)= \hat{\beta}_0 + \hat{\beta}_1 x_0 \end{align*}
donde se puede probar que
\begin{align*} \mathbb{E}(\hat{y_0}) &= \beta_0 + \beta_1 x_0 \\ Var(\hat{y_0}) &= \hat{\sigma}^2_e\left[\frac{1}{n} + \frac{(x_0 - \bar{X})^2}{S_{xx}}\right] \end{align*}
Además, para un nivel de confianza del $100(1-\alpha)\%$
un intervalo
de confianza para la respuesta media será de la forma
\begin{align*} \hat{y}_0 \pm t_{\frac{\alpha}{2}, n-2} \sqrt{\hat{\sigma}^2_e\left[\frac{1}{n}+ \frac{(x_0 - \bar{X})^2}{S_{xx}}\right]} \end{align*}
Es de anotar que si se decide construir un intervalo de confianza para
todos los posibles valores de X, se obtendrán las bandas de confianza
del $100(1-\alpha)\%$
para la respuesta media $\beta_0+\beta_1x_i$
Predicción de nuevas observaciones
Suponga que $x_0$
es un valor de interés que para predecir, entonces
para obtener un valor único $y_0$
, podremos utilizar la fórmula de la
recta de regresión tal que, al igual que en el caso de la respuesta
media la estimación puntual media de $Y$
dado $x_0$
\begin{align*} \hat{y_0}= \hat{\mathbb{E}}(Y|x_0)= \hat{\beta}_0 + \hat{\beta}_1 x_0 \end{align*}
Pero en este al ser un valor predicho tendremos que estimar la varianza
de la diferencia $\hat{y}_0 - y_0$
, la cual tiene una media
\begin{align*} \mathbb{E}(\hat{y_0} - y_0) &=\mathbb{E}[\hat{\beta}_0+\hat{\beta}_1x_0] - (\beta_0 + \beta_1 x_0 +\varepsilon)] = 0 \end{align*}
y varianza
\begin{align*} Var(\hat{y_0} - y_0) &= \sigma^2\left[\frac{1}{n} + \frac{(x_0 - \bar{X})^2}{S_{xx}}\right] + \sigma^2\\ &=\sigma^2\left[1 + \frac{1}{n} + \frac{(x_0 - \bar{X})^2}{S_{xx}}\right]\\ &=\hat{\sigma}^2_e\left[1 + \frac{1}{n} + \frac{(x_0 - \bar{X})^2}{S_{xx}}\right]\\ \end{align*}
Entonces, un intervalo de confianza del $100(1-\alpha)\%$
para un
valor predicho $y_0$
, se puede construir de la forma
\begin{align*} y_0 \pm t_{\frac{\alpha}{2}, n-2} \sqrt{\hat{\sigma}^2_e\left[1+\frac{1}{n}+ \frac{(x_0 - \bar{X})^2}{S_{xx}}\right]} \end{align*}
Es de anotar que si se decide construir un intervalo de confianza para
todos los posibles valores de X, se obtendrán las bandas de confianza
del $100(1-\alpha)\%$
para la predicción individual.