Análisis de los residuos

Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada también en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso.

Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria

siendo k cualquier número real positivo. Otro modo alternativo de escribirlo es

Por lo tanto, un modo de contrastar, sin la asunción de normalidad, la hipótesis nula

H0 : ai = a

es calcular el cociente

y la probabilidad de error tipo I al rechazarla es £ 1/k2

Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estimación de EE(ai) no es válida.

Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en que las variables ex1,...,xk son independientes, distribuidas normalmente con media cero y todas con la misma varianza s2

ex1,...,xk es un conjunto de variables, una para cada combinación x1,...,xk de valores de las variables X1,...,Xk.

denominados residuos, son los valores que en la muestra toman estas variables.

Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable ex1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable e80,35,0; el del segundo a la variable e30,40,2; etc., es decir, para cada variable sólo se tiene un valor muestral.

Para el problema del ejemplo 8, sin embargo, sólo hay cuatro variables: e0,0, e1,0, e0,1 y e1,1 y sí puede haber suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de ajuste a la distribución normal (ji-cuadrado o Kolmogorov-Smirnov) y de homoscedasticidad (Bartlett).

El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0) y la misma varianza (s2), los residuos () también tienen una distribución normal con media 0 y varianza desconocida s2 y, simplemente, contrastar este extremo.

Al conjunto de técnicas que se usan para ello se le denomina análisis de los residuos.

El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una población normal con media 0 y varianza s 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.

Hay que tener en cuenta que de este modo se están contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida también a que el modelo sea inapropiado o a existencia de heterocedasticidad.

Teniendo en cuenta que (n-(k+1))s2/ s2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable

llamada residuo normalizado tendrá una distribución t de Student con (n-(k+1)) grados de libertad, que para valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribución de esta variable en lugar de el residuo.

Además de estas pruebas de significación para asegurar que globalmente se cumplen las asunciones del modelo, es útil realizar un análisis gráfico de los mismos que permite discriminar entre distintas violaciones de las mismas. Si se representara en una gráfica bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observaría una nube de puntos en dirección horizontal y con anchura constante (la media de cada ex1,...,xk debería ser cero y tener todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma estimación una gráfica de los residuos contra los valores predichos tendrá el mismo aspecto (fig. A).

Si se viola la linealidad se observará una falta de linealidad también en los residuos (fig. B), si se viola la homoscedasticidad, la anchura de la banda no será constante (fig. C), una relación lineal entre los residuos y las predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D).


INDICE Capítulo anterior Siguiente capítulo VOLVER A BIOESTADÍSTICA