La colinealidad en regresión logística

Observando la fórmula para la estimación de los coeficientes y la de la matriz de varianzas de los mismos, se comprueba que la matriz J=X’GX juega, en la regresión logística, el mismo papel que la X'X en la regresión lineal, es decir, hay que invertirla tanto para estimar los coeficientes como sus varianzas. Por consiguiente, si la matriz J es singular el modelo es irresoluble y si es casi-singular existen problemas de precisión numérica y estadística, siendo, además, inestable la estimación.

Aunque, estrictamente, no es un problema de colinealidad (aparece la matriz G y por lo tanto no es la colinealidad entre variables lo que hace que dicha matriz sea singular) se sigue hablando, por analogía, de colinealidad y, lo que es más importante, el diagnóstico de la misma se hace de la misma manera, es decir, calculando los índices de condición para la matriz J, también escalada para que su diagonal principal esté formada por unos, y calculando a partir de los autovectores de la misma, la matriz de descomposición de la varianza de los estimadores. Evidentemente, por no ser un problema de colinealidad, el factor de inflación de la varianza no es útil ahora.

Una dificultad añadida en la regresión logística es que la matriz J no depende sólo de los datos, sino también de los coeficientes del modelo (a través de G ) y pudiera darse el caso de que, en el proceso iterativo de estimación y para unos ciertos valores iniciales de los coeficientes, J fuera singular en algún paso del proceso alejado de la solución final y que, sin embargo, si se partiera de otros valores iniciales se pudiera acabar la estimación sin problemas. También puede ocurrir que, debido a la falta de precisión ligada a la casi-colinealidad de algún paso intermedio, el método de Newton-Raphson no convergiera para unos valores iniciales y, sin embargo, sí convergiera para otros. En caso de que aparezcan estos problemas, un modo de minimizarlos es, ayudándose del diagnóstico de colinealidad, intentar la estimación con distintos valores iniciales, incluyendo estimaciones aproximadas de los coeficientes.

Ejemplo 10

Realizar el diagnóstico de colinealidad para el modelo del ejemplo 9. El SPSS (ver 10.0) no realiza el diagnóstico de colinealidad, de modo que la salida que se presenta aquí es la del PRESTA. Para los coeficientes estimados, los índices de condición y la matriz de descomposición de varianzas son:

REGRESION LOGISTICA CON LOS COEFICIENTES

Const.: -1.6094   CAFE: -.6932   MEDIO: 1.6094   CAFXME: 1.4508

FACTOR AUTOVALOR INDICE CONDICION
1 3.41484 1.00000
2 .47826 2.67211
3 .08687 6.26991
4 .02004 13.05337

PROPORCION DE VARIANZA EN LOS FACTORES

FACTOR Const. CAFE MEDIO CAFXME
1 .0059 .0039 .0057 .0037
2 .0472 .0273 .0370 .0264
3 .3060 .1064 .3113 .0878
4 .6409 .8624 .6460 .8821

El mayor índice de condición es 13,05; por lo tanto para este modelo no aparecen problemas de colinealidad.

INDICE CAPÍTULO ANTERIOR SIGUIENTE CAPÍTULO VOLVER A BIOESTADÍSTICA