Regresión logística condicional

Regresión logística condicional

La función de verosimilitud a partir de la que se estiman los coeficientes del modelo logístico, asume que los datos son una muestra aleatoria de una variable binomial puntual. Es, junto con el modelo, la única asunción para la estimación y los contrastes de hipótesis realizados. Sin embargo, y como se ha visto en algunos ejemplos, cuando se estudian variables binomiales con baja probabilidad (por ejemplo, enfermedades raras) se suelen usar otros esquemas de muestreo. Sería muy poco eficiente elegir una muestra aleatoria de la población para estudiar, por ejemplo, algún tipo de cáncer, ya que se necesitaría un gran tamaño muestral para que hubiera suficientes enfermos en la muestra. Es por ello por lo que se usa el esquema caso-control o el llamado esquema apareado en el que el muestreo en las dos poblaciones se hace introduciendo restricciones para que las muestras de ambas queden en estratos homogéneos con respecto a alguna variable ajena a las variables de interés. Por ejemplo, y para evitar la posible confusión debida a la edad, en el problema del ejemplo 7, se muestrearía de tal modo que los enfermos y los no enfermos quedaran en estratos homogéneos según grupos de edad, es decir, se definirían, por ejemplo, 5 grupos de edad y se muestrearía independientemente para cada uno de ellos 10 enfermos y 10 no enfermos. Evidentemente, el esquema caso-control es un caso particular del esquema apareado (un sólo estrato) y la función de verosimilitud para ambos tipos de estudios no es la considerada hasta ahora que se conoce como función de verosimilitud no condicional y la estimación basada en ella como estimación no condicional. Existe también la llamada función de verosimilitud condicional aplicable a los estudios apareados.

Conviene destacar que, no obstante, se puede demostrar que en los diseños caso-control, si las probabilidades de elegir a los individuos en ambos grupos son independientes de las variables independientes del modelo, las estimaciones, tanto de los coeficientes como de su matriz de varianzas, a partir de las funciones de verosimilitud condicional y no condicional producen los mismos resultados, aunque, como ya se ha dicho en este caso el coeficiente a ₀ no tiene ningún significado. Hay que destacar también el riesgo de sesgo en la estimación si no se cumple la condición anterior (y no siempre es fácil de cumplir), sobre todo cuando el tamaño muestral es pequeño.

En la práctica, debido al enorme tiempo de cálculo necesario, la función condicional sólo se usa para estudios apareados y para estudios caso-control de pequeño tamaño muestral. Para estudios caso-control de tamaño muestral grande se usa la estimación no condicional. El límite entre qué se entiende aquí por grande y pequeño lo establece el tiempo de cálculo.

Ejemplo 11

Un diseño típico de un estudio apareado es el siguiente: para estudiar, p.e., la asociación entre la hepatitis B y el consumo de alcohol se seleccionan al azar 10 enfermos de hepatitis y para cada uno de ellos se selecciona también al azar 2 personas no enfermas con su mismo sexo y edad (es una manera de evitar que influyan en el resultado los distintos hábitos alcohólicos de los distintos grupos de edad y sexo) y para todos ellos se registra el consumo diario de alcohol en gramos y el consumo de otras drogas como 0: no y 1: sí. Se han creado, por tanto, 10 estratos y en cada uno de ellos el muestreo es independiente, por tanto la función de verosimilitud a usar es la condicional. Unos resultados hipotéticos, codificando 0: hepatitis y 1: no hepatitis, pueden ser:

hepatitis	alcohol	drogas	estrato
0	15	1	1
1	10	0	1
1	0	0	1
0	70	1	2
1	20	0	2
1	30	0	2
0	40	1	3
1	40	0	3
1	0	0	3
0	10	0	4
1	20	1	4
1	50	0	4
0	30	1	5
1	10	0	5
1	20	0	5
0	80	0	6
1	20	0	6
1	30	0	6
0	50	1	7
1	35	0	7
1	10	0	7
0	60	1	8
1	5	0	8
1	10	0	8
0	90	0	9
1	65	0	9
1	5	0	9
0	30	1	10
1	10	0	10
1	40	0	10

Para realizar el análisis de estos datos usando regresión logística condicional (con el PRESTA) y con una estrategia hacia adelante se empezaría con el modelo simple:

NOMBRE DE LOS DATOS: hepati

VARIABLE DEPENDIENTE: HEPA

NUMERO DE VARIABLES INDEPENDIENTES: 1 A SABER
ALCO

NUMERO DE ESTRATOS: 10 DEFINIDOS POR ESTRA
NUMERO MAXIMO DE ITERACIONES: 20
CONVERGENCIA OBTENIDA EN 6 ITERACIONES

VARIABLE	ALFA	EXP(ALFA)	EE. ALFA	Ji2	p
ALCO	.06021	1.06206	.02824	4.54553	.03116

LOG. MAX. VEROSIMILITUD = -6.78267
Ji-Cuadrado = 8.40690 G.L.= 1 p= .00387

INTERVALOS DE CONFIANZA AL 95% DE LOS "ODDS RATIO"
ALCO 1.00487 1.12251

Se encuentra una asociación significativa tanto con la prueba de Wald como con la del logaritmo del cociente de verosimilitudes. Nótese que el odds ratio de 1,06 es por aumento de 1 gramo en el consumo diario de alcohol.

Se ajusta ahora a un modelo que contenga también el consumo de otras drogas y, en aplicación del principio jerárquico, el término de interacción (una variable que sea el producto de las variables drogas y alcohol) entre ambas.

NOMBRE DE LOS DATOS: hepati

VARIABLE DEPENDIENTE: HEPA

NUMERO DE VARIABLES INDEPENDIENTES: 3 A SABER
ALCO DROGA ALXDRO

CONVERGENCIA OBTENIDA EN 8 ITERACIONES

VARIABLE	ALFA	EXP(ALFA)	EE. ALFA	Ji2	p
ALCO	.04189	1.04278	.03264	1.64746	.19615
DROGA	-1.27025	.28076	4.20961	.09105	.76070
ALXDRO	.14089	1.15129	.19227	.53691	.52955

LOG. MAX. VEROSIMILITUD= -3.73498
Ji-Cuadrado = 14.50229 G.L.= 3 p= .00247
Ji-Cuadrado modelo anterior = 6.09539 G.L.= 2 p= .04620

Comparando ambos modelos con la prueba del logaritmo del cociente de verosimilitudes, este último modelo es significativamente mejor que el anterior (p=0,0462) aunque ninguna de las dos nuevas variables por separado lo sea. Como la variable de interacción no es significativa se quitaría, y se ajustaría este otro modelo:

NOMBRE DE LOS DATOS: hepati

VARIABLE DEPENDIENTE: HEPA

NUMERO DE VARIABLES INDEPENDIENTES: 2 A SABER
ALCO DROGA

CONVERGENCIA OBTENIDA EN 6 ITERACIONES

VARIABLE	ALFA	EXP(ALFA)	EE. ALFA	Ji2	p
ALCO	.04874	1.04994	.03298	2.18412	.13515
DROGA	2.16908	8.75026	1.12496	3.71771	.05089

LOG. MAX. VEROSIMILITUD= -4.19040
Ji-Cuadrado = 13.59144 G.L.= 2 p= .00128
Ji-Cuadrado modelo anterior = .91086 G.L.= 1 p= .65808

INTERVALOS DE CONFIANZA AL 95% DE LOS "ODDS RATIO"
ALCO .98423 1.12005
DROGA .96479 79.36140

La significación global del modelo ha mejorado aunque ambos modelos no son significativamente diferentes (p=0,65808); si se compara este último con el primero con la prueba del logaritmo del cociente de verosimilitudes W=2(-4,1904-(-6,78267))=5,18454 Þ p=0,02161; por lo tanto este modelo es mejor que el primero que sólo contenía el alcohol, y aunque la prueba de Wald para DROGA está en el borde (p=0,05089), se aceptaría éste como mejor modelo. El objetivo del estudio es, sin embargo, encontrar la asociación con el alcohol, por consiguiente la variable DROGA sólo interesa como factor de confusión, con independencia de su significación estadística, en este sentido se aprecia una ligera disminución de la asociación (OR=1,04994 en el último modelo frente a OR=1,06206 del primero) junto a la desaparición de su significación estadística (con tan pocos datos puede tratarse de un problema de potencia). El investigador deberá decidir si este cambio constituye un efecto de confusión y en caso contrario volver al primer modelo.