Evaluación de los modelos de regresión logística

Evaluación de los modelos de regresión logística (no condicional)

Como en regresión lineal, una vez encontrado el mejor modelo, hay que validarlo, es decir ver si “trabaja” igual con otros individuos distintos de aquellos con los que se ha generado (1). Qué significa “trabajar” es diferente según el objetivo del modelo. En un modelo estimativo se trata de ver si se obtiene el mismo odds ratio para la variable de interés. Aquí nos vamos a enfocar en los modelos predictivos en los que validar significa ver si el modelo predice bien la variable dependiente en un nuevo individuo. Ello implica dos conceptos relacionados (2), validez (“accuracy”) y generalizabilidad (“generalizability”).

La validez es el grado en que las predicciones coinciden con las observaciones y tiene dos componentes: calibración y discriminación. La calibración compara el número predicho de eventos con el número observado en grupos de individuos, mientras que la discriminación evalúa el grado en que el modelo distingue entre individuos en los que ocurre el evento y los que no. Por ejemplo, se ha ajustado un modelo logístico para predecir muerte en la UCI (3), si la mortalidad observada en la muestra es 27%, el modelo estará perfectamente calibrado si predice una mortalidad de 27%, sin embargo podría no distinguir entre los pacientes que mueren y los que sobreviven. A la inversa, si el modelo asignara una probabilidad de muerte de 2% a todos los pacientes que sobreviven y una probabilidad de 4% a todos los que mueren, el modelo tendría una perfecta discriminación, pero estaría pobremente calibrado.

La generalizabilidad es la capacidad del modelo de realizar predicciones válidas en individuos diferentes de aquellos en los que se ha generado y tiene también dos componentes: reproducibilidad (capacidad del modelo de realizar predicciones válidas en individuos no incluidos en la muestra con la que se ha generado, pero procedentes de la misma población) y transportabilidad (capacidad de realizar predicciones válidas en pacientes procedentes de una población distinta pero relacionada).

La reproducibilidad, por tanto, se evaluará en otras muestras obtenidas de la misma población, o usando técnicas de “re-muestreo” (2) en la misma muestra, o dividiendo aleatoriamente la muestra en dos grupos: en uno de ellos (grupo de trabajo) se ajusta el modelo y en el otro (grupo de validación) se valida. La transportabilidad exigirá una muestra de la otra población.

La prueba estadística que evalúa la calibración es la de Hosmer-Lemeshow, aplicada sobre la misma muestra de trabajo (validez interna) o sobre la muestra, o el grupo, de validación (generalizabilidad). Si el modelo no estuviera bien calibrado puede adaptarse mediante una regresión logística cuya única variable independiente es el logit, es decir la expresión ln(p/q), del modelo original (3). Una vez adaptado es preciso evaluar de nuevo su calibración.

Como medida de discriminación se utiliza el área bajo la curva ROC que representa para todos los pares posibles de individuos formados por un individuo en el que ocurrió el evento y otro en el que no, la proporción de los que el modelo predice una mayor probabilidad para el que tuvo el evento. A partir de un área de 0,7 la discriminación del modelo se considera aceptable.

Otras lecturas recomendadas

What do we mean by validating a prognostic model? Altman DG, Royston P. Statist Med. 19: 453-473. 2000.

Assessing the generalizability of prognostic information. Justice AC. et al. Ann Intern Med. 130: 515-524. 1999.

Utilización de los modelos probabilísticos de mortalidad (MPM II) para evaluar la efectividad de la atención a pacientes en estado crítico. Rué Monné M. et al. Med Clin (Barc). 106: 565-570. 1996.