Problemas del índice kappa (k)

No obstante su alto grado de aceptación en la literatura clínico-epidemiológica, debe tenerse en cuenta que la escala anterior de valoración del índice k, como los propios autores resaltan, es arbitraria y que, además, el valor del índice k no sólo depende de los acuerdos observados, sino también de los esperados y, en consecuencia, pueden darse diversos efectos poco intuitivos. En primer lugar, el valor de k depende de la prevalencia del carácter observado. En el ejemplo, la prevalencia de pulmonía es baja: el radiólogo A diagnostica un 14% de pulmonías y el B un 10%. Si los resultados hubieran sido

  Rad. A  
Rad. B 30 6 36
  10 54  
  40    

donde las prevalencias respectivas son 40% para A y 36% para B, con la misma proporción de acuerdos observados (84%) el índice k hubiera sido 0,661. En general, cuanto más cercana a 0,5 sea la prevalencia (cuanto más balanceados estén los totales marginales en la tabla) mayor es el k para igual proporción de acuerdos observados, dicho de otro modo, prevalencias muy bajas, o muy altas, penalizan el índice k , debido a que en ese caso la proporción de acuerdos esperados por azar es mayor que cuando la prevalencia es cercana a 0,5. Por otro lado, éste también se ve afectado por la simetría de los totales marginales.

Considerese, por ejemplo, las tablas

  Tabla 1   Tabla 2  
  Rad. A   Rad. A  
Rad. B 45 15 60 25 35 60
  25 15   5 35  
  70     30    

en ambas la proporción de acuerdos observados es la misma (0,60) y también es la misma la prevalencia observada por el radiólogo B (0,60), sin embargo la del radiólogo A es 0,70 en la tabla 1 y 0,30 en la 2, por lo tanto hay mayor desacuerdo entre las prevalencias observadas en la tabla 2, aunque en ambos casos están igualmente alejadas de 0,5, es decir, tienen la misma falta de balanceo en los marginales, aunque en la tabla 1 de modo simétrico con respecto a ambos observadores (en ambos son mayores de 0,5) y asimétricamente en la 2 (para A es menor de 0,5 y para B mayor). El índice k vale 0,13 en la tabla 1 y 0,26 en la 2. En general, la simetría en la falta de balanceo en los totales marginales también penaliza el índice k y tanto más, cuanto más "perfecta" (la misma diferencia con respecto a 0,5) sea la misma. Dicho de otro modo, en igualdad de acuerdos observados, cuanto mayor sea la diferencia entre las prevalencias observadas por cada observador mayor es el índice k .

En consecuencia, para interpretar el índice k es necesario contar, también con el valor de las frecuencias marginales de la tabla (prevalencias observadas por cada observador).

El pequeño valor de k para los datos del ejemplo (mediano en la escala de Landis y Koch) es "explicado" a la luz de los efectos anteriores por el hecho de que estamos en la peor de las situaciones posibles: baja prevalencia, y similar, en ambos observadores o, en la terminología anterior totales marginales "desbalanceados" con casi perfecta simetría.

Referencias

Feinstein A.R., Cicchetti D.V. (1990) High agreement but low kappa: I. The problem of two paradoxes, J Clin Epidemiol 43: 543-549.

INDICE CAPÍTULO ANTERIOR SIGUIENTE CAPÍTULO VOLVER A BIOESTADÍSTICA