Índices de concordancia

Caso más sencillo: 2 observadores y variable dicotómica.

Ejemplo: dos radiólogos independientes informan como neumonía sí/no 100 radiografías. Los resultados son

Radiólogo A
Rad. B
Pulmonía
No pulmonía
Total
Pulm. 4 6 10
No 10 80 90
Total 14 86 100

En general


Observador A
Obs. B Positivo Negativo Total
Positivo a b r
Negativo c d s
Total t u N

siendo N el número total de individuos observados, a el número de ellos al que ambos observadores clasifican como positivo, etc.

Existen varios índices de concordancia propuestos, el más obvio es la proporción de acuerdos observados, es decir (a + d)/N. Este índice es muy intuitivo y fácilmente interpretable: tomará valores entre 0 (total desacuerdo) y 1 (máximo acuerdo). Sin embargo como indicador de reproducibilidad tiene el inconveniente de que aun en el caso de que los dos observadores clasifiquen con criterios independientes se produciría un cierto grado de acuerdo por azar. Por ejemplo, si se tiran dos dados y se registra si sale un cierto número, p.e. el dos (resultado positivo) u otro cualquiera (resultado negativo), en un cierto número de veces (con una probabilidad de 26/36, para ser más preciso, siguiendo el razonamiento que se hace más abajo) ambos dados producirán el mismo resultado por azar. Es deseable que un índice de concordancia tenga en cuenta este hecho y que, de algún modo, indique el grado de acuerdo que existe por encima del esperado por azar. En este sentido, el índice más usado es el propuesto por Cohen y denominado índice kappa (k) que se define como

siendo Po la proporción de acuerdos observados y Pe la proporción de acuerdos esperados en la hipótesis de independencia entre los observadores, es decir de acuerdos por azar. A partir de la tabla

para calcular Pe hay recordar que dos sucesos A1, A2 son independientes si p(A1Ç A2)=p(A1)p(A2). En este caso, si llamamos A1 al suceso "el observador A clasifica un individuo como positivo" y A2 al suceso "el observador B clasifica un individuo como positivo" el suceso A1Ç A2 será "ambos observadores clasifican un individuo como positivo"; como el observador A ha clasificado t individuos como positivos y el B ha clasificado r, la mejor estimación de p(A1) es t/N y la de p(A2) es r/N, por lo tanto la mejor estimación de la probabilidad de que ambos clasifiquen como positivo a un individuo, en la hipótesis de que ambos son independientes es su producto, es decir rt/N2; por la misma razón, la probabilidad de que ambos clasifiquen como negativo a un individuo por azar es su/N2, en consecuencia

Cuando hay acuerdo total b=c=0, por lo tanto el valor de Po es 1 y en consecuencia el índice k también vale 1 para el máximo acuerdo; si el acuerdo observado es igual al esperado por azar, k vale 0. Obsérvese que si el acuerdo observado es menor que el esperado por azar, el índice k toma valores negativos. Un modo intuitivo de interpretar este índice puede hacerse despejando Po de la definición

si se piensa que la proporción de acuerdos observados (Po) es un valor intermedio entre el máximo acuerdo posible (1) y la proporción de acuerdos esperados por azar (Pe), k se puede interpretar como el peso que el máximo acuerdo posible tiene en los acuerdos observados.

En el ejemplo la proporción de acuerdos observados es

es decir, ambos radiólogos coinciden en un 84% de las radiografías. Ahora bien, el acuerdo esperado por azar es

por lo tanto

es decir, el grado de acuerdo una vez corregido el debido al azar es mucho más modesto que lo que indicaba el 84% de acuerdo "crudo". Según la interpretación anterior, el acuerdo observado está compuesto por un 24,5% del acuerdo máximo y un 75,5% del esperado por azar.

Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la siguiente escala de valoración del k

kappa
grado de acuerdo
< 0,00
sin acuerdo
>0,00 - 0,20
insignificante
0,21 - 0,40
discreto
>0,41 - 0,60
moderado
0,61 - 0,80
sustancial
0,81 - 1,00
casi perfecto

Referencias

Cohen J. (1960) A coefficient of agreement for nominal scales. Educ Psychol Meas 20:37-46.

Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data. Biometrics 33:159-174.

Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en cardiología clínica (IV). Las mediciones clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 50:117-128.

INDICE CAPÍTULO ANTERIOR SIGUIENTE CAPÍTULO VOLVER A BIOESTADÍSTICA