Falsos positivos y Sesgos cognitivos

Mucho se ha debatido en las últimas horas respecto del aparente error de diagnóstico de la Presidenta; que si fue negligencia médica, que si se manipuló la información y se mintió, que si la operación podría haberse evitado y un larguísimo etcétera.
También circularon muchos números que confundieron aún más la cosa porque al desconocimiento general sobre cuestiones médicas (del que soy naturalmente parte) se le suma ahora la ignorancia mayoritaria sobre porcentajes y probabilidades.
Intentaré entonces en este breve post, encarar la cuestión con un enfoque más científico, con el objeto de ordenarla, corregir errores y proponer algunas hipótesis que se desprendan de la evidencia contante y sonante.
La primera evidencia que tenemos es el estudio histopatológico firmado por los Doctores Liliana Balsells (Médica Patóloga y Citóloga) y Julio San Martino (Médico Patólogo) en el que se habla de dos muestras extraídas, interesándonos particularmente la primera de ellas por cuanto reza “Citología compatible con carcinoma papilar de células foliculares (Bethesda Categoría VI)
Bethesda es una localidad de Maryland, Estados Unidos, donde el 22 y 23 de octubre del 2007, el Instituto Nacional de Cancer (NCI) de eses país organizó «The NCI Thyroid Fine Needle Aspiration (FNA) State of the Science Conference,» que traducido al castellano sería algo así como el estado del arte respecto de la utilización de agujas finas para la aspiración de muestras de células tiroideas, que es el mejor método del mundo para el diagnóstico de cuadros cancerígenos en esa glándula del cuerpo y naturalmente el que usaron con la Presidenta.
Para hacer corta una historia más larga, el sistema de clasificación tiene 6 categorías que van desde el “no diagnosticable” hasta el “maligno” pasando por “benigno”, “lesiones foliculares”, “neoplasma folicular” y “sospechoso de ser maligno”. Los cuadros preocupantes, que son los que ameritan quirófano son obviamente el “maligno” y el “sospechoso de ser maligno”. La presidenta fue diagnosticada con el cuadro “maligno”
Ahora bien, veamos algunos números.
Según el estudio de Mojghan Amrikachi y colegas, publicado en abril del 2001 en el Journal “Archives of Pathology & Laboratory Medicine”, cuyo título casualmente es “Accuracy of Fine Needle Aspiration of Thyroid” entre el 4 y el 7% de la población general suele tener nódulos en la tiroides, aunque la incidencia es mayor en las mujeres y crece con la edad.
Sobre una base de 4819 pacientes estudiados entre 1982 y 1998 los autores encuentran que solo 3,4% de los casos son malignos y 7,2% sospechosos de ser malignos, lo que indica que el mero hecho de que nos detecten un nódulo en la tiroides no debería hacernos entrar en pánico puesto que solo un 10% de los casos revisten algún riesgo.
Obviamente que dado que la fecha de publicación del artículo es anterior a la clasificación de Bethesda, las categorías no coinciden necesariamente, al punto que los falsos positivos en el grupo de “sospechosos” ascienden al 41%. No obstante, se puede tomar como límite superior el hecho de que en el grupo de los que dieron positivo en la biopsia, se obtuvieron 8,2% de falsos positivos.
El criterio de clasificación de Bethesda parece ser más exigente, como lo demuestra la reciente investigación de Constantine Theoharis y colegas de la Universidad de Yale, publicada en 2009 justamente en el Journal “Thyroid”.
Estos autores analizan 2468 pacientes que fueron examinados a lo largo del año 2008 con la misma técnica que nuestra Presidenta, encontrando 5,9% de ellos con el cuadro “maligno” y 1,6% con el diagnóstico “sospechoso de ser maligno”.
Yendo a los errores que nos interesan, solo 4 casos de los 378 que terminaron en cirugía habían sido falsamente diagnosticados como positivos y los 4 correspondieron a pacientes que habían sido diagnosticados como “sospechosos”. Ahora bien; puesto que solo 30 pacientes con ese diagnóstico fueron a quirófano, un 13,3% de ellos tuvieron un falso positivo.
Dados esos valores los autores estiman que el “positive predicted value” del método de diagnóstico utilizado (el mismo al que accedió la presidenta) es 100% para el caso en que el diagnóstico sea maligno (como le sucedió a Cristina) y solo 83% para el caso en que el pronóstico sea “sospechoso de ser maligno”.
En otro estudio sobre 5194 nódulos biopsiados, publicado en 2009 en el Journal “Cancer Cytopathology”, Ritu Nayar y colegas encuentran 2% de falsos positivos en los casos diagnosticados como malignos y 24% en los “sospechosos”, pero aclaran que usan un criterio restrictivo por el que consideran la peor biopsia, en los casos de pacientes con más de una extracción, de modo que podemos tomar el resultado como límite superior.
Howard Her y colegas en una publicación de junio del 2011 en Diagnostic Cytopathology sobre 1382 casos encuentran 2,7% casos de malignos y 2,6% de sospechosos, pero tienen 0% de falsos positivos.
Karen Schoedel y colegas, en la misma revista, pero en noviembre del 2008 tampoco encuentran falsos positivos
En general puede decirse que cuando el criterio de diagnóstico es restrictivo (los casos malignos y sospechosos están entre el 5 y el 7%), la muestra se obtiene guiándose por ultrasonido (por opuesto a por tacto) y se efectúa más de una aspiración, los casos de falsos positivos son extraordinarios y están entre 0 y 2%.
Lo que es mucho más habitual es un falso negativo (según el review de Dean y Gharib publicado en el 2010, se observan entre 1,5 y 11%) , por las características muestrales del procedimiento, sobre todo cuando no se usa ultrasonido para guiar la aspiración, pero en el caso de los falsos positivos es muy importante que quede claro que no se trata de un error estadístico, sino de una confusión en la observación de la muestra, habitualmente con un adenoma folicular, como sucedió en el caso de la Presidenta y como también registra el trabajo de Nancy Caraway y colegas publicado en el Cytopathology Diagnostic, que dicho sea de paso es el único que tiene 7% de falsos positivos, básicamente porque no usa las seis categorías de Bethesda, sino que colapsa malignos y sospechosos de ser malignos en una sola categoría.
En el mencionado trabajo de Mojghan Amrikachi, los autores concluyen que (y cito textual) “Fine-needle aspiration of the thyroid gland is highly accurate and has a low rate of false-negative and false-positive diagnoses. The major diagnostic problems are caused by diagnosis using a marginally adequate specimen, diagnosis of malignancy based on just 1 or 2 atypical cytologic features, or overlapping cytologic features of follicular neoplasm with those of follicular variant of papillary carcinoma.”
Falso negativo entonces pude darse porque de casualidad se extrajo una muestra no contaminada (se le erró al nódulo), lo que en estadística se denomina “error estadístico”, pero falso positivo no puede existir nunca por un error de muestreo, porque ello implicaría decir que de casualidad se toparon con una muestra con células dañadas. Falso positivo es un error de observación y análisis.

El problema de los promedios

Descartada la posibilidad de que el falso positivo de la Presidenta sea una cuestión estadística, queda como evidente que la probabilidad de un falso positivo (si es que puede hablarse de tal cosa en un proceso no aleatorio) no es una constante sino que varía de institución a institución, dependiendo de la calidad de los profesionales, potencia de los microscopios, esfuerzo y atención dedicado al análisis de una muestra, etcétera.
Por esa razón muchos estudios (la mayoría) no encuentran ningún falso positivo mientras que otros llegan a encontrar hasta un 7 u 8%.
Es evidente que el Centro de Diagnóstico Maipú no es una institución del promedio, sino que se trata de un centro que reúne a los mejores especialistas y está dotado de la mejor tecnología. Tan es así que el propio director de la institución, el doctor Jorge Carrascosa, reconoce que a pesar de efectuar un enorme volumen de biopsias de tiroides por año (lamentablemente no dice cuantas) y de ser los pioneros en este tipo de estudios en Argentina, jamás tuvieron un falso positivo antes.
Puesto en términos estadísticos, al momento de presentarle el diagnóstico a la Presidenta la probabilidad de un falso negativo, condicional en que el estudio se hubiera efectuado en el Centro Maipú era del 0%.
En segundo lugar, si el Centro Maipú no es un instituto del promedio, tampoco la Presidenta es una paciente del promedio. Soy consciente que no existen las probabilidades negativas, pero creo que bien podemos estar ante el primer caso de la historia, porque realmente la probabilidad de un falso positivo, condicional en que el estudio se haya efectuado en el mejor centro del país (con tasa 0 de falsos positivos) y condicional en que se le haya hecho a la Presidenta de la Nación es tan baja que creo que está más cerca del -1 que del 2%.

Un pick nic de sesgos cognitivos.

Pero al fin y al cabo el estudio falló y en tren de preguntarse por qué, quizás ayude recordar que las personas somos propensas al sesgo de salto a conclusiones y al de confirmación de hipótesis, descubiertos oportunamente por el Nobel de economía Daniel Kahneman.

El sesgo de salto a conclusiones es la tendencia a precipitarnos en las generalizaciones, clasificaciones y prejuicios a partir de unas pocas observaciones. Tiene que ver con que las presiones evolutivas de nuestra especie durante mucho tiempo condenaron a las personas que demoraban en tomar decisiones.
Obviamente desde un punto de vista ideal uno quisiera poder esperar a conocer un gran número de leones para saber si estos animalitos comen humanos, pero es plausible pensar que la evolución favoreció a aquellos que salieron corriendo ni bien observaban que un león se comía a uno de sus compañeros, sin esperar a ver si había habido una agresión previa del humano, si el león estaba estresado, si tenía mucho hambre, o si el comportamiento del felino se repetía un número estadísticamente suficiente de veces.

La tendencia a descartar sistemáticamente cualquier información que contradiga la conclusión a la que uno ha saltado, o el prejuicio efectuado, que caracteriza al sesgo de confirmación de hipótesis, también puede explicarse por similares razones evolutivas.
Por las presiones del ambiente en el que nuestros ancestros se desenvolvían resultaba crucial formular o estimar modelos del funcionamiento del mundo; regularidades y pautas que permitieran sobrevivir y reproducirse a una tasa que garantizara la subsistencia de la especie y dado que el hombre es un ser social, aquellos que primero formulaban hipótesis y tomaban decisiones lideraban al resto, con todas las ventajas de acceso a recursos que ello acarreaba, no pudiendo permitirse el lujo de reconocer que se habían equivocado.

Mi hipótesis es que no había suficientes indicios en la muestra como para clasificarla como maligna de acuerdo a los criterios de Bethesda (categoría VI de dicha clasificación) sino en todo caso como categoría V; sospechoso de ser maligno, que sí obviamente tiene una tasa mucho más alta de falsos positivos..
Creo que los profesionales fueron presa del sesgo de salto a conclusiones, se apresuraron a poner la etiqueta de Categoría VI y luego desestimaron cualquier otro dato que pusiera en duda el diagnóstico inicial, cayendo ahora víctimas del sesgo de confirmación de hipótesis.

La opinión pública volvió a caer luego en los mismos sesgos en que habían incurrido los facultativos, porque todos se apuraron a agradecer el milagro de la salvación o a condenar la supuesta mala fe en la administración oficial de la noticia del fallido carcinoma y todos eligieron desatender cualquier evidencia que contradijera sus sospechas iniciales.

El frío análisis de los hechos, considerando toda la información que aquí aportamos es concluyente; no hubo manipulación de la información ni milagro sostenido en el coraje.

Hubo un error de diagnóstico de características excepcionales que confirma una vez más que los médicos también son humanos.

Si para algo debería servir todo esto es para que aprendamos sobre los sesgos que gobiernan nuestras conductas y diseñemos tecnologías que nos pongan a resguardo de ellos.

Dos profesionales firmaron el diagnóstico errado de la Presidenta. Si las muestras hubieran sido giradas a cada uno de ellos por separado y se les hubiera pedido un diagnóstico individual, pues sería mucho menos probable que hubiera ocurrido semejante error.

La tiroides de la Presidenta ya se perdió. Una regulación que prohíba firmas conjuntas de informes médicos y obligue a la firma individual de informes por separado puede evitar problemas similares a futuro, mejorando así la salud de todos.

M.T.

Martin Tetaz es Economista, egresado de la Universidad Nacional de La Plata, especializado en Economía del Comportamiento, la rama de la disciplina que utiliza los descubrimientos de la Psicología Cognitiva para estudiar nuestras conductas como consumidores e inversores. Actualmente es Diputado Nacional.

Falsos positivos y Sesgos cognitivos

Enviar comentario Cancelar la respuesta