La probabilidad en la ciencia

Estadística y medicina

Ilustración de Monra

Ilustración de Monra / periodico

Manel Esteller

Por qué confiar en El PeriódicoPor qué confiar en El Periódico Por qué confiar en El Periódico

Esta última semana hemos contribuido a descubrir que un pequeño grupo de pacientes con cánceres avanzados responden muy bien a la quimioterapia, sobreviviendo mucho más allá de lo que dice la fría estadística, y ello me ha vuelto a replantear algunos conceptos de probabilidad y bioinformática que usamos a diario en los laboratorios. Son ideas y técnicas que las personas ajenas al mundo de la investigación biomédica no suelen pensar y desconocen mucha de su terminología. Como si fuera un lenguaje secreto solo interpretable por un código oculto.

Como sabéis los que me seguís, siempre he dado importancia a la excepción. Creo que define mucho más a la regla de que los propios elementos más comunes de la norma. Los grandes respondedores que os he mencionado, los individuos centenarios, los niños con progeria, las enfermedades raras, los gemelos... toda la casuística altamente infrecuente nos da pistas sobres los fenómenos más habituales: la respuesta esperable a la quimioterapia en la población general, los procesos biológicos relevante para el envejecimiento de la especie humana, las vías celulares implicadas en el metabolismo y los procesos neurológicos o la relación entre genética y medioambiente, respectivamente. Pues bien, muchas veces las excepciones se sacan de los estudios, son llamadas 'outliers' porque confunden los análisis. Postura comprensible, pero a veces perdemos el valor de lo que es único. No me hagan demasiado caso, siempre he sido también una 'rara avis' en muchos sentidos que este artículo no puede recoger en su breve extensión.

La forma más sencilla de estudiar si dos eventos están relacionados o asociados (¡no seamos demasiado puristas por favor!) es ponerlos en tablas de dos por dos. Estos analisis son sometidos a pruebas estadísticas llamadas test de Fisher y la Chi cuadrada. Te dan una idea general si tu hipótesis va bastante bien encaminada. A mí siempre me han parecido una regla de tres un poco más sofisticada, pero son una buena aproximación primera para testar el concepto que queremos demostrar. Despues hay pruebas más sofisticadas que reciben nombres que parecen heredados del siglo XIX victoriano como el Wilcoxon-Mann-Whitney test o el coeficiente de Pearson o algo de la literatura rusa clásica como Kruskal Wallis.

De todos estas pruebas, así como de otros como el ANOVA o los análisis de regresión (¡despertad!), al final podemos decir si dos variables están relacionadas o asociadas más allá de por puro azar. Si es el caso, se dirá entonces que el resultado es "significativo". Y entonces aquí se introduce el Dios ante cuyo altar rezan todos los investigadores en todas las disciplinas: el valor de la "P" (P-value). Parece poca cosa, una modesta consonante algo sosa, si se me permite la rima. Pero delante de ella se inclinan casi todos. Si tus resultados terminan teniendo un valor estadístico superior a P=0.05 ya estás perdido. Y si nos ponemos finos, mejor que sea inferior a P=0.01 o incluso por debajo de P=0.001. El pobre investigador se estirará el pelo si no le sale significativo y si lo es dará saltitos como si fuera un pequeño chivo. Lástima, porque a veces se pierde mucha información y datos por estas convenciones y ya hay grupos que promueven dejar de lado los valores de la deseada "P". Como en todo, la verdad estará 'probablemente' a medio camino entre unos y otros.

¿Y como son los datos? De forma sencilla hay dos tipos: continuos y discretos. Los primeros son longitudinales, uno detrás de otro sin pausa, como la altura: 1.50 cm, 1.51 cm, 1.52 cm... Los segundos son categorizables, muchas veces bimodales: estar embarazada o no, tener carné de conducir o no. Todo esto dicho de forma muy sencilla porque a veces las fronteras entre un tipo de dato y la otra son borrosas, como la luminosidad de un otoño de invierno en Baker Street. ¿Y como se representan los datos? ¡Uy, hay un montón de formas de hacerlo! En las elecciones se hace en forma de barras o de 'quesitos' que reflejan porcentajes o números totales de votos y escaños. Pero hay formas más sofisticadas de hacerlo, sobre todo si aumentamos la complejidad del sistema como serían los 6,000 millones de piezas de nuestro ADN. Una forma de representar los datos genómicos es en "mapas de calor" ('heatmaps') derivados de árboles tipo cluster o también usando el análisis de componentes principales (PCA). Estas representaciones nos dicen de forma gráfica si una muestra pertenece a un grupo u otro, por ejemplo si es benigna o maligna. De forma sencilla, si una persona al entrar a una fiesta se va con los que asaltan la nevera o se une a los que discuten de política, sabremos a qué grupo pertenece.

Hoy hay muchos programas de ordenador y móvil que hacen todos estos análisis, y la nueva inteligencia artificial leyendo una sección histológica o una radiografía de tórax también te dará directamente el diagnóstico. Y tal vez sea más fácil olvidar mirando las curvas de supervivencia de Kaplan-Meier que cada punto de la gráfica representa una persona. Y quizás nos haremos la ilusión de que somos más que un dato en una estadística. Probablemente.

Suscríbete para seguir leyendo