Artículo de Pere Puigdomènech

El Big Data cambia cómo se hace la ciencia

La ciencia basada en los grandes números está dando frutos, pero a menudo no nos deja satisfechos por diferentes razones. Una de ellas es que los algoritmos producidos no se plantean encontrar la explicación de lo que se estudia

Big Data

Big Data / Ilustración de archivo

Pere Puigdomènech

Pere Puigdomènech

Por qué confiar en El PeriódicoPor qué confiar en El Periódico Por qué confiar en El Periódico

Los grandes números (Big Data) se extienden por todas partes. Empresas muy diversas basan sus estrategias en ellos y se han convertido en un gran negocio. Pero también están cambiando la manera cómo se hace la ciencia en algunas disciplinas. En algunos casos, han demostrado su utilidad. En otros, esta aproximación puede ser discutible. Van apareciendo los límites que tiene estas nueva manera de hacer investigación.

Una de las grandes revoluciones actuales es el uso de sistemas que permiten la adquisición, almacenamiento y tratamiento de grandes cantidades de datos. Esto lo hacen posible dispositivos que permiten digitalizar datos de imágenes, voces y documentos de todo tipo. Estos datos se pueden transferir por nuestras redes de gran capacidad a ordenadores donde se puede guardar esta información y se puede procesar de forma rápida y a bajo coste. Los últimos años han ido desarrollándose un conjunto de métodos, que denominamos de inteligencia artificial, que permiten entender las tendencias que pueden existir detrás de grandes conjuntos de datos que tienen que ver, por ejemplo, con el comportamiento o la salud de la gente, pero también con la evolución de los astros o el plegamiento de las proteínas, entre una gran multitud de ejemplos.

Estos métodos están cambiando la manera de trabajar de algunas disciplinas científicas. El método científico nos enseña que, ante un conjunto de observaciones, formulamos una hipótesis que probamos con experimentos, gracias a los cuales podemos formular una teoría de la que se pueden deducir predicciones. Este proceso está trastornado por la denominada ciencia dirigida por los datos ('data-driven science'). Ante un fenómeno complejo, esta aproximación parte de recoger el máximo de datos gracias a los que se genera un algoritmo que nos puede servir para hacer predicciones que nos interesan, sin que sea necesario formular ninguna teoría sobre el fenómeno en cuestión. Esta aproximación ha demostrado funcionar muy bien en algunos casos importantes.

Por ejemplo, una de las preguntas que la Biología Molecular se ha hecho desde hace más de 50 años es cómo predecir el plegamiento de las proteínas. Estas son fibras flexibles que se pliegan en el espacio, lo que les da sus funciones características. Esto puede ser muy importante, por ejemplo, para diseñar fármacos que inhiban su función. Durante todo este tiempo se han buscado muchas aproximaciones para resolver este problema. Finalmente, esto se ha conseguido gracias a analizar los datos de las 100.000 estructuras de proteínas conocidas. El programa de predicción se denomina AlphaFold y lo ha hecho la empresa DeepMind, comprada por el grupo Google. Es un hito extraordinario que ya ha empezado a usarse de forma sistemática. Hay todo tipo de problemas que se estudian de este modo en Astronomía, para analizar las enormes cantidades de datos y que ya han permitido de encontrar nuevos tipos de objetos estelares y también en Medicina, donde se obtienen cada vez más datos de imágenes o de genomas que se relacionan con enfermedades, entre otras.

La ciencia basada en los grandes números está dando frutos, pero a menudo no nos acaba de dejar satisfechos por diferentes razones. Una de ellas es que los algoritmos que se producen no se plantean encontrar la explicación de lo que se estudia, apartándose del método científico clásico y acaban a veces convertidos en cajas negras que incluyen, a menudo, simplificaciones de las que no siempre somos conscientes. Hace falta también tener en cuenta que los resultados son tan buenos como los datos de los que se dispone y muchas veces estos son incompletos o no son homogéneos. Otro sombra de estas aproximaciones es el uso de grandes ordenadores que usan enormes cantidades de energía y la huella de carbono que generan es muy significativa. Finalmente, algunos tipos de grandes números son objetos comerciales de gran valor y están basados en datos personales que mucha gente puede considerar que invade sus vidas. Es el caso de las historias clínicas de los pacientes, pero también de conversaciones o de comportamientos personales que querríamos considerar como íntimos. Hay límites conceptuales y técnicos en el uso de los 'Grandes Datos', pero también límites personales que no deseamos que se violen.

Suscríbete para seguir leyendo