09 jul 2020

Ir a contenido

Big data,una oportunidad de futuro

La estadística es la ciencia que permite aprender de los datos, un tesoro en bruto, ya sea haciendo predicciones o buscando correlaciones, y el big data privilegia este último aspecto

Es una oportunidad de crecimiento y mejora para todos los países. Otra cosa es saberla aprovechar

Desde el año 2008 un nuevo paradigma se extiende por las empresas y las universidades: big data. Desde entonces han aparecido multitud de artículos, congresos, revistas científicas e incluso, artículos en periódicos generalistas para el gran público. La pregunta es: ¿estamos delante de un nuevo paradigma científico o se trata simplemente de un nuevo formato de métodos preexistentes? En primer lugar, hay que constatar que el término big data comprende dos grandes campos científicos: uno dedicado a la gestión de datos masivos y las tecnologías que ello implica, y otro dedicado al análisis y explotación de estos datos, que podemos llamar big data management y big data analytics. Sin lugar a dudas, el primero de ellos ha producido una disrupción científica importante: la combinación del cloud computing, las tecnologías ligadas a los móviles, el internet de las cosas y las redes sociales crean unas condiciones únicas para la aparición de nuevas tecnologías de gestión de datos masivos y no (o poco) estructurados. Sin embargo, el almacenamiento sin análisis y explotación sería inútil. Es sobre este último aspecto al que me referiré en este artículo.

Los que nos dedicamos a la estadística estamos acostumbrados a ver aparecer nuevos términos con denominación sugerente, tal fue el concepto de data mining aparecido a principios de los años 90, o el concepto de business intelligence aparecido poco después, también analytics y más recientemente big data y, por último, data science. Sin embargo, en las definiciones que da Wikipedia resulta difícil diferenciar unos de otros. En realidad, los métodos y algoritmos que utilizan provienen sobre todo del campo de la estadística y del machine learning. La estadística es la ciencia que permite aprender de los datos. Y esto es así porque los datos presentan lo que llamamos regularidad estadística, conferida por el propio fenómeno que las ha generado. Por ejemplo, se puede observar que cuanto más años de estudio de las personas, el salario aumenta en promedio. Es esta regularidad la que nos permite inferir cuál es la relación entre los años de estudio y la renta de las personas; como si gracias a la estadística pudiéramos vislumbrar las relaciones verdaderas fuera de la cueva de Platón. Por esta razón, los datos se han convertido en una nueva fuerza motriz de la sociedad de la información. La capacidad para aprender de los datos permite tomar decisiones de forma más rápida y precisa, y adaptarse mejor al entorno. Los datos son un tesoro en bruto.

Para extraer la información subyacente a los datos hay que recurrir a los métodos de la estadística y del machine learning. Estos, simplificando mucho, los podemos agrupar en métodos para buscar correlaciones o métodos para hacer predicciones. La estadística clásicamente ha privilegiado este último. Por el contrario, el movimiento big data privilegia la búsqueda de correlaciones, esto es, no es necesario tener un modelo de predicción, por ejemplo, de la probabilidad de comprar un vino determinado en un momento y lugar concreto; basta saber si el potencial comprador tiene las características de las personas a las que gusta el vino en cuestión. Esto es relativamente fácil de detectar y lleva a pensar que con los datos disponemos de una solución universal para todos los problemas.

Las cosas, sin embargo, no son tan fáciles, si bien es cierto que el volumen de datos crece exponencialmente, no pasa lo mismo con la cantidad de información útil. Muchos de los datos son redundantes o son ruido. Está claro que cuantos más datos disponemos, más hipótesis podremos investigar, pero el riesgo de encontrar falsos positivos también se incrementa. No existen más relaciones verdaderas por más datos que se tengan. La innovación aportada por el big data analytics consiste básicamente en la paralelización de los algoritmos, no en un cambio de paradigma científico. La explosión de los datos no obvia la necesidad de tener un marco teórico para el problema que se quiere resolver. Los datos no hablan por sí mismos, somos nosotros que hablamos por ellos.

Somos lo que hacemos

Un aspecto relevante en big data es la privacidad de las personas. Somos lo que hacemos y analizando lo que hacemos podemos saber cómo somos. Una buena parte de los datos los generamos nosotros mismos. Por ejemplo, con la navegación acumulada de un año se pueden inferir muchos comportamientos de los navegantes. Sobre este aspecto está claro que se necesita una regulación supranacional. Al mismo tiempo, no está de más señalar que gracias a las tecnologías de la información y la comunicación existe más que nunca lo que se llama subvigilancia, esto es, el control realizado por los de abajo.

Otro aspecto a destacar es la contribución del big data al incremento del PIB de un país. Según el International Data Corporation (IDC) en su informe de octubre del 2015 sobre el Mercado Europeo de los Datos, el incremento previsto de trabajadores en los países de la zona UE28 entre el 2015 y el 2020 se estima en 2,5 millones con un aumento del 1,14% de la participación del sector de los datos en el PIB durante el mismo periodo.

Un ejemplo de las nuevas oportunidades que genera el big data es en la educación, sin duda el principal reto de nuestra sociedad. En el laboratorio inLab de la Facultad de Informática de Barcelona de la UPC estamos trabajando en un proyecto de learning analytics para que los profesores de secundaria puedan personalizar mejor el aprendizaje a las necesidades de cada estudiante.

El big data representa una oportunidad de crecimiento y mejora para todos los países. La pregunta es si sabremos aprovecharlo.