Big data, la electricidad del siglo XXI

La electricidad del siglo XXI_MEDIA_2

La electricidad del siglo XXI_MEDIA_2

Por qué confiar en El PeriódicoPor qué confiar en El Periódico Por qué confiar en El Periódico

Se llamó tercera Revolución Industrial al cambio de la tecnología analógica a la tecnología digital (1950-1970) con el uso intensivo de los ordenadores y el mantenimiento de registros digitales, pero ya a finales del siglo pasado se produjo lo esperable: ¿Qué hacemos con todos esos datos almacenados?.

En plena revolución digital, casi sin ser conscientes generamos y almacenamos datos, es el big data (BD): el 90% de los datos del mundo han sido creados en los últimos dos años.

Los BD (volumen de datos del orden del petabite o 106 gigabits) marcan la cuarta revolución como lo fue en su momento la llegada de la electricidad a la sociedad. Los datos y la hiperconectividad de las máquinas que los generan se han convertido en un elemento fundamental de la economía. El reciente IoT (internet de las cosas o interconexión digital de objetos cotidianos con internet) acelera la generación de BD.

Algunos se aventuran a pronosticar un cataclismo en el empleo, así el World Economic Forum, celebrado este pasado mes de enero en Davos concluye que la digitalización de la industria supondrá la desaparición de 7,1 millones de empleos, y la creación de 2,1 millones de nuevas posiciones para el 2020. Pero hay que ser cautelosos, ¿De dónde salen, cómo se analizan y qué utilidad pueden tener estos datos?

Según la Comisión Europea (2014) su análisis puede traer oportunidades a sectores tradicionales como el transporte, la salud o la fabricación, puede mejorar la investigación y acelerar la innovación además de influir en la productividad, ofreciendo por otro lado a los gobiernos de las naciones una gestión eficiente de los recursos públicos.

Uno de los campos más prometedores es la investigación clínica y de la salud humana, donde Barcelona es puntera (sede de más de 90 centros de investigación, destacando en oncología, bionanomedicina, enfermedades cardiovasculares, bioinformática, TIC, etc). El análisis de los big data pueden contribuir a reducir los enormes costes de la investigación clínica o ayudar a gestionar mejor la utilización de los medicamentos. Otro gran campo de aplicación es la bioinformática que nos ha llevado a la llamada era ómica, en relación a la genómica o a la proteómica que ha supuesto un paso de gigante de la biotecnología o la biomedicina.

Otras utilidades para la sociedad son aquellas aplicaciones BD en el ámbito de las ciudades inteligentes (smart cities) que por ejemplo permiten cambiar la duración de los semáforos. Barcelona ha conseguido en el 2015 la primera posición en el ránking de smart cities mundiales de Juniper Research. Es innegable su utilidad en el márketing inteligente, y en economía el BD también se aplica para calcular la tasa de inflación de manera más rápida.

Para procesar y analizar esta información se están desarrollando sistemas de aprendizaje automático que mediante algoritmos pueden aprender a partir de los datos recibidos. La capacidad predictiva de BD es ingente, permite analizar grandes cantidades de datos relacionados y es ahora mismo imprescindible. La mayor parte de la investigación en torno al big data se ha centrado en su volumen, pero no todo es cuestión de cantidad sino de calidad. Para procesar y analizar la información big data, almacenada y distribuida en grandes sistemas distribuidos como Hadoop o en una base de datos o en cualquier otro tipo de almacenamiento, la solución pasa por el machine learning, la estadística y en general por las matemáticas. Las bases del machine learning provienen de las ciencias y la ingeniería, ocupándose de la construcción y el estudio de los algoritmos que pueden aprender a partir de datos. Existen muchas técnicas disponibles, como modelado lineal y no lineal, estadística descriptiva, pruebas estadísticas clásicas o multivariantes como la clasificación o agrupamiento. Una de ellas es utilizar programas de código abierto y gratuitos como R Package (http://www.r-project.org/) basado en el lenguaje R. Este es un lenguaje y un entorno para computación y gráficos estadísticos.

Protección de datos

Toda esta tecnología innovadora choca con un aspecto social importante como es la privacidad y el control de la información que genera cada uno de nosotros, desde nuestro consumo hasta datos relacionados con nuestra salud.

Los BD abren la puerta a un nuevo futuro lleno de interrogantes ¿Podrán sustituir la decisión médica a partir de una valoración objetiva basada en millones de datos? ¿Estamos dispuestos a facilitar nuestros datos personales a la smart city? ¿Estará la economía basada en el big data? Actualmente las leyes de protección de datos no permiten utilizarlos en muchos ámbitos. En este sentido, uno de los grandes retos de la sociedad es obtener un marco regulatorio válido para los big data. No es posible detener la evolución tecnológica, pero es necesario promover una regulación legal en favor de los individuos y cuidando de la información que se recoge de cada uno de nosotros. Se trata de un desafío, pero también de una oportunidad para toda la sociedad.

Los datos son solo el primer paso... Quizás ahora el problema es encontrar los data scientists capaces de analizarlos.