La era de los 'data lakes'

Más datos que estrellas en el universo observable

El flujo y tratamiento de información a nivel global escala a un ritmo acelerado hasta cifras difíciles de imaginar

El gran mapa del Big Data: ¿de dónde vienen todos nuestros datos?

Big Data

Big Data / Ilustración de archivo

Agustí Sala

Agustí Sala

Por qué confiar en El Periódico Por qué confiar en El Periódico Por qué confiar en El Periódico

181 zettabytes (cada zettabyte equivale a un sextillón de bytes o un 10 elevado a 21). Es una cifra inimaginable que supera el número de estrellas del universo observable, la parte de nuestro entorno físico más inabarcable. Para hacerse una idea, un zettabyte podría almacenar más de 2 billones de años de música. Y 181 zettabyes (aún existe una unidad de medida mayor, el yottabye, que requeriría un millón de centros de datos para su almacenamiento es la cantidad de datos que se espera que se creen, capturen, copien y consuman en todo el mundo el año que viene, casi tres veces más que en 2020, en una progresión acelerada en los últimos años, según el informe 'Data Never Sleeps' de la consultora Domo. Según Statista, cada día se crean aproximadamente 328,77 millones de terabytes, o 0,33 zettabytes, de datos. Esto equivale aproximadamente a 2,31 zettabytes por semana y 120 zettabytes al año, lo que ilustra la inmensa escala de la producción de datos.

Demanda de energía

El mercado global de 'big data' y la analítica mueve actualmente casi 350.000 millones de dólares, del que en torno al 51% se encuenntra en EEUU; y se ha más que duplicado desde 2018. Los usuarios finales destinan unos 500.000 millones al año al almacenamiento en la nube ('cloud computing'). Los volúmenes de datos han crecido sustancialmente con la transformación digital de la economía, el rápido crecimiento de la inteligencia artificial (IA) generativa, el aumento de la demanda de redes de datos móviles y la minería de criptomonedas. Y todo empezó en la segunda mitad de los años 50 del siglo pasado, cuando IBM introdujo en el mercado el primer disco duro, que supuso una revolución en el almacenamiento de datos. Hoy suena a muy poco: su capacidad, 3,75 megabytes, permitían guardar el equivalente a cinco fotos o una canción en formato MP3.

El gran reto con esta ingente volumen de información que dio luz al mundo del 'big data' es organizarla, ordenarla y sistematizarla para sacarle todo el partido posible. Y todo eso requiere una potencia de cálculo cada vez mayor, lo que, a su vez, incrementará la demanda de electricidad tanto en los centros de datos como en las infraestructuras de comunicación, como las redes de telecomunicaciones y datos, según advertía en un estudio del Foro Económico Mundial, que congrega cada año en la ciudad suiza de Davos a las élites politicas y económicas mundiales.

Energías renovables

En un mundo en el que una de las metas en combatir el cambio climático y, por tanto, la transición verde y la descarbonización de la economía, para alcanzar el objetivo de cero emisiones netas, la proporción de electricidad en el consumo energético total debe alcanzar el 28% en 2030 y el 52% en 2050. Según el Foro Económico Mundial, el acceso a las energías renovables deberá triplicarse para 2030 y multiplicarse por nueve para 2050. Estos ambiciosos objetivos "solo se podrán alcanzar si nuestros edificios, redes y sistemas de movilidad se vuelven más eficientes y utilizan más energía limpia con sistemas de control digital, alimentados por esos enormes conjuntos de datos", agrega esta entidad.

Los centros de datos son uno de los elementos esenciales, pero su consumo de energía y su huella de carbono plantean un desafío para la sostenibilidad. Según la Agencia Internacional de la Energía (AIE), representan entre el 1% y el 1,5% del consumo energético mundial en la actualidad. En 2026, su consumo eléctrico podría alcanzar los 1.000 teravatios por hor (TWh), el equivalente al consumo anual en Japón. En Irlanda, los centros de datos, un país en el que reclana muchas de las grandes tecnológicas, consumieron el 21% de la electricidad del país en 2023, más que todos sus hogares urbanos juntos. Se trabaja, por tanto en su mayor eficiencia.

Efectividad con los datos

Las empresas y organizaciones manejan cada vez más datos. Día tras día acumulan una información valiosa pero el desafío radica en almacenarlos, gestionarlos, interpretarlos y utilizarlos de manera efectiva. Además, a medida que se cambia el 'software' y se incorporan nuevas aplicaciones, es preciso trasladar datos históricos, un trabajo esencial. Las grandes empresas son las que más tienen más extendida esta práctica. Según un estudio de Capgemini, uno de cada 4 ejecutivos afirman que las medidas de sus compañías en el mundo del 'big data' resultan rentables.

Es en este contexto que se imponen los 'data lakes' o lagos de datos, con el objetivo de sacar el máximo partido al que se considera el 'petróleo' del siglo XXI. El término fue acuñado por primera vez por James Dixon, CTO de Pentaho, una plataforma de integración y análisis de datos, en su blog 'Union of the State – A Data Lake Use Case'. Los 'data lakes' son repositorios de almacenamiento de datos que brindan el análisis 'big data' en forma nativa de múltiples fuentes. Ayudan a la toma de decisiones mediante la ejecución de varios tipos de análisis. No hay límite de tamaño y se almacenan varios tipos de datos.  

A diferencia de los almacenes de datos ('data warehouse') en los que se guardan grandes cantidades de datos de forma estructurada, en los lagos de datos se recopilan datos brutos y sin procesar en diversos formatos para los analistas y especialistas. Los usuarios de los lagos de datos son científicos y ingenieros de datos, los de un almacén de datos especialistas y analistas de negocios. La idea es poder ir volcando todo tipo de datos al 'data lake', por si se necesitan más adelante, de la forma más económica y escalable.

Suscríbete para seguir leyendo