La era de los 'data lakes'
Más datos que estrellas en el universo observable
El flujo y tratamiento de información a nivel global escala a un ritmo acelerado hasta cifras difíciles de imaginar
El gran mapa del Big Data: ¿de dónde vienen todos nuestros datos?
Agustí Sala
Agustí SalaRedactor jefe de Economía
Además de El Periódico, trabajé de 1989 a 1990 en La Economía 16, como responsable de Economía en el Diari de Barcelona, de 1989 a 1990; en la sección de Economía de TVE Catalunya de 1987 a 1989, en Antena 3 de Radio, de 1985 a 1987 y en el Diari Menorca, de 1983 a 1985 y Radio 80-Menorca. Además la licenciatura en Ciencias de la Información por la Universitat Autònoma de Barcelona (1992-1986), tengo un posgrado en dirección general (PDG) 2011-2012y un curso de Márketing Digital y Redes Sociales por la EAE Business School
181 zettabytes (cada zettabyte equivale a un sextillón de bytes o un 10 elevado a 21). Es una cifra inimaginable que supera el número de estrellas del universo observable, la parte de nuestro entorno físico más inabarcable. Para hacerse una idea, un zettabyte podría almacenar más de 2 billones de años de música. Y 181 zettabyes (aún existe una unidad de medida mayor, el yottabye, que requeriría un millón de centros de datos para su almacenamiento es la cantidad de datos que se espera que se creen, capturen, copien y consuman en todo el mundo el año que viene, casi tres veces más que en 2020, en una progresión acelerada en los últimos años, según el informe 'Data Never Sleeps' de la consultora Domo. Según Statista, cada día se crean aproximadamente 328,77 millones de terabytes, o 0,33 zettabytes, de datos. Esto equivale aproximadamente a 2,31 zettabytes por semana y 120 zettabytes al año, lo que ilustra la inmensa escala de la producción de datos.
Demanda de energía
El mercado global de 'big data' y la analítica mueve actualmente casi 350.000 millones de dólares, del que en torno al 51% se encuenntra en EEUU; y se ha más que duplicado desde 2018. Los usuarios finales destinan unos 500.000 millones al año al almacenamiento en la nube ('cloud computing'). Los volúmenes de datos han crecido sustancialmente con la transformación digital de la economía, el rápido crecimiento de la inteligencia artificial (IA) generativa, el aumento de la demanda de redes de datos móviles y la minería de criptomonedas. Y todo empezó en la segunda mitad de los años 50 del siglo pasado, cuando IBM introdujo en el mercado el primer disco duro, que supuso una revolución en el almacenamiento de datos. Hoy suena a muy poco: su capacidad, 3,75 megabytes, permitían guardar el equivalente a cinco fotos o una canción en formato MP3.
El gran reto con esta ingente volumen de información que dio luz al mundo del 'big data' es organizarla, ordenarla y sistematizarla para sacarle todo el partido posible. Y todo eso requiere una potencia de cálculo cada vez mayor, lo que, a su vez, incrementará la demanda de electricidad tanto en los centros de datos como en las infraestructuras de comunicación, como las redes de telecomunicaciones y datos, según advertía en un estudio del Foro Económico Mundial, que congrega cada año en la ciudad suiza de Davos a las élites politicas y económicas mundiales.
Energías renovables
En un mundo en el que una de las metas en combatir el cambio climático y, por tanto, la transición verde y la descarbonización de la economía, para alcanzar el objetivo de cero emisiones netas, la proporción de electricidad en el consumo energético total debe alcanzar el 28% en 2030 y el 52% en 2050. Según el Foro Económico Mundial, el acceso a las energías renovables deberá triplicarse para 2030 y multiplicarse por nueve para 2050. Estos ambiciosos objetivos "solo se podrán alcanzar si nuestros edificios, redes y sistemas de movilidad se vuelven más eficientes y utilizan más energía limpia con sistemas de control digital, alimentados por esos enormes conjuntos de datos", agrega esta entidad.
Los centros de datos son uno de los elementos esenciales, pero su consumo de energía y su huella de carbono plantean un desafío para la sostenibilidad. Según la Agencia Internacional de la Energía (AIE), representan entre el 1% y el 1,5% del consumo energético mundial en la actualidad. En 2026, su consumo eléctrico podría alcanzar los 1.000 teravatios por hor (TWh), el equivalente al consumo anual en Japón. En Irlanda, los centros de datos, un país en el que reclana muchas de las grandes tecnológicas, consumieron el 21% de la electricidad del país en 2023, más que todos sus hogares urbanos juntos. Se trabaja, por tanto en su mayor eficiencia.
Efectividad con los datos
Las empresas y organizaciones manejan cada vez más datos. Día tras día acumulan una información valiosa pero el desafío radica en almacenarlos, gestionarlos, interpretarlos y utilizarlos de manera efectiva. Además, a medida que se cambia el 'software' y se incorporan nuevas aplicaciones, es preciso trasladar datos históricos, un trabajo esencial. Las grandes empresas son las que más tienen más extendida esta práctica. Según un estudio de Capgemini, uno de cada 4 ejecutivos afirman que las medidas de sus compañías en el mundo del 'big data' resultan rentables.
Es en este contexto que se imponen los 'data lakes' o lagos de datos, con el objetivo de sacar el máximo partido al que se considera el 'petróleo' del siglo XXI. El término fue acuñado por primera vez por James Dixon, CTO de Pentaho, una plataforma de integración y análisis de datos, en su blog 'Union of the State – A Data Lake Use Case'. Los 'data lakes' son repositorios de almacenamiento de datos que brindan el análisis 'big data' en forma nativa de múltiples fuentes. Ayudan a la toma de decisiones mediante la ejecución de varios tipos de análisis. No hay límite de tamaño y se almacenan varios tipos de datos.
A diferencia de los almacenes de datos ('data warehouse') en los que se guardan grandes cantidades de datos de forma estructurada, en los lagos de datos se recopilan datos brutos y sin procesar en diversos formatos para los analistas y especialistas. Los usuarios de los lagos de datos son científicos y ingenieros de datos, los de un almacén de datos especialistas y analistas de negocios. La idea es poder ir volcando todo tipo de datos al 'data lake', por si se necesitan más adelante, de la forma más económica y escalable.
Suscríbete para seguir leyendo
- Antonio Rossi desvela lo que todos quieren saber de Anabel Pantoja: 'Es posible que ahora los veamos más
- El cómodo corte de pelo que se va a llevar en 2025: vale para pelos rizados, ondulados o lisos
- Gonzalo Bernardos deja muy claro cuál es el problema de la vivienda: 'Lo que queréis es que el propietario ahorre...
- Diez frases que suelen usar las personas narcisistas para manipularte
- Cae un clan familiar que se apropió de 19 vehículos de alta gama de un servicio de suscripción conocido como 'el netflix de los coches
- No es el catalán: este es el idioma en que más cómoda se siente Maria Guardiola, hija de Pep Guardiola
- Multa de 30.000 euros a la empresa municipal de los CAP de Badalona por vulnerar la protección de datos de una paciente
- Desmentida la indignante noticia falsa que circula sobre Anabel Pantoja y su estancia en el hospital con su hija Alma