'Data lakes', la asignatura pendiente de las pymes para impulsar su negocio
Un reportaje de Carles Planas Bou
Los datos nunca duermen. Actualmente, Internet tiene unos 5.450 millones de habitantes, más del 67% de la población mundial. Su actividad en la web, incesante como un torrente desbordado, deja un rastro de información que se almacena en archivos digitales. Su volumen es tan ingente que es prácticamente imposible de imaginar. Sin embargo, ese vasto océano de datos puede ser crucial para las empresas, si saben navegarlo.
Para sacar provecho de ellos, cada vez más compañías apuestan por los data lakes o lagos de datos, una herramienta que permite almacenar cualquier tipo de información. A diferencia de las bases de datos tradicionales, que los categorizan según su formato, en estos repositorios conviven sin procesar archivos de Excel, correos electrónicos, imágenes, audios, vídeos e incluso lenguaje HTML, crucial para la creación de páginas web.
Qué ocurre en internet
en un minuto
El aumento de las unidades de bytes
|
MÉTRICA |
VALOR |
BYTES |
|
BYTE (B) |
1 |
1 |
|
KILOBYTE (KB) |
1.024¹ |
1.024 |
|
MEGABYTE (MB) |
1.024² |
1.048.576 |
|
GIGABYTE (GB) |
1.024³ |
1.073.741.824 |
|
TERABYTE (TB) |
1.024⁴ |
1.099.511.627.776 |
|
PETABYTE (PB) |
1.024⁵ |
1.125.899.906.842.620 |
|
EXABYTE (EB) |
1.024⁶ |
1.152.921.504.606.840.000 |
|
ZETTABYTE (ZB) |
1.024⁷ |
1.180.591.620.717.410.000.000 |
|
YOTTABYTE (YB) |
1.024⁸ |
1.208.925.819.614.620.000.000.000 |
Qué son los 'data lakes'
Tener todos los datos agrupados en un único espacio permite a las empresas poder visualizarlos en un mapa y acceder a ellos con facilidad para su análisis con matemática avanzada e inteligencia artificial (IA). Como se criba la tierra para encontrar minerales, el filtraje es lo que dota a los datos de valor y permite extraer el conocimiento necesario para tomar mejores decisiones corporativas. Ese proceso permite ayudar a los bancos a detectar oportunidades de negocio, a los hospitales a mejorar sus diagnósticos clínicos o a los supermercados a manejar mejor sus inventarios. Así, la flexibilidad que proporcionan los data lakes se traduce en una mayor eficiencia en la gestión empresarial.
Más datos, más oportunidades
Aunque se trata de un término técnico poco conocido entre el gran público, los lagos de datos tienen un peso creciente en el rumbo de la economía global. En 2023, su mercado se valoró en 15.200 millones de dólares (unos millones de euros), una cifra que, según los cálculos de Global Market Insights, superará los 80.000 millones de dólares (unos 73.000 millones de euros) en 2032.
Esa proyección de crecimiento, de un 20% anual, se debe a que la digitalización mundial está acelerando con particular énfasis el volumen de datos no estructurados, aquellos que se generan a diario en redes sociales, plataformas digitales y todos aquellos objetos conectados a la red que llevan el smart como prefijo. Conscientes de que esa abundancia de información puede pulirse para transformarse en inteligencia, cada vez más empresas apuestan por una toma de decisiones basada en la analítica de datos. Los data lakes son el instrumento más eficiente para sustentar ese cambio en la cultura corporativa.
Volumen de datos
Los 'data warehouses'
A diferencia de los 'data lakes', son los repositorios que almacenan solo datos previamente etiquetados y procedentes de aplicaciones, negocios, inventarios o transacciones. "Los data lakes son normalmente utilizados por científicos e ingenieros de datos para realizar análisis complejos. Los data warehouses, en general, son empleados por analistas de negocio para generar informes específicos", explica Carlos Martínez, director global de Soluciones y Servicios de Inteligencia Artificial y Data de Telefónica Tech.
La asignatura pendiente
de las pymes
La datificación del tejido empresarial va a más. En España, un 64% de las compañías ya recurre a los lagos de datos para depurar grandes volúmenes de datos y convertirlos en valor para la organización, según el último informe de la plataforma de gestión de datos Denodo. Esa implantación es particularmente alta en las grandes empresas que llevan años invirtiendo en su transformación en negocios impulsados por los datos o data-driven.
Sin embargo, para las pequeñas y medianas empresas, los data lakes son aún una asignatura pendiente. "Las pymes están algo por detrás pero el impulso a la digitalización de los fondos europeos está ayudándolas a comenzar su proceso", señala Martínez. Una opción es Kit Consulting, un programa de ayudas impulsado por el Gobierno de España que permite financiar la digitalización de esas compañías mediante el asesoramiento de servicios de consultoría. Además, añade el experto, "las actividades más técnicas pueden ser externalizadas a proveedores especializados, lo que simplifica las cosas para las empresas".
Principales proveedores
Amazon, Microsoft y Google son los grandes proveedores de infraestructura en la nube, lo que les da una posición de ventaja en el mercado de los data lakes. Aún así, hay otras compañías que ofrecen esta herramienta de gestión de datos: Oracle, Teradata, Snowflake, IBM, Cloudera...
Sectores más beneficiados
A escala global, el sector en el que más se aplica esta herramienta es el de la sanidad y las ciencias de la vida, según indica un reciente estudio de la firma Market Research Future. Eso se debe a la creciente digitalización de hospitales y clínicas, un proceso que va desde la adopción de registros médicos electrónicos a la telemedicina o al uso de tecnologías de IA para la evaluación médica. Sin una gestión segura y ágil de los datos generados por los pacientes y las investigaciones esas innovaciones no son posibles. En esa línea, el Ejecutivo español ha destinado 28 millones de euros a crear su Data lake sanitario, un repositorio nacional que aúne la información de los sistemas autonómicos para identificar enfermedades que antes pasaban desapercibidas y mejorar sus tratamientos.
La inversión pública en los lagos de datos, explica Martínez, también se destina a ámbitos que pueden nutrirse de la datificación como la agricultura o la gestión medioamiental. No obstante, el otro sector con más protagonismo en ese campo es el de la banca, los servicios financieros y seguros, una industria que se sirve de los datos para analizar riesgos en los préstamos e inversiones, detectar transacciones fraudulentas o personalizar sus productos.
Otros sectores que recurren a los data lakes son el tecnológico y el de las telecomunicaciones (por ejemplo, para optimizar el rendimiento de la red o desarrollar nuevos productos en base al comportamiento de los usuarios), el comercio minorista y electrónico (para analizar los patrones de compra de los clientes) o la manufactura (para hacer que el proceso de producción sea más eficiente).
Un reportaje de EL PERIÓDICO
Textos:
Carles Planas Bou
Diseño:
Ramon Curto
Imágenes:
IA
Coordinación:
Rafa Julve