Comezamos la serie de las Vs que caracterizan a Big Data para las Unidades de Información con la V de Volumen.
Big data implica grandes volúmenes de datos que crecen a ritmos exponenciales. Se cuenta que cada día se generan enormes cantidades de datos nuevos. Cualquiera puede intuir que volumen es una característica de Big Data que ya se sobreentiende. Lo primero que a uno le cruza la mente al leer el término Big Data es justo la referencia al tamaño: enormes conjuntos de datos. Es cierto, sin lugar a dudas se publican cientos de miles de artículos científicos al año, millones de contenido multimedia se comparte en redes sociales, los satélites capturan continuamente imágenes satélites de la tierra, intercambios de ficheros, por no hablar de la avalancha de datos que se generaran cuando los sensores inteligentes (monitorizando ciudades, bosques, cualquier rincón de la tierra e incluso a uno mismo) y el internet de las cosas alcancen un nivel de madurez aceptable. En total, muchos, muchos datos al día.
Big data implica grandes volúmenes de datos que crecen a ritmos exponenciales. Se cuenta que cada día se generan enormes cantidades de datos nuevos. Cualquiera puede intuir que volumen es una característica de Big Data que ya se sobreentiende. Lo primero que a uno le cruza la mente al leer el término Big Data es justo la referencia al tamaño: enormes conjuntos de datos. Es cierto, sin lugar a dudas se publican cientos de miles de artículos científicos al año, millones de contenido multimedia se comparte en redes sociales, los satélites capturan continuamente imágenes satélites de la tierra, intercambios de ficheros, por no hablar de la avalancha de datos que se generaran cuando los sensores inteligentes (monitorizando ciudades, bosques, cualquier rincón de la tierra e incluso a uno mismo) y el internet de las cosas alcancen un nivel de madurez aceptable. En total, muchos, muchos datos al día.
La
Biblioteca del Congreso anunció en 2010 un plan para almacenar cada tuit desde
2006. Tan solo cuatro años después este proyecto,
que parecía estancado por la dificultad técnica y los recursos económicos
necesarios para almacenar todos esos datos, quizás podría materializarse más
rápidamente hoy porque los costes de almacenamiento literalmente tienden a cero
y la disponible de herramientas especializadas (algunas sin coste) para
almacenar grandes volumen de datos no estructurados. Parece que big data puede
solucionar el retraso de unos cuantos años en la Biblioteca del Congreso.
Sin embargo podemos dar un paso atrás, tomar un poco de aire y perspectiva, y ser un poco críticos antes de dejarnos arrastrar ciegamente por la corriente mediática del Big Data.
Sin embargo podemos dar un paso atrás, tomar un poco de aire y perspectiva, y ser un poco críticos antes de dejarnos arrastrar ciegamente por la corriente mediática del Big Data.
Primero, el big de hoy será el small
de mañana. La percepción de cuanto unos datos son Big varía en función
del campo de estudio. Por ejemplo, en GI (información geográfica), los grandes
conjuntos de datos son intrínsecos a la disciplina desde sus comienzos. Además,
Big es algo dependiente del contexto actual. Tengamos claro pues que
seremos capaces de generar datos “superbig” en los años venideros y miraremos atrás
para darnos cuento de lo "small" que eran los datos entonces.
Segundo, cuanto
mayor sea la cantidad de datos almacenados, mejores
decisiones se podrán tomar para mejorar la sostenibilidad, eficiencia y
eficacia de los servicios públicos de las ciudades, los problemas del
medio ambiente y la energía, y, en definitiva, mejorar la calidad de vida de
los ciudadanos. Seguro? El almacenaje de datos es barato, el problema es
mantenerlos en orden a medida que pasa el tiempo. La curación y preservación de los
datos es un problema mucho más complejo que encima se vuelve más enrevesado con
la llegada de Big Data (debido
a la variedad, como veremos la semana próxima). Debemos entonces almacenar todo
y ya nos preocuparemos de preservarlo luego? O debemos almacenar únicamente
aquello potencialmente interesante y relevante?
Tercero, no
deberíamos preocuparnos tanto por el Big Data. Normalmente no vamos a interaccionar directamente con “los-grandes-datos”.
Creo que estoy en lo cierto en afirmar que a nadie le gusta tratar con miles de
filas y columnas de datos. Lo normal será que terminemos manejando una porción
reducida de éstos, tras un proceso de agregado y filtrado de los big data para
extraer datos de valor y relevantes, que sí nos servirán para tomar decisiones
fiables. Luego, no deberíamos sentirnos frustrados por la avalancha de nuevas herramientas
Big para tratar datos Big. Si somos capaces de obtener conjuntos pequeño de
datos significativos, haremos nuestros análisis correspondientes con las
herramientas que ya conocemos y que tenemos a nuestro alcance.
Por muy
grandes que sean los datos en cuanto a volumen, siempre querremos disponer de
porciones reducidas, representativas y manejables, pero que nos permitan llegar
a las mismas conclusiones que con los originales. Luego el reto en Big Data no está en el aumento
del volumen de los datos, sino en su reducción adecuada.
No hay comentarios:
Publicar un comentario