Páginas

miércoles, 13 de noviembre de 2013

Las Vs de Big Data: Volumen (Parte 1)

Comezamos la serie de las Vs que caracterizan a Big Data para las Unidades de Información con la V de Volumen

Big data implica grandes volúmenes de datos que crecen a ritmos exponenciales. Se cuenta que cada día se generan enormes cantidades de datos nuevos. Cualquiera puede intuir que volumen es una característica de Big Data que ya se sobreentiende. Lo primero que a uno le cruza la mente al leer el término Big Data es justo la referencia al tamaño: enormes conjuntos de datos. Es cierto, sin lugar a dudas se publican cientos de miles de artículos científicos al año, millones de contenido multimedia se comparte en redes sociales, los satélites capturan continuamente imágenes satélites de la tierra, intercambios de ficheros, por no hablar de la avalancha de datos que se generaran cuando los sensores inteligentes (monitorizando ciudades, bosques, cualquier rincón de la tierra e incluso a uno mismo) y el internet de las cosas alcancen un nivel de madurez aceptable. En total, muchos, muchos datos al día.

La Biblioteca del Congreso anunció en 2010 un plan para almacenar cada tuit desde 2006. Tan solo cuatro años después este proyecto, que parecía estancado por la dificultad técnica y los recursos económicos necesarios para almacenar todos esos datos, quizás podría materializarse más rápidamente hoy porque los costes de almacenamiento literalmente tienden a cero y la disponible de herramientas especializadas (algunas sin coste) para almacenar grandes volumen de datos no estructurados. Parece que big data puede solucionar el retraso de unos cuantos años en la Biblioteca del Congreso.

Sin embargo  podemos dar un paso atrás, tomar un poco de aire y perspectiva, y ser un poco críticos antes de dejarnos arrastrar ciegamente por la corriente mediática del Big Data.  

Primero, el big de hoy será el small de mañana.  La percepción de cuanto unos datos son Big varía en función del campo de estudio. Por ejemplo, en GI (información geográfica), los grandes conjuntos de datos son intrínsecos a la disciplina desde sus comienzos. Además, Big es algo dependiente del contexto actual. Tengamos claro pues que seremos capaces de generar datos “superbig” en los años venideros y miraremos atrás para darnos cuento de lo "small" que eran los datos entonces.  

Segundo, cuanto mayor sea la cantidad de datos almacenados, mejores decisiones se podrán tomar para mejorar la sostenibilidad, eficiencia y eficacia de los servicios públicos de las ciudades,  los problemas del medio ambiente y la energía, y, en definitiva, mejorar la calidad de vida de los ciudadanos. Seguro? El almacenaje de datos es barato, el problema es mantenerlos en orden a medida que pasa el tiempo. La curación y preservación de los datos es un problema mucho más complejo que encima se vuelve más enrevesado con la llegada de Big Data (debido a la variedad, como veremos la semana próxima). Debemos entonces almacenar todo y ya nos preocuparemos de preservarlo luego? O debemos almacenar únicamente aquello potencialmente interesante y relevante?

Tercero, no deberíamos preocuparnos tanto por el Big Data. Normalmente no vamos a interaccionar directamente con “los-grandes-datos”. Creo que estoy en lo cierto en afirmar que a nadie le gusta tratar con miles de filas y columnas de datos. Lo normal será que terminemos manejando una porción reducida de éstos, tras un proceso de agregado y filtrado de los big data para extraer datos de valor y relevantes, que sí nos servirán para tomar decisiones fiables. Luego, no deberíamos sentirnos frustrados por la avalancha de nuevas herramientas Big para tratar datos Big. Si somos capaces de obtener conjuntos pequeño de datos significativos, haremos nuestros análisis correspondientes con las herramientas que ya conocemos y que tenemos a nuestro alcance.


Por muy grandes que sean los datos en cuanto a volumen, siempre querremos disponer de porciones reducidas, representativas y manejables, pero que nos permitan llegar a las mismas conclusiones que con los originales. Luego el reto en Big Data no está en el aumento del volumen de los datos, sino en su reducción adecuada

No hay comentarios:

Publicar un comentario