Tras el Volumen y la Variedad, seguimos con la serie de las Vs que caracterizan a Big Data para las Unidades de Información con la V de Velocidad.
La velocidad con la que se producen datos es otra característica de Big Data que promete, si no lo es ya, en convertirse en reto. Uno de los grandes problemas derivado de tener grandes cantidad de datos, de diversa índole y producidos continuamente, es la escasa capacidad de análisis. Algunos comentarios ya han hecho notar el notable diferencial entre la cantidad de datos que somos capaces de almacenar, con respecto a la cantidad de estos (mucho menor) que somos capaces de analizar. Esto se traduce en que muchos datos de entrada no pueden ser analizados y por lo tanto no se les puede extraer valor (próxima V de la serie). Valor desde mi punto de vista es la auténtica V de Big Data. Unido a esto, la tendencia es que esta diferencia entre datos recogidos y analizados se incremente con el tiempo, luego el problema, lejos de solucionarse en el corto tiempo, va a ir a más.
Se me ocurren un par de estrategias simples para intentar abordar el problema anterior.
La primera consistiría en reducir la cantidad de datos de entrada, para que la cantidad de datos que se va analizar se adecue a la capacidad real de análisis. ¿Tiene sentido que las bibliotecas almacenen todo el flujo de datos que les llega? ¿Cada uno de los resultados de investigación? ¿O se deberían aplicar filtros de calidad y forzar la colección de resultados de investigación agregados, procesados en vez resultados en bruto, para restringir así el volumen de entrada de datos? ¿Facilitaría lo anterior tareas posteriores de análisis, búsqueda y preservación?
La segunda es poner hincapié en aumentar la capacidad de análisis. A primera vista parece un aspecto únicamente tecnológico: mejorar capacidad de cálculo, algoritmos avanzados, etc. Pero creo que la capacidad de análisis en Big Data, entendido como el medio para encontrar valor y conocimiento de los datos de entrada, tiene un componente humano vital . Los bibliotecas no parece que se están preparando, tanto a nivel tecnológico como humano, para afrontar este nuevo contexto de Big Data.
Las tres Vs -Volumen, Variedad y Velocidad-, que para muchos definen Big Data, rascan muy ligeramente el verdadero potencial del Big Data, ya que están más cerca del dato que de la promesa del conocimiento que esperamos obtener con Big Data. En una próxima entrega nos meteremos de lleno con la Validez y el Valor, las Vs que se aproximan cada vez al verdadero propósito del Big Data: generar conocimiento a partir de datos.
No hay comentarios:
Publicar un comentario