Páginas

miércoles, 26 de marzo de 2014

Las Vs de Big data: Validez y Veracidad (Parte 4)

Terminé la anterior entrada de la serie sobre Big Data con un referencia a la Validez y Valor. Ahora me centraré en la validez , y por extensión en la veracidad de la datos, dejando el valor para la próxima ocasión.

El proceso de generar conocimiento a partir de los datos en bruto no es sencillo. En la literatura se han propuesto multitud de metodologías al respecto que, aunque pueden variar ente disciplinas, en esencia transmiten el mismo mensaje: ¿De todos los datos que tengo a mi disposición, cuales son los datos realmente relevantes, y de calidad suficiente para mi propósito? Traducido en palabras mundanas, el eterno problema de separar el trigo de la paja. 

Una de las grandes contradicciones que encuentro cuando se habla de Big Data es el hincapié excesivo que se hace en esos dos términos. Los datos son importante, evidentemente, pero la clave no está en los datos en sí, sino en la ciencia que que permite responder (nuevo conocimiento, acciones concretas, decisión a tomar)  a preguntas planteadas (mi problema)  partiendo de los datos.  A mi modo de ver, me parece mucho mas interesante el término Data Science, con el acento en Science, que Big Data, donde no aparece ninguna mención a la ciencia y análisis necesarios para extraer nueva información y conocimiento.

La terminología del párrafo anterior viene a colación porque las tres primeras Vs (Volumen, Variedad, y Velocidad) hacen hincapié únicamente en los datos. No hay todavía ninguna preocupación sobre la validez de éstos, o si servirán finalmente para el problema que intento resolver. AL fin y al cabo recojo esos datos porque tengo una intuición que me puedan servir luego. Imaginad que hemos conseguido recopilar una cantidad asombrosa de datos, del orden de cientos de TeraBytes. Realmente una cosa Big. Pero después de tediosas revisiones de los datos, nos damos cuenta que no sirve una pequeña porción de esos Terabytes . ¿Significa esto que ya no se trata de un proyecto de Big Data? Atendiendo a la cantidad de los datos antes y después de la revisión parece que sí. Como comentaba al principio de la entrada, los datos no son tan importante por sí mismo, y menos aún su cantidad relativa. Lo interesante y a su vez más complejo del Big Data es la ciencia que permite reducir esa cantidad brutal de datos de estrada a aquellos datos válidos y relevantes que generarán nueva información. 

Con la Validez, nos adentramos en aspectos de Big Data menos cristalinos que las Vs anteriores. ¿Son los datos correctos? ¿Son de calidad suficiente? ¿Me sirven datos que tienen distinta precisión, o diferencias significativos en la cobertura o escala espacial y temporal? ¿Son relevantes para mi problema? ¿Me pueden conducir a información "actionable" al final del día?.

Unido estrechamente a la validez, se encuentra la Veracidad de los datos: ¿Puedo confiar en datos que provienen de fuentes dudosas, no oficiales? ¿Quién responde por los datos? ¿A quién puedo preguntar? Si esos datos conllevan un error durante su captura ¿soy consciente de ese error? ¿Cómo se propaga ese error?. A todos nos resulta familiar que cuando vamos al médico, la visita queda registrada en nuestro historial médico así como cada una de las vistas anteriores. ¿Cuando fuimos? ¿Quién nos atendió? ¿Cuáles fueron los síntomas, el diagnóstico y el tratamiento?. A nadie se le escapa por ejemplo que el historial médico es fundamental para que el doctor pueda realizar un buen diagnóstico (información, conocimiento)  y  entonces aplicar un tratamiento conveniente para la dolencia diagnosticada (acciones, decisiones) ¿Conozco el "historial" de los datos y todas las "operaciones" que han sufrido hasta llegar a mis manos? ¿Puedo confiar en datos de los que desconozco cómo han sido tratados o procesados anteriormente? ¿En qué contexto fueron creados o modificados los datos para que los pueda interpretar correctamente?.

La Validez y Veracidad son fases críticas en Big Data porque preparan los datos para la fase posterior de Valor. Aunque algunos aspectos pueden ser automatizados, el contexto que requiere es tan complejo que el factor humano es imprescindible  en esta fase de verificación y fiabilidad para decidir que datos sirven y cuáles no. Por lo tanto, que nadie espere a corto plazo aplicaciones y herramientas de un solo click con un botón "Validad y Verifica tus datos", pero que tampoco espere que personal sin preparación especifica pueda afrontar con éxito estas tareas. Lo bueno, el factor humano es necesario en combinación con la tecnología . La malo ¿el personal de las bibliotecas está lo suficientemente preparado y especializado para validar y verificar flujos continuos de grandes cantidades de datos, de distinta naturaleza, tipología y origen?

No hay comentarios:

Publicar un comentario