Páginas

miércoles, 26 de marzo de 2014

Las Vs de Big data: Validez y Veracidad (Parte 4)

Terminé la anterior entrada de la serie sobre Big Data con un referencia a la Validez y Valor. Ahora me centraré en la validez , y por extensión en la veracidad de la datos, dejando el valor para la próxima ocasión.

El proceso de generar conocimiento a partir de los datos en bruto no es sencillo. En la literatura se han propuesto multitud de metodologías al respecto que, aunque pueden variar ente disciplinas, en esencia transmiten el mismo mensaje: ¿De todos los datos que tengo a mi disposición, cuales son los datos realmente relevantes, y de calidad suficiente para mi propósito? Traducido en palabras mundanas, el eterno problema de separar el trigo de la paja. 

Una de las grandes contradicciones que encuentro cuando se habla de Big Data es el hincapié excesivo que se hace en esos dos términos. Los datos son importante, evidentemente, pero la clave no está en los datos en sí, sino en la ciencia que que permite responder (nuevo conocimiento, acciones concretas, decisión a tomar)  a preguntas planteadas (mi problema)  partiendo de los datos.  A mi modo de ver, me parece mucho mas interesante el término Data Science, con el acento en Science, que Big Data, donde no aparece ninguna mención a la ciencia y análisis necesarios para extraer nueva información y conocimiento.

La terminología del párrafo anterior viene a colación porque las tres primeras Vs (Volumen, Variedad, y Velocidad) hacen hincapié únicamente en los datos. No hay todavía ninguna preocupación sobre la validez de éstos, o si servirán finalmente para el problema que intento resolver. AL fin y al cabo recojo esos datos porque tengo una intuición que me puedan servir luego. Imaginad que hemos conseguido recopilar una cantidad asombrosa de datos, del orden de cientos de TeraBytes. Realmente una cosa Big. Pero después de tediosas revisiones de los datos, nos damos cuenta que no sirve una pequeña porción de esos Terabytes . ¿Significa esto que ya no se trata de un proyecto de Big Data? Atendiendo a la cantidad de los datos antes y después de la revisión parece que sí. Como comentaba al principio de la entrada, los datos no son tan importante por sí mismo, y menos aún su cantidad relativa. Lo interesante y a su vez más complejo del Big Data es la ciencia que permite reducir esa cantidad brutal de datos de estrada a aquellos datos válidos y relevantes que generarán nueva información. 

Con la Validez, nos adentramos en aspectos de Big Data menos cristalinos que las Vs anteriores. ¿Son los datos correctos? ¿Son de calidad suficiente? ¿Me sirven datos que tienen distinta precisión, o diferencias significativos en la cobertura o escala espacial y temporal? ¿Son relevantes para mi problema? ¿Me pueden conducir a información "actionable" al final del día?.

Unido estrechamente a la validez, se encuentra la Veracidad de los datos: ¿Puedo confiar en datos que provienen de fuentes dudosas, no oficiales? ¿Quién responde por los datos? ¿A quién puedo preguntar? Si esos datos conllevan un error durante su captura ¿soy consciente de ese error? ¿Cómo se propaga ese error?. A todos nos resulta familiar que cuando vamos al médico, la visita queda registrada en nuestro historial médico así como cada una de las vistas anteriores. ¿Cuando fuimos? ¿Quién nos atendió? ¿Cuáles fueron los síntomas, el diagnóstico y el tratamiento?. A nadie se le escapa por ejemplo que el historial médico es fundamental para que el doctor pueda realizar un buen diagnóstico (información, conocimiento)  y  entonces aplicar un tratamiento conveniente para la dolencia diagnosticada (acciones, decisiones) ¿Conozco el "historial" de los datos y todas las "operaciones" que han sufrido hasta llegar a mis manos? ¿Puedo confiar en datos de los que desconozco cómo han sido tratados o procesados anteriormente? ¿En qué contexto fueron creados o modificados los datos para que los pueda interpretar correctamente?.

La Validez y Veracidad son fases críticas en Big Data porque preparan los datos para la fase posterior de Valor. Aunque algunos aspectos pueden ser automatizados, el contexto que requiere es tan complejo que el factor humano es imprescindible  en esta fase de verificación y fiabilidad para decidir que datos sirven y cuáles no. Por lo tanto, que nadie espere a corto plazo aplicaciones y herramientas de un solo click con un botón "Validad y Verifica tus datos", pero que tampoco espere que personal sin preparación especifica pueda afrontar con éxito estas tareas. Lo bueno, el factor humano es necesario en combinación con la tecnología . La malo ¿el personal de las bibliotecas está lo suficientemente preparado y especializado para validar y verificar flujos continuos de grandes cantidades de datos, de distinta naturaleza, tipología y origen?

domingo, 23 de marzo de 2014

ERMES arranca

Algunos lugares del mundo no tendrían razón de existir sin el arroz. El arroz es mucho más que un alimento primario y tiene un rol social, cultural e incluso religioso muy arraigado. Esto sucede por ejemplo en los países del sureste asiático como China, Vietnam, Tailandia o Filipinas. En números, el sureste asiático produce cerca del 80% del arroz mundial y consume aproximadamente la misma proporción. Pero los números solos sin contexto son engañosos. En estos países asiáticos, la mayoría de la población vive por debajo del nivel de pobreza y depende del arroz como su principal fuente de alimentación. Además, esta área, por su situación geográfica, sufre el azote de tornados, tsunamis, terremotos, y violentas tormentas que pueden simplemente borrar del mapa la próxima cosecha de arroz (entre otras cosas, claro, pero en el contexto de esta entrada, el arroz es lo importante), con el consiguiente problema de hambruna, económico, social y cultural para sus habitantes.  Los pobres vuelven a ser los más vulnerables. 

Europa también es productora de arroz, pero sus números son bastante más discretos: alrededor del 5-10% mundial. Dentro de Europa, Italia (50%) es el mayor productor seguida de España (25%),  Grecia (7%) y Portugal (6%). Los cuatro países mediterráneos abarcan casi la totalidad de la producción europea. Pero si hacemos un zoom en cada país, las áreas arroceras son muy delimitadas. En Italia, por ejemplo, el área arrocera se extiende entre las Regiones del Piamonte y Lombardia, de ahí los famosos risotos. En España, la producción se concentra en la área de La Albufera de Valencia  y alrededores. Quién no ha disfrutado de una paella con la denominación de Arroz de Valencia.

El proyecto FP7 ERMES (An Earth obseRvation Model based RicE information Service) se articula en tres pilares básicos: arroz,  datos y modelos de la Observación de la Tierra, y serviciosSe trata de un proyecto europeo colaborativo subvencionado por el FP7 y en el contexto del programa europeo sobre Observación de la Tierra llamado Copernicus (antes GMES), cuyo objetivo principal es dar valor a las imágenes captadas por satélites misiones Sentinel, por ejemplo) mediante la creación de servicios operacionales para el estudio del cambio climático o la monitorización de la tierra de cultivo. 

Los satélite son clave en este proyecto, pero que nadie se engañe, no vamos a crear el satélite ERMES-1 ni a lanzarlo en órbita! El proyecto ERMES parte de los datos que captan los satélites (datos de Observación de la Tierra), los transformará adecuadamente mediante técnicas de remote sensing para obtener datos procesados (productos) servibles para que modelos matemáticos estimen el comportamiento de la cosecha de arroz (como la estimación de producción o alertas de riesgo) en determinadas áreas de estudio (como la zona valenciana). Ya que al agricultor final no le interesa las imágenes satélites ni modelos complejos de cosechas,  el proyecto también creará servicios web y aplicaciones móviles para que los agricultores y cooperativas puedan aprovechar esas fuentes de datos de Observación de la Tierra originalmente generadas a miles de kilómetros de altura para sus propios campos. 

El grupo de investigación GeoTec de la Universitat Jaume I de Castellón, participa como miembro del proyecto. Nuestro rol se centra en el diseño e implementación de esos servicios de valor añadido para el agricultor. El proyecto acaba de empezar (1 Marzo 2014), y durante los próximos tres años iremos contando qué cosas vamos realizando para el bien del arroz. 

sábado, 22 de marzo de 2014

Mucho ruido y pocas nueces

Ligado a entradas previas sobre posibles alternativas al sistema de evaluación científica (aquí, aquí y aquí), una de los críticas más comunes, aunque los comités de selección siguen haciendo oídos sordos, es el mal uso del Factor de Impacto (IF) para evaluar la carrera científica de un investigador.  A esta crítica se suma también el editor de Nature en un artículo corto titilado "Escape from the IF" en Ethics in Science and Environmental Politics 8:5-7. De hecho este número especial contiene una interesante lista de artículos dedicados al uso y mal uso de los índices bibliométricos para cuantificar el rendimiento individual de los investigadores. 

En realidad, Philip Campbel no se moja mucho. Es políticamente correcto en admitir que los comités de selección de procesos de contratación y/o promoción de investigadores o de evaluación de propuestas de proyectos, no deben fijarse exclusivamente en el factor de impacto de una revista como medida para juzgar la relevancia y claridad de un artículo publicado en esa revista. El autor evidencia su argumento con datos de artículos publicados en 2002 y 2003  en Nature que contribuyen directamente al IF de 2004 (algo más de un 32). Únicamente un 25% de los artículos publicados durante los dos años anteriores atrajeron casi el 90% de las citas totales que contabilizaban para el IF en 2004. Es decir, la aportación conjunta al IF de las tres cuartas parte de los artículos publicados en ese bienio es casi residual. Los datos no mienten y otra vez más la famosa regla del  80:20 del economista italiano Vilfredo Pareto (quien descubrió que el 80% de la riqueza en un país pertenecía únicamente al 20% de su población)  explica también la distribución de citas  en los artículos de Nature.

Tampoco quiero insinuar que el 75% de los artículos publicados en Nature no son de calidad. Simplemente, la comunidad investigadora no los ha citado durante dos años con la relevancia del otro 25 por ciento. Puede que pasado cierto tiempo, por causas varias, las citas de esos artículos aumenten considerablemente. O simplemente pasen a la posteridad como artículo publicado en Nature con cero citas. Pero para entonces, pasados dos años desde su publicación, tanto si un artículo es citado cero o 2000 veces en un año, ya no importa porque no contribuye nada al IF de la revista.  Y ya está, eso quiere decir el IF y nada más. Tratar de ir más allá del contexto del IF para inferir la calidad, relevancia e impacto científico y social de un artículo individual es un error de libro.

Lamentablemente, parece que quienes deciden sobre el futuro de los investigadores, se aferran al IF (recordamos: indicador a nivel de revista y válido durante una ventana de 2 años) como "el instrumento más preciado" para cuantificar la relevancia e impacto de los artículos de un investigador durante su carrera investigadora. No hace falta ser un analista de datos curtido para darse cuenta que tratar de aplicar un indicador definido en un contexto dado en otro contexto totalmente diferente que varía en granularidad (nivel de revista vs. nivel  de artículo) y temporalidad (dos años vs. toda la carrera científica) es simplemente algo que como mínimo revolvería el estómago de Pareto. 

Para ser justos, hay que admitir que los propios investigadores también tenemos parte de culpa en seguir alimentando la autoridad del FI en busca de nuestro beneficio propio a pesar de que sabemos que, ni es la forma de hacer ciencia dirigida y para el beneficio de la sociedad, ni tampoco sirve para mejorar en general la sostenibilidad y calidad del sistema científico a largo plazo . Arturo Casadevall y Ferric Fang lo explican claramente en su último artículo "Causes fo the Persistence of Impact Factor Mania" publicado en mBIO 5(2):e00064-14.



lunes, 17 de marzo de 2014

Aprender programación desde el jardín de infancia

Cuando se entra en transiciones de puestos de trabajo, el final de uno conectado inmediatamente con el comienzo de un nuevo trabajo , el resultado es casi siempre la obligación de asumir tareas de ambos trabajos durante el período de transsición. Y esto es así en investigación porque resulta bastante habitual que queden tareas pendientes de la vieja institución, bien sea un artículo a medias o un informe casi por terminar, mientras uno ya comienza a asumir el nuevo rol en la nueva institución. En fin, no he tenido tiempo ni de escribir en este blog.

Aunque sí que me ha llamado la atención durante las pasadas semanas algunas noticias en prensa, entradas de blog e inclusos libros que claman el poder de los datos, y demandan una visión analítica y mayor preparación para el análisis por parte de la ciudadanía, en virtud de la Era De Los Datos que nos ha tocado vivir. 

Algunas pronostican, con acierto por mi parte,  que las matemáticas y el análisis de datos, además de otras competencias claves, deberían ser pilares fundamentales del contenido curricular en las escuelas. Los trabajos del futuro demandarán razonamiento abstracto y grandes dosis de análisis , que combinado con un pensamiento crítico y abierto e con conocimiento de idiomas, serán imprescindibles para generar servicios de valor basado en el conocimiento. Por supuesto que los trabajo cuasi-artesanales seguirán existiendo, así como aquellos trabajos que requieran de relaciones personales entre cliente y proveedor. Pero no cabe duda que todos debemos hacer un esfuerzo para mejorar nuestras capacidades analíticas para entender y fiarnos del mundo de datos en el que vivimos. Podemos y debemos cambiar. 

Y empezando desde los más pequeños es una buena idea.

Making Makers es una interesante iniciativa que recopila materiales adecuados para aprender a utilizar las herramientas y las tecnologías de la información, incluyendo también la programación. Otro ejemplo es Mi Primer Kit de Robótica, o el libro Python for kids que viene con un portal completo de recursos, para que nuestros hijos aprendan sus primeros algoritmos codificados en el lenguaje de programación Python, o Primo para que los niños aprendan la lógica de la programación.

Si se cultiva la parte analítica de nuestro hijos junto con otras cualidades y  competencias igualmente importantes, nuestro reto como "facilitadores" es prepararlos en la senda de la formación activa y la curiosidad por aprender y conocer durante todo la vida. No sabemos los nuevos trabajos que surgirán en cinco años, y menos dentro de 20 años cuando la nueva generación se incorpore al mundo laboral. ¿Que enseñarlos ahora? Curiosidad, motivación para aprender, pensamiento critico, y sobre todo, inculcar el valor de que la formación es un activo para la persona para toda la vida y no una imposición obligatoria durante la edad escolar. Con estas premisas , seguro que aprenderán las competencias necesarias para desempeñar los trabajos del 2034.