Pascal Neis, Dennis Zielstra. Recent Developments and Future Trends in Volunteered Geographic Information Research: The Case of OpenStreetMap. Future Internet, 6, 76-106, 2014.
Apto para quien desee saber un poco más la historia y quehaceres de OpenStreetMap (OSM), proyecto pionero en la recolección de datos geográficos por los usuarios-productores de contenido (Voluntereed Geographic Information o VGI) .
Pero la historia y contexto es solo el principio. El núcleo del articulo se centra en un par de análisis de OSM desde dos ópticas complementarias: calidad de los datos y el perfil del usuario-productor.
En primer lugar comparan los datos OSM atendiendo a los parámetros que vienen en la norma ISO 19175 sobre calidad de datos geográficos. Los autores repasan de forma exhaustiva con numerosas referencias a la literatura relacionada, cada uno de estos parámetros de calidad, como la precisión de los datos, completud, la evaluación de puntos de interés y objectos geográficos, aspectos de geocodificación, veracidad y cobertura espacial de los datos, entre otros. Se trata de un análisis bien documentado, con gran cantidad de porcentajes que ayuda a poner en contexto la calidad de los datos OSM frente a otras fuentes de datos. Sin embargo, el texto es algo denso y manco de visualizaciones para enriquecer y fortalecer el texto puro y duro.
En segundo lugar el artículo análisis OSM desde la visión del verdadero protagonista, el usuario productor de datos geográficos. El estudio se hace echo otra vez de un hecho común en proyecto de código abierto: el número de usuarios registros dista muchísimo del numero que realmente aporta contenido. Este efecto es fiel a una distribución Long Tail. El análisis continua con aspectos socio-económicos y demográficos desgranando la distribución geográfica, por género, y motivación de los usuarios de OSM. Hombre, entre 20 y 40 año, con estudios universitarios, altruista, y que vive en Europa o Norte América es el prototipo ideal de productor de datos para OSM.
El artículo concluye resumiendo los puntos más destacables de los dos análisis anteriores sobre la calidad de los datos y el perfil de usuario en OSM. Otra revisión del estado del arte sin futuro.
Un artículo es únicamente la punta del iceberg de una investigación. Unos cuantos folios no son suficientes si que quiere ir más allá de su lectura.
Algunas revistas como GigaScience ya enlazan el artículo científico a un repositorio de datos (GigaDB Dataset) que aloja los recursos relacionados al propio artículo, ya sean datos, scripts, o documentación adicional. Todo el conjunto de recursos queda identificado con un DOI, que habitualmente se incluye como una referencia más del propio artículo científico.
En Mayo 2014 se lanza la revista Scientific Data,
cuyos artículos serán descripciones de datos junto con un enlace a los propios datos alojados en repositorios públicos como biosharing.
Scientific Data is a new open-access, online-only publication for descriptions of scientifically valuable datasets. Scientific Data exists to help you publish, discover and reuse research data.
Esta tendencia parece que coge forma: hacer públicamente accesible y citable cualquier recurso (artículo, datos, software) relacionado con una investigación para otros puedan beneficiarse y asegurar al mismo tiempo su validez científica. La fusión de revistas y repositorios podría ser el siguiente paso. La idea de centralizar artículos por disciplinas y sus datos asociados en un mismo sitio web permitiría tener, hasta cierto punto, controlado el conocimiento generado sobre una misma disciplina.
Dejando a parte los pros y contras de un hipotético mega-journal-repositorio, si verdaderamente existiera, podría ofrecer servicios que a día de hoy todavía no existen. Por ejemplo: revisiones del estado del arte dinámicas.
Como cualquier investigador, últimamente me he visto inmerso en trabajos de este estilo. Como ejemplo, la última revisión publicada en Computers, Environment and Urban Systems. Mi problema de fondo creo que generalizable a otros investigadores: Ni he podido beneficiarme de los datos de análisis de revisiones anteriores ni otros colegas podrá hacerlo en el futuro con mi revisión. Si hubiera tenido acceso por ejemplo a las tablas utilizadas durante el análisis de la revisión, justo con los criterios de comparación (columnas) para cada uno de los artículos revisados (filas), seguramente me hubiera ahorrado tiempo, duplicación de esfuerzos, y el trabajo de revisión colaborativo final hubiera sido mucho de mayor calidad y precisión. Como decía, hay tareas para las cuales se necesita mucha más información que la que viene en el artículo publicado.
¿Sería posible un sistema que mantuviera el estado del arte de una disciplina continuamente actualizado? Y no me refiero únicamente a la lista de artículos, sino a los datos utilizados para compararlos, los criterios utilizados, las gráficas estadísticas de resultados, las tablas sumarios, etc. Imagínate: un sistema que fuera capaz de añadir cada artículo nuevo relevante para el estado del arte de una disciplina como una fila más a su base de datos, que extrajera los datos relevantes para el análisis, determinara los valores de la comparación, y visualizar los resultados al instante.
El resultado: un conjunto de datos vivo, referenciable, público, colaborativo y accesible a toda la comunidad investigadora. Dejaría de ser un trabajo de revisión del estado del arte de una disciplina para convertirse en una herramienta de visión de tendencias de una disciplina.
Tras el Volumen y la Variedad, seguimos con la serie de las Vs que caracterizan a Big Data para las Unidades de Información con la V de Velocidad.
La velocidad con la que se producen datos es otra característica de Big Data que promete, si no lo es ya, en convertirse en reto. Uno de los grandes problemas derivado de tener grandes cantidad de datos, de diversa índole y producidos continuamente, es la escasa capacidad de análisis. Algunos comentarios ya han hecho notar el notable diferencial entre la cantidad de datos que somos capaces de almacenar, con respecto a la cantidad de estos (mucho menor) que somos capaces de analizar. Esto se traduce en que muchos datos de entrada no pueden ser analizados y por lo tanto no se les puede extraer valor (próxima V de la serie). Valor desde mi punto de vista es la auténtica V de Big Data. Unido a esto, la tendencia es que esta diferencia entre datos recogidos y analizados se incremente con el tiempo, luego el problema, lejos de solucionarse en el corto tiempo, va a ir a más.
Se me ocurren un par de estrategias simples para intentar abordar el problema anterior.
La primera consistiría en reducir la cantidad de datos de entrada, para que la cantidad de datos que se va analizar se adecue a la capacidad real de análisis. ¿Tiene sentido que las bibliotecas almacenen todo el flujo de datos que les llega? ¿Cada uno de los resultados de investigación? ¿O se deberían aplicar filtros de calidad y forzar la colección de resultados de investigación agregados, procesados en vez resultados en bruto, para restringir así el volumen de entrada de datos? ¿Facilitaría lo anterior tareas posteriores de análisis, búsqueda y preservación?
La segunda es poner hincapié en aumentar la capacidad de análisis. A primera vista parece un aspecto únicamente tecnológico: mejorar capacidad de cálculo, algoritmos avanzados, etc. Pero creo que la capacidad de análisis en Big Data, entendido como el medio para encontrar valor y conocimiento de los datos de entrada, tiene un componente humano vital . Los bibliotecas no parece que se están preparando, tanto a nivel tecnológico como humano, para afrontar este nuevo contexto de Big Data.
Las tres Vs -Volumen, Variedad y Velocidad-, que para muchos definen Big Data, rascan muy ligeramente el verdadero potencial del Big Data, ya que están más cerca del dato que de la promesa del conocimiento que esperamos obtener con Big Data. En una próxima entrega nos meteremos de lleno con la Validez y el Valor, las Vs que se aproximan cada vez al verdadero propósito del Big Data: generar conocimiento a partir de datos.
Algunos proyectos para no perder de vista (algunos ya terminados, otros arrancando) sobre compartición y análisis de datos abiertos (linked data, big data, research data), con especial mimo a la parte geo-espacial, con el objetivo de sacar el máximo rendimiento a los datos:
- PlanetData, Large-scale Data Management (10/2010-09/2014), es una red de excelencia dividido en subproyectos como por ejemplo Linked Map, que busca desarrollar una extensión de la especificación WMS de OGC para que incorpore Datos Enlazados a la propia visualización de los mapas.
- OpenCube, Publishing and Enriching Linked Open Statistical Data for the Development of Data Analytics and Enhanced Visualization Services (11/2013-10/2015), desarrollará herramientas para publicar datos estadísticos enlazados y para analizarlos y visualizarlos .
- PHEME, Computing Veracity - the Fourth Challenge of Big Data (01/2014-12/2016), desarrollará herramientas para identificar y validar información relevante de grandes repositorios de datos.
- MELODIES, Maximizing the Exploiting of Linked Open Data for Enterprise and Science (10/2013-11/2016), desarrollará servicios para el medioambiente a partir de datos abierto y enlazados.
- CHAIN-REDS, Co-ordination and Harmonization of Advanced e-Infrastructures for Research and Education Data Sharing, se centra en promover la colaboración entre científicos facilitando la interoperabilidad de infraestructuras de datos temáticas.
- ENGAGE, An infrastructure for Open, Linked Governmental Data Provision towards Research Communities and Citizens, busca hacer disponibles datos del sector público a los ciudadanos y a la comunidad investigadora.
- SmartOpenData, Linked Open Data for environment protection in Smart Regions, enlazará datos medioambientales, de investigación y VGI, teniendo en cuenta políticas y directivas de datos medioambientales.