Almacenar, acceder y descubrir datos de forma efectiva y eficaz es en esencia un problema común a prácticamente todas las disciplinas científicas. EN cada disciplina, la idiosincrasia de los datos, unido a la forma de trabajo y los métodos propios, hace que existan soluciones particulares para cada disciplina científica. Tomemos la comunidad SIG, la cual conozco bastante. Existe un servicio respaldado por un organismo internacional de normalización (OGC) denominado Catalogue Service for Web (CSW) que define una interfaz de consulta para buscar y recuperar registros de metadatos asociados a recursos geográficos teniendo en cuenta criterios de búsqueda de carácter espacio-temporal. Así mismo, el servicio CSW también especifica el modelo de datos interno para que cada uno de los registros del catálogo sea consultable de forma adecuada
La misma filosofía se aplica a otras disciplinas tan dispares como eGobierno, Unidades de Información, bioinformática, etc. las cuales disponen también de servicios similares en forma de registros o catálogos que albergan metadatos y permiten la búsqueda de recursos de acuerdo a las peculiaridades de cada disciplina. Como no, estos servicios y sus respectivos modelos de datos e interfaces de consulta vienen respaldados por normas internacionales de estandarización.
Tanta estandarización parece que crea justo el efecto justo contrario: fragmenta. La investigación actual es multi-disciplinar por lo que es habitual que científicos de una disciplina necesiten recursos de otras disciplinas. Al final resulta que se necesitan nuevos estándares para que catálogos de distintas disciplinas se entiendan entre ellos para que la promesa todavía incumplida de eScience se convierte en realidad: acceso y búsqueda de recursos científicos multi-disciplinares.
Y entonces llega Github. Una plataforma web online que nació como repositorio para el control de versiones de código fuente. El proceso de desarrollar una aplicación es arduo e iterativo. Un programador genera diversas versiones del código a medida que añade nuevas funcionalidades. En cada nueva versión, el programador documenta (metadatos de contexto) las nuevas funciones añadidas o qué errores ha solucionado. Si la nueva versión no le convence, entonces siempre puede recuperar el estado anterior del código, o el anterior del anterior. Github mantiene el control de versiones de todos los ficheros de código desde la creación de proyecto. Es un gran repositorio online que gestiona el ciclo de vida de un recurso de información. Lo poco que hace lo hace excepcionalmente bien.
Encima de la funcionalidad básica, Github añade una capa social, la cual hace fácil crear comunidades espontáneas de desarrolladores: algunos contribuyen a proyectos de terceros, se permite la descarga de un repositorio de código pero con la diferencia que la copia maestra siempre la gestiona el propietario o creador del repositorio original. Y todo esto es posible con uno o dos clicks.
El funcionamiento de Github parece el sueño de eScience para cualquier científico. Tener acceso a un inmenso repositorio de datos, donde se mantienen distintas versiones de los datos, se accede a cada una de las versiones, y se pueden descargar los datos localmente pero con la salvedad de que siempre se puede obtener la ultima versión de los datos yendo al repositorio original. Venga ya! No me lo creo!
La comunidad ha encontrado multitud de usos nuevos y creativos para los que Github no fue inicialmente diseñado: desde control de documentos, imágenes, la escritura de libros colaborativa, hasta repositorios de datos de la administración pública, e incluso de datos geográficos. ¿Necesitamos servicios altamente especializados pero estandarizados según la disciplina que no logran hablar entre ellos? ¿o servicios generalistas, pero con la capacidad de generar valor? ¿Para cuando un Github que permita el acceso, compartición y recuperación de datos científicos multidisciplinares?
No hay comentarios:
Publicar un comentario