Imagina
un mundo en que existen conjuntos de datos descomunales que contienen datos
sobre cada uno de los detalles de las publicaciones científicas, los autores,
el rol de cada autor, los datos empleados en los estudios, las presentaciones
públicas derivadas de cada presentación, videos, manuales y documentos
asociados, información sobre los proyectos que financian dichas
investigaciones, las patentes asociadas, y detalles sobre los productos o
servicios transferidos al mercado derivados de la investigación, y porque no
otros tantos mensajes, tuits, fotos y entradas de blogs provenientes de las
redes sociales que cuentan la impresión y percepción que tienen terceros
(colegas, clientes, amigos e incluso la familia) sobre el último trabajo científico.
Jim Cray lideró el cambio hacia el cuarto paradigma en la ciencia, basado íntegramente en una ciencia intensiva en datos. El término paradigma presupone un tipping point, un cambio en hacer las cosas como resultados de la acumulación de pequeños cambios a lo largo del tiempo. Tal como apuntó Kuhn en su indispensable libro The structure of scientific revolutions”, "la ciencia no progresa mediante acumulaciones
lineales de nuevo conocimiento, sino que periódicamente suceden revoluciones, o
cambios de paradigma, que transforman radicalmente la naturaleza del método científico
en ciertas disciplinas y campos".
La ciencia intensiva en datos esta aquí y viene para quedarse. Representa el inicio hacia un cambio de paradigma que se asentara durante los próximos años. Significa una revolución necesaria para adecuarse a las nuevas condiciones del entorno: datos, datos y datos. Y por qué ahora surge esta manía colectiva por los datos si siempre hemos estados rodeados de inmensas cantidades de datos? El cumulo de varios factores puede explicar que este cambio de paradigma suceda justo ahora y no antes.
Primero,
la democratización de la tecnología móvil ha propiciado que muchos ciudadanos lleven
un “generador de datos en cualquier lugar y momento” en su bolsillo.
Segundo,
el giro hacia el usuario, la colaboración, y la producción de contenido
colaborativo de la Web 2.0 ha permite la creación masiva de datos y ha sido un factor
determinante para que se precipite el cambio de paradigma.
Tercero,
la tecnología necesaria para el almacenamiento, análisis y minería de grandes
cantidades de datos ha alcanzo un estado de madurez aceptable para que la
ciencia intensiva en datos sea posible. Aquí no me refiero a una única tecnología
sino a un conjunto de tecnologías interrelaciones como la computación en la
nube, virtualización, bases de datos No-SQL, nuevos modelos de computación como
MapReduce, sensores, y un largo etcétera, que hacen posible en conjunto Big
Data, o sea, el tratamiento masivo de datos.
Cuarto, el
coste de las herramientas Big Data se ha reducido de tal forma que cualquiera puede
tener acceso a ellas, y no solo un selecto club de privilegiados (CERN, Yahoo!,
o Google) como era hasta ahora.
Quinto,
los espabilados que ven negocio a través de los datos también han impulsado la
demanda por Big Data. Lo que nos cuentan los datos puede servir para explorar
nuevas tendencias de mercado, segmentación de clientes, estudiar la
productividad de una comunidad científica, pronosticar intención de voto, analizar
el tejido empresarial-investigación de una región e incluso diseñar nuevas
políticas de futuro.
La ciencia intensiva en datos necesita de herramientas,
métodos y personal con miras analíticas para explotar convenientemente Big Data. A lo largo de las próximas semanas analizaremos las Vs
que caracterizan a Big Data así como su valor e impacto para las Unidades de Información
No hay comentarios:
Publicar un comentario