Páginas

sábado, 19 de abril de 2014

Las Vs de Big data: Sumario (y Parte 7)

Algunos meses atrás comenzábamos una serie de entradas sobre Big Data y unidades de información. La primera entrada de la serie terminaba con la siguiente nota:

La ciencia intensiva en datos necesita de herramientas, métodos y personal con miras analíticas para explotar convenientemente Big Data. A lo largo de las próximas semanas analizaremos las Vs que caracterizan a Big Data así como su valor e impacto para las Unidades de Información

A los largo de las ultimas semanas hemos ido revisando, mas bien comentando algunas ideas sin ser demasiado exhaustivo, las distintas dimensiones de Big Data, es decir las Vs, que se encuentran por doquier en la literatura, blogs y recortes de prensa: Volumen (parte 1), Variedad (parte 2) y Velocidad (parte 3).

A parte de estas tres archi-conocidas Vs, incluimos más Vs que a nuestro parecer son igualmente relevante para entender el alcance y complejidad de Big Data: Validez y Veracidad (parte 4), Valor (parte 5), y Visualización (parte 6).

Podríamos haber seguido con vulnerabilidad, etc. hasta agotar todas las palabras con Vs que se nos ocurriesen pero creamos que no es necesario. ¿Cogéis la idea, no? El tamaño no es tan importante como nos vende y nos pregona continuamente la industria y prensa especializada, que ha abusado excesivamente del término Big Data.

Cerramos esta serie con la presente entrada a modo de conclusión personal. A continuación anotamos algunas frases resumen en cuanto a las "verdades" (otra v!) de Big Data y algunos comentarios aplicados al caso particular de las unidades de información.

  • Los datos son fundamentales, ya sean big o small, pero secundarios. La pregunta a resolver es lo realmente prioritario. Debe existir un objetivo o problema bien definido para emprender un proyecto de este tipo. Luego, la ciencia en Data Science es lo primario, y no lo datos.
  • La inmensa mayoría de los proyectos a día de hoy no son Big Data. Se pueden resolver con la tecnología que ya existía antes del fenómeno Big Data. Esto no impide que se emplee tecnología como Hadoop para montar por ejemplo un cluster para computación en paralelo aunque la solución requerida fuera mucha más sencilla. Por la tanto, el uso de Hadoop (u otra tecnología relacionado con Big Data) no es condición suficiente para presumir de tener en marcha un proyecto Big Data.
  • Se tiene entre manos un proyecto de Big Data cuando cumple algunas (o incluso todas) de las tres primeras Vs: volumen descomunal de datos, variedad exponencial de datos, o velocidad incesante de entrada de datos. ¿Se encuentran las unidades de información y bibliotecas en un escenario que requiera computación en paralelo para atender a millones de usuarios? Puede que existan algunos casos en centros internacionales pero en territorio español decididamente no. Un estudio reciente muestra las carencias de la bibliotecas españolas en cuanto por ejemplo presencia web o disponibilidad de catálogos en línea, no hablemos pues de proyectos de Big Data. ¿Y en el futuro? Pues depende totalmente de la naturaleza de los futuros problemas que las bibliotecas tenga que acarar en el futuro. Si se convirtiesen en gestores de los datos generados en proyectos de investigación, por ejemplo, la cosa cambiaría radicalmente porque en ese escenario o bien el volumen, variedad o velocidad de entrada de datos a escalas exponenciales sería más que probable. 
  • Resulta mucho más interesante definir el equipo de un proyecto Big Data que el término en sí. Como hemos recalcado en la serie de entradas, el factor humano es decisivo para el éxito de un proyecto de este tipo. La tecnología es importante, pero ella sola no te salvará de la quema si no hay equipo. Definir un equipo con competencias complementarias que cubra todas las necesidad de un proyecto de Big Data es primordial pero nadie parece importarle. ¿Que alguien me diga si alguna biblioteca o unidad de información española tiene un estadístico, matemático, informático, o experto en visualización y comunicación de los datos entre su personal o colaborando con personal de la biblioteca?

sábado, 12 de abril de 2014

Algoritmos más listos que tú

Los algoritmos nos rodean. Pierre Levy afirma que estamos frente a un aumento de la inteligencia colectiva humana gracias al “estadio algorítmico”[1] en que nos encontramos. Sin embargo, el uso de estos mismos algoritmos para “facilitarnos” las cosas, más bien parece que nos lleve a una visión reduccionista de la Web.

Hace un tiempo que vengo notando como Amazon, Linkedin, Facebook, Google, etc. me proponen cosas que en principio me resultaban extrañas…

… como que Linkedin, me sugiera contactar con gente que tengo como contacto en Gmail, aunque ese correo ya no esté operativo y ellos no tengan cuenta en Linkedin…

Luego me resultaban un engorro…

… como que en todas las ventanas de publicidad se me ofrezca la compra de juguetes Lego, porque busqué algo sobre eso hace dos semanas…

Y al final me cabreaban…

… cuando me pregunto quién le ha dado a Google la misión de “organizar la información del mundo y hacerla universalmente accesible y útil”…


No es difícil llegar a la conclusión de que algo desconocido está pasando por debajo cuando lanzo una búsqueda, hago un click o compro un artículo por la web. Se puede ver que estos diferentes servicios se comunican entre sí y aprenden de lo que hago, aunque no me lo hayan claramente dicho.

En 2011 Eli Pariser, lo presentó clara y concisamente en TED: Beware online “filter bubbles”[2]. Estos servicios, en aras de una óptima personalización de resultados (y marketing directo), están seleccionando por mí lo que quiero ver creando “burbujas de información”, esto es mostrándome en primer lugar aquellas cosas que, en base a lo que saben de mí, piensan me puede interesar. Frente a esto tengo varios problemas, supongo que compartidos por muchos:
  1. Me asusta que sepan tanto de mí, o que crean que lo saben que es peor.
  2. Además de encontrar resultados relevantes y pertinentes, me gustaría contrastar otras visiones y dejar que la información fluyera en mi pantalla libremente. Ahora mismo me encierran en mis temas de siempre.
  3. Sería interesante, primero que estos algoritmos fueran transparentes y los usuarios tuvieran la información sobre cómo funcionan; en segundo lugar, siendo consciente de ello y visto que no creo que los eliminen, estaría bien que el usuario pudiera activarlos o desactivarlos según necesidad.
  4. Cada vez más usamos dispositivos para uso personal y laboral, creándonos una especie de doble personalidad que Google no puede detectar. ¿Cómo las búsquedas de mi yo “personal”, pueden estar interfiriendo en mi yo “laboral”, y viceversa, generando así una pérdida de información? 

En todo caso la sensación que me queda es que el intento de hacernos la vida más fácil, puede contrariamente hacérnosla más complicada y menos rica.




[1] Alvaro, S. (2014) IEML: Proyecto para un nuevo humanismo. Entrevista a Pierre Lévy. CCCLab: investigación e innovación en Cultura. 26/03/2014



[2] Pariser, E. (2011) Beware online “filter bubbles”. En: TED talks, marzo 2011 http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles [Ultima visita: 2014-04-14]

miércoles, 9 de abril de 2014

Listo para volar

Concretamente a nosotros, metidos como estamos en Ciencia de un modo u otro, nos aterra ver como nunca es el turno de la Ciencia y la Cultura en los presupuestos del Estado, como tampoco se incentivan iniciativas de inversión privada en proyectos de I+D, y como siempre las cabezas pensantes nacionales tienen que irse fuera para triunfar.

Ojala fuéramos unos business angels, o tuviéramos la fortuna de Bill Gates para subvencionar iniciativas interesantes y creativas, pero algo podemos poner de nuestra parte.

Las iniciativas crowdsourcing ofrecen una excelente oportunidad parar realizar actividades de micromecenazgo. Llevamos tiempo pensando en ello, pero aun no habíamos decidido a participar. Por fin hoy, viendo esta iniciativa que aúna juventud, tecnología. curiosidad y ganas de aprender, parece que ya nos hemos decidido. Personalmente, siendo padres, y sin serlo también, me imagino la emoción de nuestro hijo si un proyecto como este llegara a ser financiado. Y siendo jóvenes como hemos sido (y somos), que una iniciativa como esta se haga realidad, puede dar un empuje brutal a las ganas de seguir haciendo cosas por parte de estos chicos.



Siendo como somos, no nos querríamos quedar ahí y tenemos la idea de iniciar un estudio a largo plazo, para observar de que forma nuestra colaboración en este tipo de iniciativas pueden haber influenciado en el desarrollo de una carrera profesional, el progreso de la Ciencia en España o en nuestra cuenta bancaria, al menos...

viernes, 4 de abril de 2014

#sumario #bigdatajournals (04/04/2014)

Nuevas revistas académicas sobre Big Data: 

Big Data Research (Elsevier): 
It promotes Data Science and interdisciplinary collaboration between fields, and to showcase the benefits of data driven research, papers demonstrating applications of big data in domains as diverse as Geoscience, Social Web, Finance, e-Commerce, Health Care, Environment and Climate, Physics and Astronomy, Chemistry, life sciences and drug discovery, digital libraries and scientific publications, security and government.
EPJ Data Science (EPJ):
It covers a broad range of research areas and applications and particularly encourages contributions from techno-socio-economic systems, where it comprises those research lines that now regard the digital "tracks" of human beings as first-order objects for scientific investigation
 Big Data (Liebert Pubs):
It brings together the community to address current challenges and enforce effective efforts to organize, store, disseminate, protect, manipulate, and, most importantly, find the most effective strategies to make this incredible amount of information work to benefit society, industry, academia, and government.
Big Data & Society (SAGE):
It publishes interdisciplinary work principally in the social sciences, humanities and computing and their intersections with the arts and natural sciences about the implications of Big Data for societies.

miércoles, 2 de abril de 2014

Las Vs de Big data: Visualización (Parte 6)

De nada sirve generar valor a partir de los datos, grandes o pequeños, si al final no somos capaces de comunicar adecuadamente la información generada a quien la necesita. El término actionable information se refiere a información que puede llevar a acciones y decisión concretas. Si se fracasa en la Visualización, entendida como la comunicación eficientemente de la información y conocimiento obtenido mediante toda la cadena de Vs del Big data que hemos descrito a lo largo de estas series de entradas, entonces todo el esfuerzo realizado de recoger, filtrar, validar, verificar, analizar y dar valor a los datos pierde su fin, porque nadie va a beneficiarse para la toma de acciones y decisiones pertinente. 

El recorrido de transformar grande volúmenes de datos en bruto en información surge para dar respuestas a preguntas planteadas por un individuo o grupo. Por lo tanto, la comunicación eficiente, clara y efectiva de la información debe dar, al final de este recorrido de las Vs del Big data, respuestas concretas a estas preguntas. Si no se cuidan los aspectos de comunica, todo lo realizado pierde valor. 

Existen multitud de técnicas de visualización. Este requiere escoger el método y tecnología más idóneas dependiendo de quién deba interpretar la información presentada. Además de ser una forma eficaz de transmitir información, la visualización también se puede utilizar para otros fines. Por ejemplo, para atraer a un público o comunidad e incluso como expresión artística del Big data.

Las unidades de información y bibliotecas pueden sacar un gran rendimiento a usos creativos de la visualización de los datos, no únicamente para presentar la información escondida entre el Big data de forma clara e inteligible, sino como gancho para renovar el interés de una comunidad de usuarios en declive, y quizás lo más importante, para atraer a nuevos usuarios a las bibliotecas.

martes, 1 de abril de 2014

Las Vs de Big data: Valor (Parte 5)

Bien, ahora que ya he conseguido obtener los datos relevantes: ¿qué puedo hacer con ellos?. Encontrar pequeñas pepitas de oro escondidas y mezcladas entre montones de tierra y piedras es difícil. El valor (oro) en Big Data consiste en analizar los datos para encontrar relaciones y patrones ocultos, y nueva información entre los datos en brutos, erróneos y con cierto ruido (la tierra y las piedras).

Aquí está el verdadero potencial. Y aquí está también donde quedan muchas cosas por hacer. Los medios de comunicación a menudo exageran el potencial de lo que realmente es posible aquí y ahora, y hablan en términos de inferencia, predicción, minería de datos y causalidad. Estas técnicas  intentan generalizar (o inferir) lo que ocurre en grupo pequeño a una escala mayor. O describir o extraer información nueva y patrones desconocidos en conjuntos de datos pasados. O bien identificar que variables causan un cambio en otra variable independiente. O incluso para la predicción de resultados precisos. 

¿Las unidades de información y bibliotecas necesitan la dimensión Valor de Big Data? Creo que sí.  Cualquier institución o organización que tenga entre sus funciones primaras la recolección, almacenamiento y gestión de los datos es potencialmente susceptible de usarlos adecuadamente para extraer valor añadido. 

¿Las unidades de información y bibliotecas perciben la necesidad de la dimensión Valor de Big Data? La respuesta ya no parece tan clara como en la anterior cuestión. Hay mucho bombo publicitario que todavía impide entrever los casos pragmáticos, reales y de éxito que permitan evaluar los beneficios y las dificultades del Valor en Big Data 

¿Las unidades de información y bibliotecas están preparadas para sacar partido de la dimensión de Valor del Big Data? Aquí mi predicción es que no. Aunque los medios técnicos y la tecnología requerida (p.e. Hadoop) para abordar un proyecto de Big Data para extraer valor son importantes, el verdadero escollo es reconocer que un proyecto de esta índole requiere de un equipo multi-disciplinar, que agrupe informáticos, estadísticos, documentalistas, gestores de información, analistas de datos y otros perfiles que indiscutiblemente deberían formar parte de un proyecto tan creativo y a la tan vez complejo. Como también sucede con la Veracidad y la Validez de los datos, el factor humano se hace cada vez más necesario a medida que nos movemos desde los datos en brutos hacia la generación de información. 

¿Las unidades de información y bibliotecas perciben la necesidad de prepararse para sacar partido de la dimensión de Valor del Big Data? No parece que hayan agradables sorpresas y la tónica general es que no. Pero ahora mismo estamos trabajando en un pequeño proyecto para intentar dar una respuesta lo más objetiva posible a esta pregunta en el contexto español. Muy pronto resultados.