In the next five years, we’ll generate more data as humankind than we generated in the previous 5.000 years. – Eron Kelly, General Manager of Product Marketing for Microsoft SQL Server.

Big Data” es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del “Big Data” se encuentran constantemente en movimiento creciente, de esta forma en 2012 se encontraba dimensionado en un tamaño de una docena de terabytes hasta varios petabytes de datos en un único data set. Aunque ya veremos más adelante que esto depende en gran medida de factores como la escala y la magnitud en la que medimos.

En el sector de tecnologías de la información y la comunicación, “Big Data” es una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenado, búsqueda, compartición, análisis, y visualización.

El Data Minining (Minería de Datos) y más concretamente el ‘Social Data Mining’ o el Datawarehouse (Almacén de Datos) están muy presentes en el origen de la extracción y manejo de datos. Pero en Big Data el volumen de datos manejado es mucho mayor y la gestión de ese volumen se convierte en una tarea complicada que se marca como todo un reto de futuro.

Personalmente creo que ‘Big Data’ puede definirse como un fenómeno social en sí mismo.

1. Las 4 “V” del Big Data

Las 4 “V” cuando hablamos de Big Data se refieren a:

  • ”Volumen” de datos
  • “Velocidad” en el tratamiento de los datos
  • “Variedad” de datos
  • “Valor” de los datos

El ‘universo digital’ se ha duplicado en los últimos años hasta alcanzar los 2,8 ZB, dato que en 2020 será de 40 ZB, una cifra que supera las previsiones que se habían hecho anteriormente en un 14%. Si pudiéramos guardar este volumen de 40 ZB en formato Blue-ray, el peso de estos discos (sin embalaje) sería el mismo que 424 portaaviones. En 2012 se calculó que el 23% del universo digital sería aprovechable para Big Data si fuese clasificado y analizado. Actualmente sólo el 3% de los datos potencialmente útiles está clasificado, y es inferior aún el porcentaje que está siendo analizado.

Pero hay otra palabra clave: Magnitud. En función de la empresa o entidad que tenga que tratar los datos, será Big Data o no. Por ejemplo, para una empresa pequeña, que tan sólo tenga un ordenador, lo que exceda de ese ordenador, será Big Data; mientras que si la información que tiene que tratarse, se hace por una empresa de gran tamaño, tendrá muchos más servidores y equipos donde almacenar y procesar esos datos y, por lo tanto, la idea de Big Data, será diferente respecto de la primera.

Esta infografía nos puede dar algunos datos interesantes sobre la importancia actual del fenómeno Big Data:
Infografía Big Data
Pulsar para ver la Infografía a tamaño completo

2. Gran importancia en sectores estratégicos

Big Data será de gran importancia en sectores estratégicos para la sociedad, como por ejemplo en temas científicos (especialmente en medicina), comunicación y periodismo, administración pública o en el marketing, entre otros muchos. Como ejemplo de su importancia en el terreno del Marketing tenemos alguno de los movimientos de Twitter en este campo, ya que parece que segmentará sus anuncios utilizando técnicas asociadas a Big Data.

Podría ser de gran ayuda en tareas tan variopintas como la lucha contra enfermedades infecciosas o contra el crimen organizado. Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genética, las simulaciones de procesos físicos y las investigaciones relacionadas con los procesos biológicos y ambientales. Estas limitaciones también afectan a los motores de búsqueda en internet, a los sistemas de finanzas y a la informática de negocios. Del manejo que estos sectores estratégicos hagan de esta gran cantidad de datos, dependerán en cierta manera sus resultados obtenidos a corto plazo.

La actividad en la red genera una ingente cantidad de datos e información que la mayoría de las organizaciones no puede ni sabe gestionar, pero que será altamente rentable y competitiva para aquellas que aprendan a hacerlo. Algunos expertos suelen decir que si tu empresa no tiene serios problemas en la gestión de grandes bases de datos, es que está haciendo algo mal.

3. Big Data y Política. La Campaña electoral de Obama

Parece claro la importancia que puede tener y que ya ha tenido Big Data en la política. Me estoy refiriéndo al papel que jugó en la campaña electoral de Barack Obama y en su elección como presidente de los Estados Unidos.

“Vamos a medir cualquier cosa en esta campaña”, le aseguraba a los responsables de la candidatura Jim Messina, responsable de campaña, tras ser fichado, según apunta Time. El equipo de analítica multiplicó su volumen de empleados por cinco frente a los contratados en la campaña anterior (2008) y fichó a un ‘chief scientist’ (a.k.a. jefe científico) para dirigirlo.

Se unieron una gran cantidad de bases de datos, para construir una única ‘megabase de datos’ que sumaba toda la información recopilada por los voluntarios o que se había conseguido mediante el registro en la web de Obama. El análisis de estos datos permitió descubrir que Michelle Obama era un gran reclamo para conseguir financiación. El Big Data también les ayudó con los estados complicados, como Ohio, donde permitió conocer el estado real de la intención de voto y por tanto actuar de forma más realista. También permitió descubrir cosas ‘interesantes’, como por ejemplo, que una cena con George Clooney era uno de los elementos que mejor servían para recaudar fondos entre las mujeres de 40 a 49 años.

De esta manera, el partido Demócrata pudo alcanzar cifras muy elevadas de financiación con técnicas como una campaña de mailing utilizando los datos de esta gran base de datos. Los datos fueron empleados también en la comunicación de campaña, siendo claves en la compra de publicidad o en la elección de soportes para lanzar el mensaje.

4. Herramientas tecnológicas para su explotación

Puede que la tecnología sea sólamente una herramienta, pero probablemente es y será la herramienta que mueve y moverá el mundo.

Herramientas en forma de framework como Hadoop o MapReduce y técnicas para el manejo de datos como NoSQL llevan ya varios años conformándose como clave en el manejo de grandes volúmenes de datos.

Un ejemplo de la importancia y potencia de estos sistemas llegó en 2008 cuando Yahoo! lanzó ‘Search Webmap’, una aplicación basada en Hadoop que se ejecuta en más de 10.000 núcleos Linux en forma de clúster y produce datos que se utilizan actualmente en todos los resultados de búsqueda de Yahoo!. En junio de 2009, Yahoo! hizo disponible el código fuente de la versión de Hadoop que usa en producción.

5. Importancia de la Visualizacion de datos

El 90% de la información que se transmite al cerebro es visual, y se procesa 60.000 veces más rápido que el texto – Fuente: 3M

Si a día de hoy las infografias son una herramienta fundamental para la representación gráfica de datos, el manejo de grandes cantidades de datos, dará paso a nuevas formas de visualizar estos datos, de manera interactiva.

Empresas como la española Vizzuality son conscientes de la importancia de la visualización de datos y apuestan por este campo.

Hablando de visualización de datos, os recomiendo esta charla TED (con subtítulos en castellano) de David McCandless: La belleza de la visualización de datos. McCandless convierte series de datos complejos, como el gasto militar mundial, la cobertura mediática, las actualizaciones en los perfiles de Facebook, entre otros, en diagramas más preciosos y simples. Propone el diseño de información como herramienta para navegar a través de la superabundancia de la información actual, buscando patrones y conexiones únicas que pueden lograr cambiar la forma de ver el mundo.

Será necesario pulir los sistemas de visualización de datos actuales para lograr visualizar de la manera más óptima posible la magnitud de datos que supone Big Data. El tema de la visualización de grandes cantidades de datos podría ser sin duda el protagonista de otro post por sí mismo.

6. Prioritario en la empresa aunque apenas explotado

A pesar de ser una de las principales apuestas estratégicas para las compañías ya que un 81% lo están explorando o planean hacerlo, sólo un 25% de las organizaciones en Europa cuentan ya con un plan de negocios para los grandes volúmenes de datos y están creando valor estratégico a partir de estos datos.

Más de 9 de cada 10 empresas (especialmente las de mayor tamaño), en las que el plan IT está bien alineado con el plan de negocio, ya han explorado las posibilidades de Big Data. Aunque solo el 7% de los encuestados cree que Big Data es ya una prioridad para sus organizaciones, esto cambiará de forma importante, con más de un 62% de los consultados convencidos de que llegará a ser una prioridad en los próximos 3 años.

A las empresas les preocupa la tecnología requerida para desplegar las soluciones Big Data, ya que satisfacer las necesidades de volumen, velocidad y variedad implica alojar dichas soluciones en instalaciones de hardware y software por lo general bastante costosas por el momento.

7. Aumento en la Formación y Eventos al respecto

Una manera de saber cuando un tema empieza a ser importante (ya sea a nivel de hype o de una manera más real) es comprobar el aumento exponencial en el tiempo de la cantidad de formación y eventos relacionados con dicho tema.

A nivel de formación, existen plataformas de e-learning como Coursera que ofrecen MOOC, es decir cursos online abiertos y masivos sobre Big Data. En cuanto a eventos, ya se han celebrado algunos a nivel mundial como la Big Data Week que se celebró a finales de abril en multitud de ciudades de todo el mundo, incluyendo Madrid y Barcelona.

Si te interesa el tema, se puede partir de la lectura de libros como el magnífico Big Data: A Revolution That Will Transform How We Live, Work, and Think.

8. Generación de gran cantidad de informacion en Internet

Para darse cuenta de la cantidad de información que está generando en la red el fenómeno Big Data, sólamente hay que teclear estas dos palabras juntas en Google para ver el resultado:
1.650.000.000 de resultados

Esto demuestra el ruido que hay en la red alrededor de Big Data. Uno de los términos de moda y por el que parece que mucha gente siente gran curiosidad.

9. El término de moda. ¿Es realmente un Hype o Burbuja?

¿Es realmente la última moda? ¿Una burbuja como otra cualquiera? ¿Postureo tecnológico o empresarial? Existen posturas al respecto que afirman esto mismo, es decir, que todo esto no es más que la ‘gran esperanza blanca’ que aflora cada cierto tiempo en la industria, pero que no acabará cuajando. Desde las que afirman que el fenómeno “Big Data” es algo ya muerto o del pasado (sic) hasta las que dicen que no es una prioridad para las empresas, al menos en Europa.

Incluso se plantea que existan ciertas barreras para la comprensión y el éxito de Big Data que probablemente sean difíciles de salvar. Por lo tanto, no son pocas las voces críticas que se alzan cuestionando esta supuesta ‘gallina de los huevos de oro’.

10. Grandes empresas tecnológicas tras su pedazo del pastel

Grandes mastodontes del sector tecnológico como Oracle, IBM o Dell trabajan desde hace tiempo en soluciones que ayuden a explotar las capacidades de Big Data. Primero fue el Grid Computing, luego el Cloud Computing y ahora Big Data. Recientemente IBM dio a conocer su nueva tecnología para acelerar la adopción del Big Data.

Pero si hay un claro ejemplo de una empresa que ya ha utilizado grandes cantidades de datos de manera bastante efectiva en su modelo de negocio, esa es Amazon. Su modelo de datos es bastante sofisticado. Aprovechan como nadie los datos de personalización y recomendación para utilizarlos en las ofertas de descuento, almacenes, y las decisiones de envío. Una de las principales ventajas de Amazon respecto a otras compañías es su agilidad. No me extrañaría que a pesar de no ser una empresa estrictamente ligada a la producción de soluciones tecnológicas (aunque no olvidemos sus soluciones de Cloud Computing), se lanzase en un futuro cercano a aportar soluciones a otras empresas para la explotación del potencial de Big Data (ahí lo dejo…)

11. Apoyo a la toma de decisiones

Como hemos visto anteriormente con la campaña electoral de Obama, el manejo de Big Data se postula como un poderoso aliado para la toma de decisiones.

Herramientas tan potentes como los Sistemas de Información Geográfica (SIG) ya eran buenas soluciones para la ayuda o el apoyo a la toma de decisiones. En la actualidad, la explotación de Big Data junto con su representación de manera gráfica y unido a su uso georeferenciado o espacial, supondrán a mi juicio un paso adelante en las herramientas destinadas a este fin.

En la actualidad, una treintena de hospitales, universidades y empresas británicas trabajan para convertir los teléfonos móviles y las ingentes cantidades de datos generados desde éstos en una poderosa herramienta de apoyo a la toma de decisiones. Usarán los datos generados por las búsquedas y publicaciones de los internautas para la detección de brotes infecciosos y la toma de decisiones para evitar que estos deriven en epidemias.

12. Futuro y Límites

Hablando de futuro, no sé si gracias a Big Data se podrá predecir el tiempo con una previsión de 40 días en el futuro o si conformará el matrimonio perfecto con otras tendencias como las Smart Cities.

Lo que parece claro es que equipos multidisciplinares deberían conformarse para aprovechar el potencial y afrontar los desafíos que presenta el uso de Big Data.

Eso sí, cuando hablamos de límites, en mi opinión podría existir uno muy claro: La Privacidad.

Y cuando hablamos de privacidad, estamos hablando también de seguridad. Existen organismos e instituciones que tienen más o menos controlados sus datos por temas de seguridad, como las Administraciones Públicas o empresas como Google. Pero la mayoría de la información digital no está protegida actualmente y el volumen de datos que requiere ser protegido aumenta a un ritmo vertiginoso. Se estima que el porcentaje de datos que será necesario ‘proteger’ en 2020 alcanzará un 70% del total. ¿Podría suponer la seguridad el verdadero cuello de botella y el verdadero freno para la explotación de Big Data?

Además, ya sabemos que la tecnología evoluciona a un ritmo frenético y habrá que ver si las leyes evolucionan de forma paralela.



Esto no ha pretendido ser más que una pequeña muestra de algunos factores por los que Big Data se ha convertido en los últimos tiempos en un fenómeno o una tendencia. Una recopilación de algunos datos dentro del maremágnum que podemos encontrar al respecto en la red.

Probablemente (lo pienso y lo deseo) Big data tenga el potencial de cambiar la forma en que gobiernos y organizaciones se relacionen con los individuos y entre ellos. De cómo se aproveche ese potencial dependerán los objetivos que se puedan conseguir al respecto en un futuro cercano. Esperemos que este ‘fenómeno’ no se quede en ‘agua de borrajas’.



Imagen destacada cortesía de tedeytan bajo licencia Creative Commons.



Unadocenade también está en Google Currents. Suscríbete.
Los post de Unadocenade se pueden republicar siempre que respetes nuestras condiciones de republicación.

Sobre Óscar Ray


Óscar Ray es consultor tecnológico especializado en integración de sistemas de información y desarrollo de software. Ha formado parte de equipos internacionales en proyectos para Deutsche Bank en Frankfurt, EADS en Madrid, BBVA en Bilbao, el Departamento de Tecnologías de la Información del Ayuntamiento de Vitoria-Gasteiz, EJIE (Sociedad Informática del Gobierno Vasco) u Osakidetza. Organizador y fundador de TEDx AlmendraMedieval, el primer evento con licencia oficial TEDx que se celebra en Vitoria-Gasteiz. Organiza e-Innobar, un evento socio-tecnológico mensual sobre innovación, TICs, redes sociales e internet. Colabora con Cadena SER en el programa 'Hoy por Hoy' en una sección sobre nuevas tecnologías. Apasionado por la I+D+i y su aplicación a las Tecnologías de la Información, aplica su formación científica y experiencia en el sector tecnológico en su faceta dedicada a la divulgación y comunicación en materia de innovación.