Se habla constantemente sobre Big Data. Aquí algunas medias verdades sobre lo que se dice sobre ésta tecnología.

1. Big Data es una nueva tecnología.

Big Data como término, si  es nuevo; sin embargo, las herramientas de computación distribuida, técnicas de análisis y visualización de datos no son necesariamente nuevas.

  • La computación distribuida es una técnica que consiste en en tener un grupo de computadoras conectadas tal que en su conjunto pueden realizar tareas con mayor rapidez y de forma eficiente. Estas técnicas tienen más de 40 años de historia y de hecho Internet es el proyecto de computación distribuida más relevante.
  • Se aplica herramientas de extracción de datos que desde hace mucho tiempo ya se venían utilizando. Tanto, empresas dedicadas a la analítica como empresas relacionadas a BI.  SAS, IBM, Microsoft, Oracle, Teradata y luego Hadoop desde finales del siglo pasado.
  • Se requiere explorar, resumir y visualizar grandes cantidades de datos, para lo cual ya existían herramientas en el mercado.
  • Predecir sobre grandes volúmenes de información, para eso se requiere de técnicas estadísticas, herramientas de Data Mining o Machine Learning que tienen sus inicios en el siglo pasado.

2. Big Data es solo para grandes organizaciones.

Big Data tiene está siendo utilizado ahora mismo por grandes y no tan grandes organizaciones. Los gigantes de la Internet como Google, Facebook, Amazon, emplean tecnología de Big Data para mejorar todos los días la experiencia de sus usuarios. Por otro lado surgen pequeñas empresas ligadas a internet, las famosas startups, que también trabajan con Big Data por la gran cantidad de datos que llegan a procesar. Ejemplos de organización no tan grandes que producen inmanejables cantidades de datos: Waze, Netflix, Papaya, Mi Media Manzana, Hootsuite, etc.

3. Big Data es recopilar y analizar datos de Redes Sociales.

Es común que algunas empresas dedicadas a la venta de software y consultoría mencionen la idea que mediante las tecnologías de Big Data se integre información de Redes Sociales como Facebook o Twitter al conjunto de datos que se tiene internamente en cada organización. Lo cierto es que la analítica de redes sociales funciona muy bien en su propio ecosistema, es decir analizar por ejemplo los comentarios de Twitter son bastante interesantes cuando se refieren a una marca; pero el reto que no se ha cumplido es enlazar este mundo con los clientes de cada organización.

Las empresas de venta de software de analítica sobrevendieron la idea de enlazar la data de redes sociales con la data interna de cada compañía. Sin embargo, hasta ahora es bastante complicado el enlace entre estos dos mundos. No existen en el mundo muchos casos documentados sobre esta sincronización; ni tampoco aplicaciones que la garanticen.

4. Big Data es Hadoop

Hay muchas tecnologías alrededor de Big Data. Hay que entender que para sacar provecho del volumen de datos lo más importante no es almacenar y recuperar data sino es obtener conocimiento accionable a partir de estos grandes volúmenes de datos; para esto Hadoop no es suficiente. Es imprescindible aplicar técnicas de Resumen, estadística, visualización, machine Learning, Data Mining, etc.

Ecosistema Big Data:

Fuente: http://bigdata4success.com/blog/cuadrante-magico-del-ecosistema-big-data/

5. Abundante data es mucho mejor.

Si es que no se tiene un propósito claro sobre la información que se recoge o analiza, es inútil trabajar  con gran cantidad de datos.

Muchas organizaciones de todo el mundo están teniendo problemas al formular proyectos de Big Data. Lo sensato parece ser regresar a formular proyectos Small Data para obtener resultados cuantificables.

Este problema se da por la poca claridad de los objetivos al momento de formular un proyecto de analitica. No es suficiente la abundante recopilación de datos si no se sabe en qué modo se van a emplearlos y más aún cual será el retorno en valor que originara esta nueva información.

Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...”
Dan Ariely – Duke University