Desde hace algunos años hemos escuchado hablar del Big Data cada vez con mas frecuencia. Pero, ¿qué es el Big Data?

Definición

Big Data es un conjunto de datos de gran volumen que contiene una gran variedad de información y que además provienen a gran velocidad. Estas características hacen que el procesamiento tradicional de los datos sea insuficiente para poder administrarlos correctamente.

Si hablamos de Big Data, debemos hablar de 5 características fundamentales en los datos: volumen, velocidad, variedad, valor y veracidad, mejor conocidas como las “cinco V” del Big Data.

Las cinco V

Hablar de volumen de datos, nos obliga a observar la historia y darle un contexto a este concepto. Pues mientras que en 1991 los discos duros tenían una capacidad de 2.5 GB, un volumen de 1 Terabyte ya representaba Big Data. Sin embargo estas capacidades de almacenamiento han ido evolucionando a lo largo de la historia y actualmente es muy común encontrar computadoras personales con discos duros de una capacidad de 1 Terabyte (10E12), por lo que el volumen del Big Data actualmente, nos habla de capacidades de procesamiento de hasta 1 Petabytes (10E15).

Esta gran cantidad de datos nos hace preguntarnos: ¿de dónde se obtienen tantos datos? La respuesta no es tan difícil si ponemos atención a un día común en nuestra vida. El uso de redes sociales como Facebook, YouTube, Twitter, entre otros, nos da una idea de la gran cantidad de información que usamos a diario. Ahora solo nos resta multiplicar esa información por el número de usuarios que tienen estas redes sociales. El resultado es realmente grande. Esto nos lleva a la segunda característica del Big Data, la velocidad, esto es, el tiempo en se generan estos datos y la rapidez a la que los procesamos. La mayoría de las veces es casi en tiempo real.

Siguiendo este ejemplo de las redes sociales podemos entender la tercera característica, la variedad en los datos. Esto es, el tipo de datos que tenemos proviene de diferentes fuentes, tenemos imágenes, textos, audio, vídeo, etc. Estas nuevas formas de datos requieren no solo un procesamiento de datos estructurados como convencionalmente se ha venido haciendo, sino también incluyen la necesidad de añadir datos no estructurados y semiestructurados, como el caso del vídeo, que requiere un procesamiento adicional para obtener la metadata y así darle un significado a esta información para que tenga un sentido real hacia nosotros.

 En este punto, es donde el valor obtiene un significado importante, pues a pesar de tener miles de millones de datos, es muy probable que no todos tengan un verdadero valor para nosotros. Es decir, no todos los datos nos serán de utilidad para nuestro propósito. Tener datos depurados y útiles para su análisis, le puede costar a un ingeniero de datos entre el 50% y 80% de su tiempo. Este es un gran reto que tiene el Big Data en los siguientes años. Mejorar las técnicas de análisis de datos para obtener datos con valor real.

Ya solo nos queda hablar de la ultima V, la veracidad. Después de entender el cómo llegamos a obtener, depurar y procesar una gran cantidad de volumen a gran velocidad, queda la pregunta, ¿qué tan confiables son estos datos?. Ya que, al tener una gran cantidad de datos, no se puede asegurar la calidad de estos y así garantizar la confiabilidad de los mismos. Sin embargo, distintos algoritmos de análisis nos pueden arrojar patrones y estadísticas que nos indiquen que tanta veracidad hay en nuestros datos.

Aplicaciones y Ventajas

Las aplicaciones del Big Data son innumerables, se usa en el sector financiero, de marketing, publicidad, deportes, áreas de gobierno y muchas otras industrias donde el objetivo siempre es tener un análisis del mercado que lleve a una mejor toma de decisiones en las diferentes áreas de aplicación.

Como vemos las grandes ventajas del Big Data y de su análisis reside en disponer de mayor cantidad de información para tener una mayor fiabilidad en los datos a la hora de la toma de decisiones. Y aunque aun tiene muchas áreas de mejora, como el almacenamiento de los datos y la velocidad en el procesamiento de los mismos, es un área nueva que esta en pleno desarrollo y seguirá creciendo al ritmo al que las nuevas tecnologías se lo permitan.

 

 

Referencias:
https://www.oracle.com/mx/big-data/guide/what-is-big-data.html
https://web.archive.org/web/20180731105912/https://spotlessdata.com/blog/big-datas-fourth-v
https://www.eweek.com/database/survey-biggest-databases-approach-30-terabytes
http://isanidad.com/113216/el-big-data-permitira-adelantarse-a-las-necesidades-del-paciente-y-mejorara-la-labor-asistencial/
https://www.sas.com/en_us/insights/articles/big-data/big-data-privacy.html