Big Data: qué es y para qué sirve (con ejemplos)

Curso de AWS Redshift para Manejo de Big Data

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Big Data hace referencia al análisis, procesamiento y almacenamiento de grandes y variadas cantidades de datos, que permiten mejorar el valor de tu negocio y tomar mejores decisiones.

En este post aprenderás qué es realmente el Big Data, para qué sirve y sus increíbles aplicaciones tanto en la vida real como en los negocios. También verás cómo funciona, cómo se obtienen los datos, las tecnologías que se usan en el entorno laboral y cómo puedes aprenderlas y ser parte de esto. ¡Empecemos!

¿Qué es Big Data?

Big data es un concepto que se refiere a grandes volúmenes de datos que son muy variados y veloces, al punto de que resulta muy complicado capturarlos y procesarlos con métodos tradicionales. En muchos lugares se refieren a que para que se considere Big Data, los datos deben cumplir con las 5V:

5V del Big Data Definición
Volumen El almacenamiento de la masiva cantidad de datos que pueden ser recolectados de múltiples fuentes como páginas web, social media, IoT, etc.
Velocidad Los datos se generan en tiempo real gracias a las interacciones con las fuentes mencionadas, por lo que deben ser procesados con la misma velocidad.
Variedad Todo tipo de datos, ya sea estructurados o no estructurados. Podrían ser tablas, texto, imágenes, videos, audio, bases de datos, etc.
Veracidad Es la calidad y confiabilidad de los datos. Al llegar de diversas fuentes, se vuelve complejo realizar su limpieza para evitar usar valores incorrectos.
Valor Los datos deben poder proporcionar un valor o beneficio a la empresa que los está usando.

Así que cuando hay una gran cantidad de datos, estructurados o no estructurados, que están llegando muy rápido, en tiempo real y son muy variados, es imposible analizar toda la información en una sola máquina, por lo que la información se debe partir en pequeñas partes entre varias máquinas. Esto se logra con tecnologías como Hadoop o Spark.

¿A partir de qué tamaño se considera que se está trabajando con Big Data? Esto no está definido, algunas personas del sector mencionan que puede variar entre los 30 Terabytes hasta varios Petabytes. Pero por ahora quédate con el concepto anterior.

Muchas personas y empresas usan este término gracias a que se hizo popular por el marketing. Sin embargo, esto no será necesario para la mayoría de casos de uso, por lo que no se usa Big Data realmente. Es posible hacer analytics o data science sin hacer uso de Big Data, de hecho, es lo más común.

Aún así, si una empresa logra conseguir la suficiente cantidad de datos, puede lograr cosas tan asombrosas (y escalofriantes) como la publicidad en las redes sociales, tanto así que incluso muchas personas creen que los espían por sus micrófonos por lo acertados que son los anuncios que les llegan. Pero todo esto es posible gracias a Big Data.

¿Cómo funciona Big Data?

Si se tiene tanta información que no se puede procesar en una única computadora o servidor, lo que se hace en dividir la información en varios chunks (pedazos más pequeños de información) y enviarlos a muchas máquinas (nodos) más pequeñas.

De esta manera cada nodo queda encargado de resolver solo su parte correspondiente y luego se vuelve a unir la información de todos los nodos y se lanza un solo output (resultado) unificado. Todos estos nodos que están conectados y trabajando de forma paralela son conocidos como un cluster de big data.

¿Para qué sirve Big Data?

Big Data es extremadamente útil, tanto para las empresas como para mejorar la calidad de vida de las personas. De hecho puede dar respuestas a preguntas que ni siquiera se sabía que se tenían. Ayuda a comprender los problemas, darles solución e incluso predecir qué es lo que podría pasar a futuro en varios escenarios alternativos.

La importancia no está en la cantidad de datos, sino en lo que se puede hacer con ellos. Al fusionar Big Data con Data Science se puede llegar a hacer análisis predictivos (así es, se puede predecir el futuro, o al menos su probabilidad), gracias a los patrones de los datos.

Así que todo esto se resume en una serie de beneficios como reducir costos de manera considerable, tomar mejores decisiones basados en datos en tiempo real, aumentar las ganancias, reducir tiempos, dar servicios personalizados, encontrar áreas de oportunidad (por ejemplo nuevos productos o servicios) y un largo etcétera.

Ejemplos de uso de Big Data

Existe una infinidad de campos de aplicación de Big Data. Si bien lo más común es aplicarlo para beneficios de una empresa, también tiene varias aplicaciones en el mundo real con cosas asombrosas como bajar la criminalidad de una ciudad. Por ahora veamos cómo tu empresa se puede beneficiar del uso de Big Data:

  • Empecemos con la magia. En el mundo digital se puede registrar y procesar toda la información en tiempo real. Así que a partir de la información de los usuarios, se puede mostrar ofertas personalizadas para grupos de usuarios con comportamientos comunes. De ahí que aparezcan cosas como esta. Mismo partido, diferente publicidad:

    Publicidad diferente según el grupo de usuarios para un mismo partido
  • Analíticas de comportamiento de usuarios para crear/mejorar/modificar las funcionalidades de una plataforma acorde a lo que haga el usuario (si has trabajado con Facebook Ads, eres testigo de cómo Facebook hace miles de cambios a cada rato en sus plataformas que varían incluso de país a país).

  • Una aplicación muy interesante es para evitar el fraude en cosas como suplantación de identidad o la clonación de tarjetas. Por ejemplo Riskified es una empresa que se encarga de prevenir el fraude en varios e-commerce muy grandes.

  • Un campo bastante estudiado es la minería de texto para el procesamiento de lenguaje natural (NLP). Y a partir de ahí hay una infinidad de aplicaciones como por ejemplo el análisis de sentimientos en marketing o la clasificación automática de problemas en el departamento de soporte al cliente, y que cada queja llegue al sub-equipo correspondiente.

  • Calcular el potencial comercial de distintas zonas geográficas para abrir nuevas tiendas sucursales sin afectar las ventas de las otras. También funciona para lo contrario y saber cuándo se debe cerrar una tienda. La mayoría de cadenas multinacionales escogen su ubicación de esta manera.

  • En la banca se hace muchos análisis de riesgo para saber qué clientes se puede admitir o rechazar, qué créditos se puede aprobar o no, e incluso el análisis de la cartera de los clientes para constantemente estar analizando lo mencionado en caso de que algo cambie en su historial crediticio.

  • En un call center podría ayudar a saber a qué clientes llamar, en qué horarios y qué tipo de promociones hacerles.

  • Con Big Data se puede fácilmente hacer una segmentación de cliente muy precisa para luego calcular su LTV, enviarle campañas personalizadas, fidelizarlo y evitar que abandone la empresa.

  • También es posible identificar problemas antes de que sucedan y tomar acciones para que tengan una solución antes de que siquiera existan.

Casos de aplicación de Big Data en mundo real

Eventualmente tendremos ciudades inteligentes, podremos predecir muchos desastres naturales y estar preparados antes de que ocurran, tendremos una mejor optimización del tráfico e incluso será posible prevenir enfermedades ligadas a nuestros genes en específico. Estos son algunos ejemplos de los casos de uso actuales de Big Data para mejorar la calidad de vida de las personas:

  • IBM tomó toda la información de los crímenes en Chicago y la procesó para hacer análisis predictivos. Con ello se consiguió detectar dónde iban a ocurrir los crímenes antes de que sucedan de una manera muy detallada. Así que es muy posible disminuir la criminalidad de una ciudad en un 30% gracias al uso de Big Data. Esta es una dramatización que presentó IBM:

  • En el campo de la salud hay múltiples usos que ayudarán a toda la humanidad. Por poner algunos ejemplos, es posible codificar el material genético para conocer los alimentos más adecuados para un individuo y cómo prevenir enfermedades crónicas. Se puede monitorear a bebés prematuros para predecir sus enfermedades antes de que aparezcan los primeros síntomas. Incluso se puede predecir y controlar la evolución de las epidemias.
  • Big Data está muy presente en el desarrollo científico, por ejemplo, en el Colisionador de Hadrones (LHC) del CERN se pueden llegar a producir 600 millones de colisiones por segundo, a punto de que sus 65.000 procesadores para analizar 30 Petabytes de datos, no son suficientes.
  • Varias empresas de logística han empezado a usar Big Data para optimizar sus rutas de entrega, de tal modo que los tiempos de entrega son muchos menores al igual que el combustible necesario.

Ahora que conoces todo lo que podrías hacer con Big Data, es hora de conocer de dónde llegan los datos y qué debes aprender para empezar trabajar con Big Data.

¿Cómo se obtienen los datos?

Los datos se generan de casi todas partes. Especialmente si se está en internet, en donde es posible capturar cada clic dado (y cada clic no dado), así como todos los textos generados. De ahí que haya información estructurada y no estructurada.

Por otro lado, IoT (Internet of Things) es una gran fuente de obtención de datos. Últimamente casi todos los productos de uso diario, como autos, relojes, refrigeradoras, asistentes de voz, cámaras, etc., se pueden conectar a internet. Así que se puede generar datos de cada persona en tiempo real.

Por ejemplo, Nike tiene una línea de productos que monitorean los datos que se generan al hacer ejercicio. Apple hace algo muy parecido con el Apple Watch.

Tecnologías aplicadas para hacer Big Data

Hay varias tecnologías que han sido creadas para realizar el procesamiento de toda esta información aplicando los conceptos vistos anteriormente. Los 2 grandes frameworks de Big Data que fueron creados para dar solución al problema son Hadoop y Spark. En un principio Spark solucionó varios problemas que tenía Hadoop (por ejemplo cargar los datos en memoria en vez del disco), pero eventualmente Hadoop creó un ecosistema para solventar todo con el apoyo de otras tecnologías:

  • Bases de datos NoSQL: para acceso rápido a datos puntuales.
  • Hive: para data warehouse y análisis SQL.
  • Flume y Sqoop: para la ingesta de datos.
  • Storm: para análisis en tiempo real.

¿Puedo aprender todo esto en Platzi?

¡Por supuesto que sí! Acá te dejo la lista de cursos para que te conviertas un experto o experta en Big Data, e incluso puedes encontrar rutas de cursos para especializarte en Data Analytics:

Pero recuerda, Big Data funciona cuando hay una mezcla de tecnologías como Ciencia de Datos, Cloud, IoT, etc. Es todo un mundo apasionante que dictará cómo estará construido el futuro. Y la mejor parte de esto es que estás justo a tiempo para aprenderlo y ser parte de la construcción de este futuro. Puedes empezar ya mismo con la Escuela de Data Science de Platzi. ¡Nunca pares de Aprender! 💚

Curso de AWS Redshift para Manejo de Big Data

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

0 Comentarios

para escribir tu comentario

Artículos relacionados