Platzi
Platzi

Suscríbete a Expert y aprende de tecnología al mejor precio anual.

Antes:$249
$209
Currency
Antes:$249
Ahorras:$40
COMIENZA AHORA
80

Big Data: qué es y para qué sirve (con ejemplos)

48100Puntos

hace 2 meses

Curso de AWS Redshift para Manejo de Big Data
Curso de AWS Redshift para Manejo de Big Data

Curso de AWS Redshift para Manejo de Big Data

AWS Redshift es un data warehouse en la nube, completamente administrado, que te permite analizar petabytes de datos a través de SQL. Esta base de datos te permite comenzar con tan solo unos gigabytes y escalar facilmente hasta donde tu proyecto lo necesite. Esto te da la habilidad de obtener podersosos insights para tu negocio y clientes. En este curso aprenderás a diseñar y construir una arquitectura para Redshift. Crearás clusters, diseñarás tablas, cargarás datos y ejecutarás consultas. El profesor Carlos Alarcón te enseñará a sacarle todo el provecho a tus datos usando Redshift.

Big Data hace referencia al análisis, procesamiento y almacenamiento de grandes y variadas cantidades de datos, que permiten mejorar el valor de tu negocio y tomar mejores decisiones.

En este post aprenderás qué es realmente el Big Data, para qué sirve y sus increíbles aplicaciones tanto en la vida real como en los negocios. También verás cómo funciona, cómo se obtienen los datos, las tecnologías que se usan en el entorno laboral y cómo puedes aprenderlas y ser parte de esto. ¡Empecemos!

¿Qué es Big Data?

Big data es un concepto que se refiere a grandes volúmenes de datos que son muy variados y veloces, al punto de que resulta muy complicado capturarlos y procesarlos con métodos tradicionales. En muchos lugares se refieren a que para que se considere Big Data, los datos deben cumplir con las 5V:

5V del Big DataDefinición
VolumenEl almacenamiento de la masiva cantidad de datos que pueden ser recolectados de múltiples fuentes como páginas web, social media, IoT, etc.
VelocidadLos datos se generan en tiempo real gracias a las interacciones con las fuentes mencionadas, por lo que deben ser procesados con la misma velocidad.
VariedadTodo tipo de datos, ya sea estructurados o no estructurados. Podrían ser tablas, texto, imágenes, videos, audio, bases de datos, etc.
VeracidadEs la calidad y confiabilidad de los datos. Al llegar de diversas fuentes, se vuelve complejo realizar su limpieza para evitar usar valores incorrectos.
ValorLos datos deben poder proporcionar un valor o beneficio a la empresa que los está usando.

Así que cuando hay una gran cantidad de datos, estructurados o no estructurados, que están llegando muy rápido, en tiempo real y son muy variados, es imposible analizar toda la informaciónen una sola máquina, por lo que la información se debe partir en pequeñas partes entre varias máquinas. Esto se logra con tecnologías como Hadoop o Spark.

¿A partir de qué tamaño se considera que se está trabajando con Big Data? Esto no está definido, algunas personas del sector mencionan que puede variar entre los 30 Terabytes hasta varios Petabytes. Pero por ahora quédate con el concepto anterior.

Muchas personas y empresas usan este término gracias a que se hizo popular por el marketing. Sin embargo, esto no será necesario para la mayoría de casos de uso, por lo que no se usa Big Data realmente. Es posible hacer analytics o data science sin hacer uso de Big Data, de hecho, es lo más común.

Aún así, si una empresa logra conseguir la suficiente cantidad de datos, puede lograr cosas tan asombrosas (y escalofriantes) como la publicidad en las redes sociales, tanto así que incluso muchas personas creen que los espían por sus micrófonos por lo acertados que son los anuncios que les llegan. Pero todo esto es posible gracias a Big Data.

¿Cómo funciona Big Data?

Si se tiene tanta información que no se puede procesar en una única computadora o servidor, lo que se hace en dividir la información en varios chunks (pedazos más pequeños de información) y enviarlos a muchas máquinas (nodos) más pequeñas.

De esta manera cada nodo queda encargado de resolver solo su parte correspondiente y luego se vuelve a unir la información de todos los nodos y se lanza un solo output (resultado) unificado. Todos estos nodos que están conectados y trabajando de forma paralela son conocidos como un cluster de big data.

¿Para qué sirve Big Data?

Big Data es extremadamente útil, tanto para las empresas como para mejorar la calidad de vida de las personas. De hecho puede dar respuestas a preguntas que ni siquiera se sabía que se tenían. Ayuda a comprender los problemas, darles solución e incluso predecir qué es lo que podría pasar a futuro en varios escenarios alternativos.

La importancia no está en la cantidad de datos, sino en lo que se puede hacer con ellos. Al fusionar Big Data con Data Science se puede llegar a hacer análisis predictivos (así es, se puede predecir el futuro, o al menos su probabilidad), gracias a los patrones de los datos.

Así que todo esto se resume en una serie de beneficios como reducir costos de manera considerable, tomar mejores decisiones basados en datos en tiempo real, aumentar las ganancias, reducir tiempos, dar servicios personalizados, encontrar áreas de oportunidad (por ejemplo nuevos productos o servicios) y un largo etcétera.

Ejemplos de uso de Big Data

Existe una infinidad de campos de aplicación de Big Data. Si bien lo más común es aplicarlo para beneficios de una empresa, también tiene varias aplicaciones en el mundo real con cosas asombrosas como bajar la criminalidad de una ciudad. Por ahora veamos cómo tu empresa se puede beneficiar del uso de Big Data:

  • Empecemos con la magia. En el mundo digital se puede registrar y procesar toda la información en tiempo real. Así que a partir de la información de los usuarios, se puede mostrar ofertas personalizadas para grupos de usuarios con comportamientos comunes. De ahí que aparezcan cosas como esta. Mismo partido, diferente publicidad:

    Publicidad diferente según el grupo de usuarios para un mismo partido
  • Analíticas de comportamiento de usuarios para crear/mejorar/modificar las funcionalidades de una plataforma acorde a lo que haga el usuario (si has trabajado con Facebook Ads, eres testigo de cómo Facebook hace miles de cambios a cada rato en sus plataformas que varían incluso de país a país).

  • Una aplicación muy interesante es para evitar el fraude en cosas como suplantación de identidad o la clonación de tarjetas. Por ejemplo Riskified es una empresa que se encarga de prevenir el fraude en varios e-commerce muy grandes.

  • Un campo bastante estudiado es la minería de texto para el procesamiento de lenguaje natural (NLP). Y a partir de ahí hay una infinidad de aplicaciones como por ejemplo el análisis de sentimientos en marketing o la clasificación automática de problemas en el departamento de soporte al cliente, y que cada queja llegue al sub-equipo correspondiente.

  • Calcular el potencial comercial de distintas zonas geográficas para abrir nuevas tiendas sucursales sin afectar las ventas de las otras. También funciona para lo contrario y saber cuándo se debe cerrar una tienda. La mayoría de cadenas multinacionales escogen su ubicación de esta manera.

  • En la banca se hace muchos análisis de riesgo para saber qué clientes se puede admitir o rechazar, qué créditos se puede aprobar o no, e incluso el análisis de la cartera de los clientes para constantemente estar analizando lo mencionado en caso de que algo cambie en su historial crediticio.

  • En un call center podría ayudar a saber a qué clientes llamar, en qué horarios y qué tipo de promociones hacerles.

  • Con Big Data se puede fácilmente hacer una segmentación de cliente muy precisa para luego calcular su LTV, enviarle campañas personalizadas, fidelizarlo y evitar que abandone la empresa.

  • También es posible identificar problemas antes de que sucedan y tomar acciones para que tengan una solución antes de que siquiera existan.

Casos de aplicación de Big Data en mundo real

Eventualmente tendremos ciudades inteligentes, podremos predecir muchos desastres naturales y estar preparados antes de que ocurran, tendremos una mejor optimización del tráfico e incluso será posible prevenir enfermedades ligadas a nuestros genes en específico. Estos son algunos ejemplos de los casos de uso actuales de Big Data para mejorar la calidad de vida de las personas:

  • IBM tomó toda la información de los crímenes en Chicago y la procesó para hacer análisis predictivos. Con ello se consiguió detectar dónde iban a ocurrir los crímenes antes de que sucedan de una manera muy detallada. Así que es muy posible disminuir la criminalidad de una ciudad en un 30% gracias al uso de Big Data. Esta es una dramatización que presentó IBM:

  • En el campo de la salud hay múltiples usos que ayudarán a toda la humanidad. Por poner algunos ejemplos, es posible codificar el material genético para conocer los alimentos más adecuados para un individuo y cómo prevenir enfermedades crónicas. Se puede monitorear a bebés prematuros para predecir sus enfermedades antes de que aparezcan los primeros síntomas. Incluso se puede predecir y controlar la evolución de las epidemias.
  • Big Data está muy presente en el desarrollo científico, por ejemplo, en el Colisionador de Hadrones (LHC) del CERN se pueden llegar a producir 600 millones de colisiones por segundo, a punto de que sus 65.000 procesadores para analizar 30 Petabytes de datos, no son suficientes.
  • Varias empresas de logística han empezado a usar Big Data para optimizar sus rutas de entrega, de tal modo que los tiempos de entrega son muchos menores al igual que el combustible necesario.

Ahora que conoces todo lo que podrías hacer con Big Data, es hora de conocer de dónde llegan los datos y qué debes aprender para empezar trabajar con Big Data.

¿Cómo se obtienen los datos?

Los datos se generan de casi todas partes. Especialmente si se está en internet, en donde es posible capturar cada clic dado (y cada clic no dado), así como todos los textos generados. De ahí que haya información estructurada y no estructurada.

Por otro lado, IoT (Internet of Things) es una gran fuente de obtención de datos. Últimamente casi todos los productos de uso diario, como autos, relojes, refrigeradoras, asistentes de voz, cámaras, etc., se pueden conectar a internet. Así que se puede generar datos de cada persona en tiempo real.

Por ejemplo, Nike tiene una línea de productos que monitorean los datos que se generan al hacer ejercicio. Apple hace algo muy parecido con el Apple Watch.

Tecnologías aplicadas para hacer Big Data

Hay varias tecnologías que han sido creadas para realizar el procesamiento de toda esta información aplicando los conceptos vistos anteriormente. Los 2 grandes frameworks de Big Data que fueron creados para dar solución al problema son Hadoop y Spark. En un principio Spark solucionó varios problemas que tenía Hadoop (por ejemplo cargar los datos en memoria en vez del disco), pero eventualmente Hadoop creó un ecosistema para solventar todo con el apoyo de otras tecnologías:

  • Bases de datos NoSQL: para acceso rápido a datos puntuales.
  • Hive: para data warehouse y análisis SQL.
  • Flume y Sqoop: para la ingesta de datos.
  • Storm: para análisis en tiempo real.

¿Puedo aprender todo esto en Platzi?

¡Por supuesto que sí! Acá te dejo la lista de cursos para que te conviertas un experto o experta en Big Data:

Pero recuerda, Big Data funciona cuando hay una mezcla de tecnologías como Ciencia de Datos, Cloud, IoT, etc. Es todo un mundo apasionante que dictará cómo estará construido el futuro. Y la mejor parte de esto es que estás justo a tiempo para aprenderlo y ser parte de la construcción de este futuro. Puedes empezar ya mismo con la Escuela de Data Science de Platzi. ¡Nunca pares de Aprender! 💚

Curso de AWS Redshift para Manejo de Big Data
Curso de AWS Redshift para Manejo de Big Data

Curso de AWS Redshift para Manejo de Big Data

AWS Redshift es un data warehouse en la nube, completamente administrado, que te permite analizar petabytes de datos a través de SQL. Esta base de datos te permite comenzar con tan solo unos gigabytes y escalar facilmente hasta donde tu proyecto lo necesite. Esto te da la habilidad de obtener podersosos insights para tu negocio y clientes. En este curso aprenderás a diseñar y construir una arquitectura para Redshift. Crearás clusters, diseñarás tablas, cargarás datos y ejecutarás consultas. El profesor Carlos Alarcón te enseñará a sacarle todo el provecho a tus datos usando Redshift.
Anthony Ismael
Anthony Ismael
anthony_manotoa

48100Puntos

hace 2 meses

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
6
9153Puntos

Wow, realmente es un mundo en el que podemos ver involucradas muchísimas ramas, prácticamente toda nuestra vida se moverá en torno a esta ciencia en poco tiempo (y ya empieza a suceder).

4
11288Puntos

Que buen post, completo e interesante

3
170108Puntos

Excelente artículo profesor. Gracias por compartir

3
5759Puntos

Great! Ingresé a la escuela de Data Sciense hace varias semanas y ya voy por el cuarto curso de esta. Ah por todo, y sobre todo nunca parando de aprender!

3

Excelente! ya estaba estudiando ciencia de datos, pero realmente cuanto mas aprendo mas quiero sumergirme en este mundo… de chico queria ser fisico, y ahora estoy convencido de que la ciencia es lo mio, pero va a ser la ciencia de los datos

1
48100Puntos
2 meses

Hola 😃

Me pasó algo muy parecido a ti. Quería estudiar física, pero como no había en mi ciudad, seguí una ingeniería. Pero a partir de que descubrí la ciencia de datos, me he adentrado mucho en esta rama 💚

2
701Puntos

Genial este articulo sobre Big Data

1
3956Puntos

Esto es super interesante, el caso de la diferente publicidad en el mismo sitio me volo la cabeza, yo estudie marketing digital y se correlaciona de una manera increible a esto

2
48100Puntos
2 meses

Hola 😄

Especialmente en marketing se aplica de muchísimas maneras. Así funcionan las grandes plataformas de publicidad y por ello es que es posible hacer tantas cosas como la microsegmentación, todas las clases de remarketing, lookalikes (especialmente esto), etc. Es muy divertido estar en marketing y aprender a fondo de Analytics y lo básico de Data Science

1

sumanente interesante creo que eso es el futuro