BIG DATA
Gran volumen de información. Las empresas almacenan datos diariamente, como costos, eficiencia, ventas, clientes. El big Data es como un puente de comunicación entre la empresa y los usuarios finales, ellos pueden comunicarse con nosotros para decirnos q están buscando, q es lo q necesitan q mejorar. Eso se hace a través de una solución matemática o estadística para un problema de negocios.
TIPOS DE DATOS
Personas: gustos, likes o preferencias, lugares que has visitado, personas con las que estás más tiempo.
Transacciones:
2.1 Monetarias: pagos, cuanto pagas, en qué establecimiento, que producto o servicio obtienes.
2.2 No monetarias: por ejemplos tus llamadas telefónicas, cuánto duran, a quién le marcas, etc.
Machine 2 Machine: conexión de una máquina a otra máquina. Por ejemplo, el GPS de tu teléfono para ubicar al conductor de Didi más cercano.
Biométricos: datos que te identifican como persona única, huella dactilar, tipo de sangre, tu voz, tu rostro para desbloquear tu smartphone, iris.
Navegación web: Quién accede a las páginas web, de dónde son, clicks que das, cuánto tiempo duras en la página.
COMO CREAR UNA CULTURA DE DATOS EN LA EMPRESA
Llevar el conocimiento de los datos a los empleados
Recolectar información
Medir todo
Datos relevantes y precisos
Testear y crear hipótesis (Preguntas especificas)
Desde los insights (resultados de las hipótesis) de datos a las acciones
Cumplir las regulaciones de datos
Automatizar
¿QUÉ ES MACHINE LEARNING?
Inteligencia Artificial es la capacidad de las computadoras de mostrar un comportamiento “inteligente”. Mientras que Machine Learning es una de técnica que se utiliza para crear y mejorar dicho comportamiento. Esto mediante entrenamientos automáticos basados en la exposición a datos.
Al utilizar redes neuronales de gran profundidad, el aprendizaje automático se convierte en aprendizaje profundo.
Inteligencia artificial: capacidad de jugar ajedrez.
Machine Learning: técnica de entrenamiento para enseñar a jugar ajedrez.
¿QUÉ ES EL DEEP LEARNING?
Entrena a una computadora para que realice tareas, como el reconocimiento del habla, la identificación de imágenes o hacer predicciones.
El deep learning configura parámetros básicos acerca de los datos y entrena a la computadora para que aprenda por cuenta propia reconociendo patrones mediante el uso de muchas capas de procesamiento.
ROLES EN LA CIENCIA DE DATOS
Ing. de Datos o Arquitecto de Datos, hace la conexión entre el dispositivo y la creación de una base de datos. Trabajan haciendo APIs, eTLs, conectores y las herramientas más usadas son SQl y NoSQL
Analista Business Intelligence, a partir de la información que creo el ing. de datos extrae la información que le interesa, crea cuadros de control, automatiza estos procedimientos. Las herramientas más usadas son SQL y Excel.
Data Scientist, sabe el rol del analista, extraer la información, y sabe predecir. Las herramientas más usadas son R y Python.
Data Translator, persona que pueda interpretar los datos y pueda comunicarlo a otros equipos de negocios. Experto en la necesidad de negocio. Normalmente domina los otros 3 puntos anteriores
HERRAMIENTAS PARA UN ANÁLISIS DE DATOS
SQL (Ingeniero y Analista)
Extracción de información
Síntesis de la base de datos
Cuadros de control de la operación
R y Python (Científico)
Análisis de datos con enfoque estadístico ® Ingeniería (Python)
Mas complejo al inicio ® Parecido a otros de lenguajes (Python)
Análisis descriptivo y exploratorio
COMO ESTRUCTURAR UN CASO DE NEGOCIOS
Qué
Es el problema de negocios
Hipótesis: Partir de una pregunta especifica
Por qué
Clasificar todos los motivos o mensajes que llegan del problema de negocios y sinterizarlo en pocas categorías
Cómo
3.1Estrategia de cómo vamos a diseñar o como vamos a organizar todo el análisis
3.1.1Análisis cuantitativo: Debe ir siempre primero ya que es toda la información. Hacer una clasificación numérica
3.1.1.1 Descargar: información necesaria como los datos del ultimo mes o data histórica si es necesario
3.1.1.2 Identificar:
Patrones de comportamiento
Variables significativas
3.1.1.3 Definir:
Segmentación según rentabilidad
Definir el límite entre el supuesto y lo q es normal
Definir un Threshold (límite) para cada categoría.
3.1.2 Análisis cualitativos: Buscar categorías en función de texto. Nos ayuda a identificar características, tipos, relacionados con el problema.
Clusterizar
Clasificar
Profundizar
3.1.3 Matriz cuantitativa – cualitativa: Poner en conjunto la información, entender los números y explicarlos más a profundidad.
3.1.4 Definir acciones de prevención: Definir acciones con la información
3.1.5 Validación: Verificar si nuestro análisis ha servido y si nuestras acciones de prevención están teniendo efecto.