El mundo de los datos: data science y machine learning

1

Aprende ciencia y análisis de datos para optimizar las estrategias de tu negocio

2

Retos para aprender ciencia de datos

3

¿Qué es ciencia de datos y big data? ¿Cómo afectan a mi negocio?

4

¿Qué tipo de información podemos analizar?

5

¿Cómo crear empresas y culturas data-driven?

6

¿Qué es inteligencia artificial y machine learning?

7

¿Qué es deep learning? Análisis de imagen, audio y video

Herramientas y roles de trabajo en ciencia de datos

8

Flujo de trabajo en ciencia de datos: fases, roles y oportunidades laborales

9

Herramientas para cada etapa del análisis de datos

10

¿Qué es y cómo usar una base de datos relacional con SQL?

11

Cómo estructurar queries en SQL

12

Conflictos y retos actuales sobre la ética y tratamiento de datos

Problema de negocio: análisis

13

Aplica técnicas de storytelling para convertir problemas de datos en historias

14

Cómo estructurar un caso de negocio

15

Análisis cuantitativo en un caso de negocio

16

Análisis cualitativo en un caso de negocio

17

Fusión cuanti-cualitativa en un caso de negocio

18

¿Qué es minería de texto? ¿Cómo usarla para obtener información adicional?

19

Variación de comportamientos a partir de la geolocalización

Problema de negocio: implementación

20

Acciones, algoritmos y toma de decisiones según los resultados del análisis

21

Apuntes y cursos para aprender ciencia de datos

22

Continúa aprendiendo ciencia y análisis de datos para ejecutar estrategias efectivas

23

👥🦾 Actividades de la comunidad de la Escuela de Data Science e Inteligencia Artificial

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Herramientas para cada etapa del análisis de datos

9/23
Recursos

Aportes 841

Preguntas 18

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

¿Qué clientes compraron ayer y hoy? Sin duda que SQL. Estamos con la mirada en el pasado y el presente, no nos están pidiendo que predigamos el futuro. Con SQL podremos saber quienes compraron ayer y hoy.

Herramientas para cada etapa del análisis de datos
Extracción de información con SQL
Sintetiza una base de datos, sirve para entregar un cuadro de control de la operación.
Analisis y visualizacion con R y Python
R -> tiene un enfoque más estadístico basado en la econometría.
Es más complejo. Análisis descriptivo y exploratorio.
Python -> basado en la ingeniería. Es parecido a otros lenguajes. Análisis descriptivo y exploratorio.

A mi se me ocurre una solución, pero no muy desarrollado. Como aprendimos que las base de datos SQL podemos aplicar filtros, los utilizaría para reunir los datos que sean necesarios (clientes, ventas, fechas, etc.) luego con Python y la librería Numpy, crearía matrices para compararlas, de esta manera podría tener una idea mas concreta de la razón por la cual bajaron las ventas.

<h3>Herramientas en Data Science</h3>

Extracción de la información con SQL
Aquí extraemos la información, sintetizar una base de datos y crear un cuadro de control de la operación.


Análisis y visualización con R y Python
Se analiza y visualizar la información extraída a través de gráficos, y con los cuales podremos crear modelos predictivos. Los 2 lenguajes de programación que usan aquí son:

  • R: Sirve para realizar análisis de datos con un enfoque estadístico y es un más complejo aprenderlo al inicio. Algunas de las herramientas (packpages) que se complementan con R son ggplot2 y dplyr .
  • Python: Sirve también para realizar análisis de datos, pero con un enfoque hacia la ingeniería. Python es un lenguaje más sencillo y es similar a otros lenguajes de programación. Alguna herramientas (librerías) que complementan con Python son Pandas y Numpy.
<h3>Resumen de: Herramientas para cada etapa del análisis de datos.</h3>

Las herramientas utilizadas dependeran del rol o etapa del análisis de datos. Pero principalmente tenemos 3 herramientas:

  • SQL:
    SQL es un lenguaje de programación para el manejo de datos. Su principal tarea en el analisis de datos, es la extracción de información y síntesis de la base de datos para saber sobre el pasado y el presente.

Su uso es principalmente por parte del ingeniero de datos y el analista de datos.

  • R:
    Este lenguaje está enfocado principalmente en el ambito estadistico, y ciertamente al principio puede parecer algo complejo, sin embargo es bastante potente para el analisis y predicción de la información.

Además, el lenguaje R, nos permite generar un análisis descriptivo y exploratorio, esto quiere decir que nos permite extraer la información importante de hoy, así como inferir lo que pudiera ocurrir mañana.

Dentro de los principales packetes utilizados, esta ggplot2 y dplyr. Estos paquetes sirven para la visualización de los datos en graficas con bastantes funcionalidades.

Finalmente los roles que utilizan esta herramienta, es pricipalmente el Cientifico de Datos.

  • Python:
    Este lenguaje amado por mucho y envidiado por otros, tiene un enfoque hacia la ingenieria, por lo que es parecido a otros lenguajes de programación, al menos a los más recientes.

Además, al igual que R, su uso en el analisis de datos está enfocado en el análisis descriptivo y exploratorio. Sin embargo su uso se extiende más allá como lo es el Desarrollo Web y de Software.

Los paquetes más utilizados en el ambito de análisis de datos son Pandas y Numpy. Estos paquetes nos sirven para simplificar el manejo de la información así como el calculo que pudieramos hacer con el mismo.

Finalmente, los roles que más utilizan este lenguaje es el Cientifico de datos, y principalmente aquellos que ya tienen una cercanía con algún lenguaje de programación ya que es mucho más sencillo adaptarse a este nuevo.

Muy recomendado el curso de Fundamentos de R.

Usaría SQL para el filtrado de los datos; compararía por medio de vectores los datos entre los dos días en estudio. Posteriormente consideraría los indices de la información disponible, valoraría si existen otros factores que no se hayan considerado y que afecten a las ventas, por medio de python buscaría el factor del descenso de las ventas y daría una respuesta acorde a la pregunta: ¿Porqué han bajado las ventas de un día para otro?

Para extraer los principales datos usaría SQL, luego para realizar un análisis usaría powerBI, donde gráficamente podría mostrar el comportamiento del nro de clientes diarios, y en base a estas variaciones entre periodos se podria realizar una análisis de sensibilidad, para así poder identificar el factor que más afecta porcentualmente a las variaciones.

Acaban de informarte que las ventas de tu empresa cayeron mucho hoy. Debes extraer la información de los clientes que compraron ayer y los clientes que compraron hoy para entender por qué cayeron las ventas. ¿Qué herramienta debes usar para realizar la extracción de datos?: RTA: Usando SQL podemos saber cuáles fueron las ventas de hoy y las de ayer también y sería algo así
SELECT COUNT(sale_id) AS NumberOfSales FROM sales WHERE sale_date='2020-12-08' OR sale_date='2020-12-07' GROUP BY sale_date

SQL everywhere (hasta en la sopa).

En este caso sería la combinación de SQL o no SQL junto a Python.

Con SQL (o no SQL como MongoDB) se obtiene la información almacenada de las ventas previas, así como la información de los clientes.

Para la comparativa usaría Python. Si bien como apuntan varios, se puede obtener una comparación con SQL directamente, se pueden lograr resultados mas detallados y con mejor presentación con Pandas. Guardando los resultados en DataFrames brinda posibilidades de comparación y un análisis mas profundo que con SQL solamente.

Herramientas que uso:

  • Pentaho Data Integration (Spoon)
  • Power BI
  • Tableau
  • Einstein Analytics
  • Python
  • R
  • SQL Server
  • Excel

¿Alguien sabría decirme que rol tengo?

Usaría SQL para filtrar los datos que me están pidiendo, en base a los resultados del query puedo ver cuantos clientes han comprado el día de ayer y hoy. También el SQL no sería solamente con clientes, por ejemplo, el problema puede ser a una falta de stock, por lo cual también se puede filtrar cuanto stock hubo entre ayer y hoy, y determinar si este fue el causante de las bajas ventas. Este es un ejemplo de varias situaciones que se pueden presentar.

Obviamente SQL … Aplicaria R pero de manera retrospectiva por su inclinación estadistica …

SQL.

El ejercicio que propones es real, me tocó realizarlo cuando regresamos de la pandemia a la oficina, la facturación mensual había caído, y un día presentaba un descenso notorio, vimos que los últimos meses del año anterior los lunes teníamos menos de mitad de las transacciones que se tenía los lunes antes de la pandemia.
Para extraer la información usé SQL y se presentó en excel la información que se extrajo.

SQL es la herramienta que nos ayuda a tener una mirada completa de nuestra base de datos e ir extrayendo la información, incluso si quisiéramos podemos seleccionar con la clausula WHERE o calcular dentro del mismo SQL un campo que nos diga si ese cliente compro el día de ayer y si no volvió a comprar hoy.

Para analizar y buscar patrones para ir dando respuesta al porque han caído las ventas utilizaría las herramientas disponibles en Python o R. Primero si debería convertir mi base ya limpia en SQL a un data frame con pandas y hacer ciertos análisis descriptivos, si utilizará Python.

Finalmente para graficar estos datos y verlos de forma más clara podríamos utilizar las herramientas que la profesora ya mencionaba en R como ggplot2 o también si queremos un proceso más grafico, podemos utilizar un software de visualización de datos como Tableau o Power Bi.

Dado que posiblemente ya tenemos integrado un sistema de procesamiento de transacciones, la herramienta predilecta en este caso para extraer la información de los clientes y manipularla sería SQL. Sí posteriormente queremos visualizar la información y controlarla de una forma más gerencial, podríamos utilizar Power BI o Tableau.

Debería utilizar SQL y excel, el primero para realizar una consulta donde se obtenga los clientes que realizaron compras en los ùltimos días. Posteriormente ordernar la información y generar un informe en comparación a los días correspondientes de la semana pasada, para obtener una conclusión acerca del porcentaje de dismunición según el patrón de consumo.

Se debe extraer los datos con SQL, ya que debes evaluar el pasado con el presente y entender por qué disminuyeron las ventas de un dia para otro. Si se quisiera entender si es un comportamiento que se va a repetir a futuro, allí si tendríamos que usar R o Python.

¿Qué clientes compraron ayer y hoy?
Extracción, palabra clave.
Sin duda SQL, las queries son funcionales en estos casos.

el reto se resuelve con excell y sql , puesto que podemos sacar los datos de la bd con sql y exportarlo a un excell para su analisis mas detallado

El por qué, será lo difícil, hablando de un mercado, las variables son casi infinitas y creo que a veces los datos guardados en una empresa no serán suficientes para determinar la respuesta.

Podriamos hacerlo con Tableau

creo que podemos empezar así:

  • Clientes de ayer => SQL
  • Clientes de hoy => SQL
  • Diferencia clientes ayer Vs hoy => SQL
  • Por qué han caído las ventas?.. para este analisis creo que hace falta información, como por ejemplo: inventarios, precios, top productos vendidos…creo.

Para responder a la pregunta: ¿Qué clientes compraron ayer y hoy? Se debe usar SQL y Excel ya que son herramientas que nos permiten mirar el pasado y el presente de estas ventas y además nos permiten unificar criterios para conocer las causas por medio de hipótesis. Además considero que como herramientas son de fácil acceso y compresión a cualquier persona que desee conocer esta información y siempre nos permitirá crear maneras fácil de presentar los datos y poder tomar mejores decisiones.

Con gráficos dinámicos de excel. Pienso que sería una herramienta alternativa y muy fácil de usar

Les dejo un recorte de los apuntes de repaso que realice de esta clase. Espero que les ayude.

Definitivamente el analisis de datos s lo mio, con miras al data science =)

Yo soy ingeniero mecatrónico, tengo conocimiento en estadística, probabilidad y me encantan las matemáticas y llevé mucha programación en la universidad, principal,emte C++, Java y otro lenguaje cuyo nombre no recuerdo (para microcontroladores), y quiero aplicarlo todo en la escuela de Ciencias de Datos. No tengo formación en esto y desconozco las herramientas. Por ahora mi entendimiento se limita a saber que en SQL almaceno mi base de datos y posteriormente puedo usar R, o Phyton (u otros viendo los comentarios) para extraer la información y presentarla o desplegarla para hacer análisis sobre la misma

Que clientes compraron ayer? Que clientes compraron hoy?

  • Para esto utilizariamos SQL para poder extraer los datos que necesitamos de nuestra base de datos

Queremos saber porque han bajado las ventas?

  • Aquí tendríamos que realizar un análisis de los datos y comenzar a hacernos preguntas (hipotesis). Quizas puede que hallan caido las ventas porque no tenemos los productos que mas se venden en el almácen. Tambien puede ser que llego una pandemia. Puede ser que los ultimos 2 dias hallan sido lunes y martes, estos dias son los menos movidos. Tambien puede se que estamos en un mes en el que todas las personas andan sin dinero y pagando deudas como lo es el mes de enero.

  • Debemos hacernos muchas preguntas para poder encontrar la verdadera causa y poder realizar el análisis correspondiente que nos de la solución.

Para análisis de datos históricos y actuales debes utilizar SQL, no te pide predicciones solo data que ya conoces.

Me parece muy util R porque tambien da la opcion de manejar de manera sencilla datas muy grandes y permite ahi mismo crear la visualizacion de los datos, ademas que trabajando con el markdown se puede dejar el paso a paso del data cleaning y de lo que se realizó para tener los resultados.

Para saber cuántos clientes compraron ayer, y cuántos hoy, voy a utilizar SQL, que sirve para extraer datos y sintetizarlos; y para analizar lo que ha sucedido hasta hoy.
Pero si quiero ir más allá y entender “por qué”, voy a tener que utilizar algún lenguaje descriptivo como Phyton o R - Estos lenguajes, al ser descriptivos y exploratorios, sirven para entender, interpretar la data que extraje previamente, y en base a ello, elaborar modelos e hipótesis. Es decir, movernos hacia el futuro; eso es lo que entendí yo!

por ahora pudiera contestar como la mayoría con Sql, quizá cuando conozca mas de otras herramientas mi respuesta pudiera cambiar.

¿Que clientes compraron ayer y hoy? La pregunta apunta a tomar información existente y establecer comparativas por fecha, horario, productos, promociones, lo cual existe en la información que analizaremos. SQL es la herramienta elegida.

sobre el reto propuesto, utilizaríamos las siguientes herramientas: - Script SQL para consultar la tabla ventas cruzando la tabla maestra de clientes y hacer agrupados por fecha y artículos comprados por cliente de varias fechas anteriores, obteniendo asi una historia para poder llevarlo a una tabla en una BD para su posterior visualización. Esto lo podemos automatizar para que se realice todos los días mediante una Shell Python y así guardar la historia constantemente o utilizar una herramienta ETL como Datastage. - Power BI o Tableau, para la visualización de los datos o dashboard, esto dependerá de la volumetría de los datos a consultar.

Mi respuesta seria R y SQL, ya que es un análisis que comprende en el pasado y el presente y nos ayudaría a comprender el por que de la tendencia.

Acaban de informarte que las ventas de tu empresa cayeron mucho hoy. Debes extraer la información de los clientes que compraron ayer y los clientes que compraron hoy para entender por qué cayeron las ventas. ¿Qué herramienta debes usar para realizar la extracción de datos?
Una query SQL y bien utilizar consulta desde base de datos en excel para extraer la informacion solicitada.

R es una herramienta que se enfoca primordialmente en análisis estadístico, tiene un visor de información que lleva a concluir de manera mas ágil y sencilla, su único defecto es la complejidad al iniciar su aprendizaje. Voto por R.

Python es mas simple, es mas amigable, pero la diversidad de aplicaciones, hace que no siempre se tengan recursos estadísticos puntuales.

Debo usar SQL para extrayer datos del pasado y presente, analizar la caida de vendentas

SQL , sería la herramienta para evaluar como nos fue ayer y hoy

Debo usar R para extraer y visualizar primero los datos, realizar un análisis exploratorio básico para tratar de identificar algún patrón. Realizar algo de estadística básica calcular alguna regresión también en R para confirmar mis allazgos visuales.

Deberia usar SQL ya que nuestro objetivo es saber por qué cayeron las ventas de nuestra empresa, entrando en la base de datos de ventas podemos usar esta herramienta para que nos sintetice la información que necesitemos y de esta forma vamos a poder crear cuadros de control para comparar el estado de las ventas desde un punto en el tiempo a otro, generar una hipótesis y finalmente llegar a una conclusión.

Debo usar una sentencia SQL para buscar y filtrar la información por fechas.

Extraería las ventas de la información de los clientes a través de la herramienta SQL, posteriormente utilizaría R o Python, para realizar el analisis exploratorio de los datos y descriptivo. Considero que se puede revisar la cantidad de los clientes que compraron, pero también el ticket promedio, puede ser que no haya una disminución considerable de clientes, pero si en el valor total promedio de sus compras. O puede identificar las hora en que se realizaron las compras e identificar brechas respresentativas.

Por fin conozco la diferencia entre R y python Yo primero me iría a la base de datos, posteriormente la pasaría a Python para su organización, presentación y posteriormente las gráficaria en R para dar a entender el problema y detectar las fallas de una forma más eficiente y gráfica.

Este es un análisis descriptivo el cual podrías trabajar utilizando SQL o bien una herramienta estadistica como R, ya que no solo se quiere ver la variación en las ventas, sino que se desea entender la causa por la cual se presenta variación en las mismas.

Entiendo que SQL es una base de datos. entonces, ahí debería poder verse un histórico de las transacciones desglosado por día y por -tipo de- cliente-. Adicional, usaría seguramente R para poder mostrar de forma visual las difenrencias entre un día y otro. Tal vez por horario, identificar el tipo de cliente o la estacionalidad. Tal vez fue un día feriado, cambio de domingo a lunes, etc…

Con SQL podríamos realizar la extracción de data, luego adaptamos una herramienta que permita visualizarlos.

Existen otras herramientas interesantes para el analisis y manejo de datos como SAS, Qlik View, Apache Spark, Rapid Miner y Microsoft Power BI por mencionar algunas.

Modulos de python como matplotlib o bookeh nos pueden ayudar a graficar los datos, hay muchos tipos de graficos que podemos hacer con ellos
https://matplotlib.org/3.3.3/tutorials/introductory/sample_plots.html

Me parece que la mejor forma, es realizar una consulta SQL de la base de datos de compras, y con algun algoritmo previmanete diseñado podriamos encontrar el porqué con ayuda de python.

La extracción de datos con SQL

SQL:
Base de datos hoy
Base de datos ayer
Ver elementos comunes

La comparación de ventas se puede hacer en un excel o en SQL si la cantidad de datos es mayor.
La pregunta de por qué bajaron las ventas es subjetiva, puede variar de acuerdo con el tipo de empresa, cambio de temporada, imagen negativa de la empresa en algún noticiero, un bajón en la economía…
Considero que es una pregunta muy específica que debe tener una respuesta adecuada a los datos de la empresa en análisis.

No se usar SQL , veo que varios dicen esa respuesta para el reto, yo usaria una PIVOT TABLE en google sheets donde haría distintas pruebas de hipótesis para determinar que variables que guardamos en la empresa presenta más correlación con la disminución en las ventas
Es poco pero es trabajo honesto jajja

SQL. Ya que necesitamos extraer solo cierta información de la base de datos. Filtrarla.

A grandes rasgos el histórico de ventas, esta en la BD, esos datos los exportamos a alguna plataforma que nos ayude a organizar la información y poder mostrarla a nivel de tabla o gráfica dicha información.

Estamos hablando del pasado y presente, mas no del futuro
en ese orden de ideas seria SQL.

Para la pregunta de cuantos clientes ser perdieron, me concentraría en el uso de SQL para generar la extracción de información y Power BI para la representación.
Para responder al por qué bajaron las ventas me pondría creativo en R, utilizando web-scarbbing para buscar las circunstancias cambiantes del entorno y de nuestros negocios.

SQL para reunir informacion y despues crear un modelo con python que me permita encontrar las variables relevantes del porque estan cayendo las ventas.

SQL: Extraer la información de la venta y si se tiene la información de posibles caídas de la pagina.

Python o R: Análisis Exploratorio y poder determinar como van a cerrar las ventas y hacerlas subir

Para hacer la verificacion o encontrar la diferencia de ventas SQL, y para saber el porque tal vez pyton o R haciendo uso de alguna libreria.

Haría consultas SQL para extraer los datos de los clientes de ayer y hoy, usaría python para procesar los datos haciendo visualizaciones con matplotlib y ver en que momento hubo un cambio de tendencia, si la db esta bien normalizada usaría los id’s de los clientes para comparar cuales clientes compraron ayer y cuales hoy usando un filtro con pandas. Con eso yo creo que podría responder la interrogante. :3

Podemos extraer los datos con las querys de sql.

Con SQL y una herramienta de BI.

Me encanta que nos lancen una pregunta al final del vídeo.
RETO: Si tenemos que extraer la información de qué clientes compraron hoy y ayer entonces tendré que utilizar SQL. Cuántos clientes hay menos se puede hacer en un dashboard que mida {nº clientes hoy- nº clientes ayer} (con el signo negativo)
Por qué han caído las ventas no se como contestarlo.

SQL

SQL para tener los datos de ayer y hoy. En el cuadro de control se ve la disminución de clientes. Con python podemos hacer un análisis descriptivo para saber el ¿por qué? del bajon

Reto de la clase:
Extracción: SQL para obtener los datos(dependiendo de la DB, algún manejador que se adapte), extrayendo los datos de los clientes y las transacciones realizadas.
Análisis: Usar una herramienta(Power BI/Tableau) para construir un reporte y tener de manera más visual los datos extraídos.

Utilizaría SQL para la extracción de esos datos por medio de queries y python para realizar el análisis y graficar.

Extracción

Para la extracción de datos definitivamente es SQL
Imaginemos que los datos son libros y SQL es la biblioteca que los administra y se encarga de su correcto almacenamiento

Análisis

Para esto utilizaría Python, ya que con su librería Pandas puedo manejar aquellos datos, con **numpy **manejar los respectivos datos para los cálculos matemáticos, con los cuales podre hacer vectores y matrices para realizar un mejor modelo matemático, y **matplotlib **para realizar las graficas

Pensaría que lo más fácil es usar python.

Nuevo reto.

Debo usar… SQL para la extracción de datos y python para el análisis de los mismos.

R

Yo pensaría que R, ya que al ser un análisis mas centrado en aspectos estadísticos y econométricos. Podemos realizar mejor un analisis descriptivo y exploratorio de la situación: “¿cuántos clientes hemos perdido con respecto ayer?”.
Y, a través de herramientas como ggplot hacer graficos que nos muestren la tendencia que se está percibiendo para corroborar su veracidad y sus posibles causas.

¿Que clientes compraron ayer y hoy? ¿Cuantos hay menos? ¿Por que disminuyeron las ventas?

Yo abordaría este problema desde el el rol de data analyst ¿Por que? debido a que es un dato o una respuesta que podemos obtener de los datos ya existentes, NO debemos predecir cuantos compraran mañana.

En cuanto a procesos, iniciaría extrayendo los datos solicitados y verificando la diferencia en un dashboard de los clientes que compraron hoy VS los que compraron ayer, es necesario conocer SQL para lograr la extracción completa de estos datos

Para extraccion de datos usamos SQL

Para conocer esta información considero que nos ayudaría los SQL ya que son datos específicos, el poder comparar situaciones actuales como las del pasado, controlando así el bajo nivel de clientes, ya que se parte de un gran volumen de datos para sintetizarlos a la necesidad que se esté presentando.

Pasado y presente… obtención de datos… = SQL

SQL sería la herramienta necesaria para extraer la información que ya existe en las bases de datos.

Para Analizar por qué cayeron las ventas: Yo usaría Python (Pandas) SQL

utilizaría SQL para obtener los datos, sintetizar una base de datos que me permita saber cuales fueron los clientes que compraron ayer y hoy. Además, en cuanto disminuyeron los clientes y cual fue el motivo.

primero podemos extraer la información de los dos días apartir de la db de ventas con sql , el análisis descriptivo lo generaría con phyton

Que o cuantos clientes compraron ayer y hoy?
Definitivamente SQL agregando filtros de fecha ayer y hoy.

Con Sql podemos revisar la cantidad de clientes que compraron ayer y cuantos han comprado hoy, pero podemos ir mas allá y ver cual es el ticket promedio, pueden ser la misma cantidad de clientes pero con menor ticket promedio o menor cantidad de productos por cliente.

Con base en el problema planteado usaremos SQL para extraer la informacion de los clientes en los dias requeridos. Haremos una analisis exploratorio y descriptivo en R o en Python.

SQL, es una herramienta, que permite analizar el pasado y el presente, lo cual es necesario para el reto expuesto en clase

utilizariamos una sql debido a que necesitamos informacion especifica, necesitamos sintetizar los datos del pasado y del presente para asi comparar y determinar el porque de la caida de las ventas.

  • Análisis descriptivo: sirve para describir la información que tenemos (interpretarla)
  • Análisis exploratorio: Nos sirve para pasar a otra fase, poder predecir
Usaría SQL para organizar y filtrar los datos y R, para tener un análisis más detallado de la información.

1.-SQL lenguaje usado en la extracción de datos-
2,.R and Python elaboración y ordenamiento de la información.

SQL para la recolección de información y R para predecir en que afectara esta información.

Debo usar SQL, ya que no nos estan pidiendo predicciones, no estan pidiendo respuestas de un problema presente. Extraemos la información con SQL como un embudo para posteriormente analizarlo e interpretarlo a la empresa.

Primero, es identificar donde esta la información, ver si esta divida en varias bases de datos, o en una sola, si ya trabajo ahí espero tener todo esto resuelto. Segundo es ordenar y juntar toda la data. Con esto obtengo la información de ayer y hoy. El porqué dejaron de comprar es mas complejo, debo platear una hipotesis, y para ello necesito logica de negocio.Suponiendo que es para un hotel, yo haría un analiziz descriptitvo de mis clientes, quiero saber de donde vienen y como esta su pais, ver si hay vuelos rotos, ver las temporadas, vacaciones, para plantear una hipotesis, porque no tengo claro que pudo pasar. Una vez tenga la hipotesis con estadistica descriptitva y modelado de datos compruebo.

R y Python ¿Cuál elegir?

Con “Pandas” importaría la data de las ventas de las fechas indicadas (ayer y hoy) en un objeto ”dataframe”:

import pandas as pd
	import psycopg2 as pg

	engine = pg.connect("dbname='my_db_name' user='pguser' host='127.0.0.1' port='15432' password='pgpassword'")

	query = "select v.fecha, v.total, c.nombre as cliente from Ventas v join Clientes c on c.id =
	df = pd.read_sql(query, con=engine)
	print(df)
 

Para la primera parte del problema verfiicaria primero la diferencia de clientes de ayer y hoy, luego trataria de buscar la cantidad de dinero que gastaron y los articulos y/o servicios que solicitaron, asi poder comparar o hacer un diferencia entre las compras de un dia con otro,asi saber, si existe un deficit de productos o si existe una oferta en otra compañia que ofrezca los mismos productos o servicios.

El espectro de respuesta es muy amplio pero mas o menos seria una solucion a este problema.

Información resumida de esta clase
#EstudiantesDePlatzi

Herramientas y Lenguajes

  • SQL
  • Bases de datos
  • R
  • Python
  • Librerías