No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

14 Días
11 Hrs
40 Min
11 Seg

Medidas de tendencia central en Python

8/25
Recursos

Aportes 174

Preguntas 29

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Reto

Bueno, como a mí también me gustan los Audi, pero no las camionetas, ni los tope de gama, haré el filtro para el A5.
Aquí ya me muestra los Audi A5 y todos sus detalles:

Hacemos el un diagrama de frecuencias entre el precio por año del modelo

Conclusión: El modelo del A5 ideal para mi sería entre el 2009 y 2011, por la relación precio utilidad que le daré (en un futuro no muy lejano, jejejeje)

También me llama la atención, cuántos modelos del a5 salieron con transmisión manual y vemos que…

hay solo 2 jajajaja. Es una decepción.

Y para finalizar, vamos a hacer varios diagramas de frecuencias con sus respectivas conclusiones entre:
.

El precio en relación el tipo de motor:

Los carros a diésel son más caros que los de gasolina.
.

Como influye el color en el precio del auto:

Los colores más caros son los más feos, xd. Y claro, también los menos comúnes.
.

Y la ubicación con el precio del auto.

¿Eso es Ruso? Creo que si, por lo tanto, comprarse un carro es muy caro en Rusia. Rusia descartada para emigrar, jejeje.

Dato curioso: ¿Cuál es la diferencia entre un diagrama de frecuencias (gráfica de barras) y un histograma

.
El diagrama de frecuencias (gráfica de barras) sirve para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorí­as y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categorí­a. También podrí­amos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales.
El gran mérito del diagrama de barras es expresar la magnitud de las diferencias entre las categorí­as de la variable. Pero ahí­ está precisamente, su punto débil, ya que son fácilmente manipulables si modificamos los ejes.
.
El histograma es un gráfico con un significado mucho más profundo. Un histograma representa una distribución de frecuencias que se utiliza (o debe) para representar la frecuencia de las variables cuantitativas continuas. Aquí­ no es la altura, sino el área de la barra lo que es proporcional a la frecuencia de ese intervalo, y está en relación con la probabilidad con la que cada intervalo puede presentarse.
Otra diferencia muy importante entre el diagrama de barras y el histograma es que en el primero solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá, ya que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así­ calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra.

Solución al reto

No tenia un modelo especifico en mente, así que lo primero que hize fue ver cuales eran las marcas de autos con mas datos.

Elegí a Nissan, tenia una noción de los modelos de esta marca pero lo que hize fue volver a listar el dataset de Nissan por marcas

Me incline por “Primera” y realize el filtrado además incluí únicamente a los modelos a partir del 2000, les dejo un tip también se puede hacer el condicional usando la función query de pandas a mi criterio es mas fácil.

nissan_df=df.query('manufacturer_name=="Nissan" and model_name=="Primera" and year_produced>=2000')

El resultado fue el siguiente

Conclusión

Lo que me llamo mas la atención fue que del modelo mas carro solo existe información de un solo auto por lo que hubiese podido sesgar nuestro análisis para este caso especifico. Les dejo el link de mi repositorio de deepnote. 😃
https://deepnote.com/project/CursoEstadisticaDescriptiva-xA8JQdncQF2M2hTiCdgZUw/%2FCarsAnalitycs.ipynb

💡 Si es de las primeras veces que trabajas con Pandas, te comparto un tutorial para que aprendas desde cero y paso a paso todo lo fundamental que necesitas:

Guía definitiva para dominar Pandas 💚

Sinceramente Pandas era todo lo que necesitaba para mejorar mi productividad con el análisis de Datos y ahora con Deepnote todo será más organizado, estoy que lloro de la alegría ❤️

black_cars = df[(df['color'] == 'black')  & (df['price_usd'] <= 20000)  & (df['year_produced'] >= 2017)]
sns.histplot(black_cars, x = 'price_usd', hue = 'year_produced')

Otra función muy útil de Seaborn, pairplot entrega mucha información contrastada de variables que escojamos.
Acá se puede ver que el kilometraje es también relevante respecto del precio, entre otras cosas.

import seaborn as sns
sns.set(style="ticks", color_codes=True)
sns.pairplot(df,vars = ['price_usd', 'odometer_value','year_produced'], hue="engine_type")
plt.show()

MI reto

Comandos de la clase:
Importar libreria

import pandas as pd 

Obtener datos de un archivo csv:

df = pd.read_csv('nombreArchivo.csv')

Para obtener el valor promedio de una columna:

df['nombre_columna'].mean()

Para obtener la mediana de una columna:

df['nombre_columna'].median()

Para obtener histograma:

df['nombre_columna'].plot.hist(bins=#intervalos)

Esta librería nos brinda visualización estadística

import seaborn as sns

Vamos a generar histogramas de datos numéricos de una columna por cada valor categórico de otra columna.

sns.displot(nombre_dataframe, x = 'nombre_columna_numerico, hue = 'nombre_columna_categorias')

para visualizar las barras apiladas útil al ver diferentes histogramas

sns.displot(df, x='price_usd', hue = 'engine_type', multiple='stack')

para poder agrupar los datos por categóricos y luego sabe cuantos hay de cada uno

df.groupby('columna_categorica').count()

vamos a filtar a los autos de la clase q7 y que sean Audi

Q7_df = df[(df['manufacturer_name']=='Audi') & (df['model_name']=='Q7')]

Reto

Analice como se han producido los autos con los años y encontré que antes se fabricaban más autos mecánicos! pero la tendencia ahora es la producción de automáticos.

Y luego revise los precios de vehículos de acuerdo por su transmisión y los autos automatices son más costosos que los mecánicos.

Conclusión
Ahora se fabrican más autos automáticos que antes y el valor de estos es más alto.

Yo elegí un Subaru y modelo Outback

Q7_df = df[(df['manufacturer_name']=='Subaru') & (df['model_name']=='Outback')]
sns.histplot(Q7_df, x='price_usd', hue='year_produced')

Comparto mi solucíón al reto:

  1. Exploración de datos, buscando que marcas existen en el Dataframe.
  1. Buscando que modelos existen de la marca que escogí (Peugeot).
  1. Creando un DataFrame filtrado que contenga unicamente la marca y modelo que escojí ( Peugeot 806)
  1. Haciendo un histograma de la maca y modelo seleccionada, por precio y año de fabricación.

Muy bonita visualización con Seaborn

Si quieren solo contar los valores de los tipos de motor:

df['engine_type'].value_counts()

I like Subaru cars and I made this graphic to watch prices after the 2013

cars_df = pd.read_csv("cars.csv")

subaru_cars_df = cars_df[(cars_df["manufacturer_name"] == "Subaru") & (cars_df["year_produced"] >= 2013)]

sns.histplot(data = subaru_cars_df, x = "price_usd", hue = "model_name", multiple = "stack")

Yo elegi Honda Civic y este fue el resultado

Medidas de Tendencia central con python

  • Cuando tenemos datos continuos, no podemos representar el diagram de frecuencias, pero usamos un diagrama equivalente: el histograma, agrupando los valores por rangos, una manera de representarlo por el método hist de pandas: df.hist(bins=n) # bins representa el número de barras (divisiones) a representar
  • Una librería muy útil para la visualizacion de datos es la librería seaborn: import seaborn as sns, por ejemplo podemos realizar un diagrama de distribucion, agrupando los datos: sns.distplot(df,x='columna_datos',hue='columna_agrupacion', multiple='stack')
  • Es importante hacer un análisis exploratorio para ver cómo se comportan los datos y trabajar con información relevante.
  • La estadistica descriptiva consta de números y visualizaciones, que nos permitan resumir y entender los datos

Como recurso para aprender Pandas recomiendo el libro Python For Data Analysis de Wes McKinney, en el cual también se puede aprender Numpy, que es otra librería muy utilizada en ciencia de datos.

Reto
Otro ejemplo seria una Jeep modelo Grand Cherokee y de color negro los resultados nos muestra:

El precio en relación de la region

n= df[(df['manufacturer_name']=='Nissan')&(df['transmission']=='mechanical') &(df['year_produced']>2000)& (df['engine_type']=='gasoline')&(df['model_name']=='Almera')]
sns.histplot(n,x='price_usd',hue='year_produced')

dejo mi búsqueda con Mazda modelo 3.

Reto

Rs_df=df[(df['manufacturer_name']=='Renault') & (df['model_name']=='Sandero')]
Rs_df
sns.histplot(Rs_df, x = 'price_usd', hue = 'year_produced')

Hola, saque uno de solo los mazda modelo posterior a 2010 y los grafique por precio y el nombre del modelo.

es increible lo que se puede hacer

Reto:
Como no se de carros, me propuse analizar si existe una correlacion entre el precio del carro y el color(Para evitar valores atipicos en todas las operaciones use la mediana)
Realice esta grafica:

dfc=df.groupby('color')[['price_usd']].median()
sns.histplot(dfc,x='price_usd',y='color',hue='color', multiple='stack', bins=10)


Donde podemos observar que los carros color Cafe, Negro Blanco y Gris son los mas costosos; seguidos el plata y el naranja.
Pero en la vida real uno casi no ve carros Cafes entonces me surgió la duda de porque este color es el mas costoso.(Mis suposiciones eran que en la tabla los carros Cafes eran los mas nuevos y por eso aparentaban que el color es el mas costoso). Asi que realice una tabla de fechas vs precio.

import matplotlib.pyplot as plt 
dfy=df.groupby('year_produced')[['price_usd']].mean()
sns.histplot(dfy,x='price_usd',hue='year_produced', multiple='stack')
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) ##Entre mas Oscuro el color mas reciente 

En esta grafica efectivamente pude observar que los carros mas nuevos eran un extremo de la grafica que afectaba mis valores ya que la mayoria eran carros baratos y viejos. Por lo que separa el DataSet entre los carros del año 2000 en adelante y los carros menores al año 2000.

x=list(range(2000,2020))
df2=df[df['year_produced'].isin(x)] ##Carros nuevos >2000
df3=df[~df['year_produced'].isin(x)] ##Carros viejos <2000

Grafica de carros Viejos:

df3m=df3.groupby('color')[['price_usd']].median()
sns.histplot(df3m,x='price_usd',hue='color',multiple='stack',y='color')
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

Grafica de Carros Nuevos:

df2m=df2.groupby('color')[['price_usd']].median()
sns.histplot(df2m,x='price_usd',hue='color',multiple='stack',y='color')
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

Despues de observar estas graficas separadas Podemos concluir que los Carros que verdaderamente son mas costosos basados en su color son el Negro, el Naranja y el Blanco. Pudimos observar que el sesgo de informacion afectaba el resultado inicial donde nos indicaba que el color Cafe es el mas caro y el Naranja casi ni figuraba.

Explorando DEEPNOTE se debe tener en cuenta las mayúsculas y minúsculas, hice el experimento con minúscula y arrojo un “NameError”

Reto

Realice el ejemplo con Legacy:

RETO
Mazda 6

El histograma muestra la distribución de los datos a través de intervalos. Si la mayor cantidad de datos se localiza cerca de 0 o en 0, significa que esos valores son más frecuentes en el conjunto analizado. Esto puede indicar que la mayoría de los datos son bajos o cercanos a ese valor, lo que puede influir en la media y la interpretación de la dispersión. Es importante verificar cómo se distribuyen los datos en diferentes rangos para obtener un análisis completo.
Hice mi ejercicio con la marca jeep y quería ver sus precios y en que tipo de transmisión estan concentrados, Me sorprende que es una marca que desde hace un buen tiempo tenía vehiculos automáticos. lo filtré desde el año 2000 y están super concentrados. ![](https://static.platzi.com/media/user_upload/image-75402e01-4906-417a-85cd-6ba5ad13b6e0.jpg)
![](https://static.platzi.com/media/user_upload/image-3fd3c640-52f5-4a1c-b3f2-5b40066f90f7.jpg) ![](https://static.platzi.com/media/user_upload/image-ef4a49a4-22d1-4502-8e14-481696f9b7f9.jpg) Escogí el modelo Gran Vitara de Suzuki y grafique algunos el precio en un histograma, me pareció interesante. Como se puede observar, la mayor cantidad de autos son del 2007 y su precio esta en un rango entre $6,000 - $10,000. Además realice una agrupación por año de producción y los ordene de manera descendente para poder verificar la hipotesis que hice visualmente. También realice otra gráfica para observar que relación existe entre el precio y el color. No encontré ninguna relación, pero puedo ver que la opción predilecta en color es; negro y plateado. ![](https://static.platzi.com/media/user_upload/image-22d4e692-ba19-46be-afb8-81b80e579b23.jpg) ![](https://static.platzi.com/media/user_upload/image-70f790fd-f76d-48b2-8a41-f9bc93c3f6af.jpg)
Para el reto tomé el Mazda 6, y lo que busqué fue cuanto tiempo duraban listados: ![](https://static.platzi.com/media/user_upload/image-f6801705-3d53-4289-9662-65ffa505341e.jpg)
![](https://static.platzi.com/media/user_upload/image-8ee0bb54-d8c7-43f2-aaf3-86024cb144e9.jpg) lo hice con un Camaro como otro ejemplo
Aqui mi aporte para automatizar el análisis: ```js print(df['manufacturer_name'].unique()) print('^'*20) manufacturer = input('Based on the list showed, select the Manufacturer') cars_df= df[df['manufacturer_name']==manufacturer] print(cars_df['model_name'].unique()) print('^'*20) model = input('Please now choose the model') new_df= df[(df['manufacturer_name']==manufacturer) & (df['model_name']==model)] sns.displot(new_df, x='price_usd', bins= 20, hue= 'year_produced', multiple = 'stack'); ```print(df\['manufacturer\_name'].unique())print('^'\*20)manufacturer = input('Based on the list showed, select the Manufacturer')cars\_df= df\[df\['manufacturer\_name']==manufacturer]print(cars\_df\['model\_name'].unique())print('^'\*20)model = input('Please now choose the model')new\_df= df\[(df\['manufacturer\_name']==manufacturer) & (df\['model\_name']==model)]sns.displot(new\_df, x='price\_usd', bins= 20, hue= 'year\_produced', multiple = 'stack');
Les dejo mi reto; busque el Audi S8. Es interesante que es una muestra pequeña (por lo que es un carro de lujo) ![](https://static.platzi.com/media/user_upload/image-6283ebdd-b34d-4d10-9d58-700f06a80856.jpg)
![](https://static.platzi.com/media/user_upload/image-fb6b831e-d6f6-4714-b7dc-8ee02cdbfb5e.jpg) `Q7_df = df[(df['manufacturer_name']== 'Volkswagen' ) &(df['model_name']=='Fox') ]sns.histplot( Q7_df, x='price_usd', hue= 'year_produced')` `# Agrupa por el valor de 'model_name' y cuenta el número de registros en cada grupocounts = df.groupby(df['model_name'] == 'Fox').size()` `# Muestra el resultadoprint(counts)`
Para listas: ```js import statistics as st print(st.mean(N)) ```
Reto: Hice el ejercicio para marca: Kia, modelo: Sportage. No se porqué me daba error y tuve que importar nuevamente pandas y seaborn y definir el data frame. ![](https://static.platzi.com/media/user_upload/image-f631bab1-4e84-43e5-b767-eae46b01203c.jpg) Este es el histograma. Los modelos que me interesan están entre 10.000 USD y 20.000 USD, veo que en ese rango de precios hay de años recientes.
Reto: Hice el ejercicio para la marca Kia y el modelo Sportage: ![](https://static.platzi.com/media/user_upload/image-307e0db1-8c91-4736-8f6b-5f9ad76184e4.jpg)![]()![]()![]()
Hice un gráfico que podría resultar interesante. ![](https://static.platzi.com/media/user_upload/image-ede13461-6932-4b41-950f-ad6e592b3113.jpg) Linealicé mediante un logaritmo el precio al notar que su comportamiento era prácticamente exponencial, al ser linealizado es prácticamente lineal de forma casi perfecta (con seguridad un modelo de regresión lineal sería estadísticamente significativo).\ Cambié además los ejes, pues me parecía que se tiene más facilidad para leer un gráfico temporal cuando los años están en el eje X, y la variable respecto del año en el eje Y. Finalmente añadí un hue según la capacidad de combustible. Descubrí con emoción que no solo el precio de un auto con este motor incrementa entre más reciente sea el modelo, si no que sus ventas incrementan mucho en vehículos fabricados después de 2005, y además que su precio está casi perfectamente relacionado a su capacidad de combustible dentro de un mismo año.
Hola! Para aquellos que estén utilizando Visual Studio Code y requieran imprimir las graficas generadas por panas. Es necesario haber instalado previamente el pip matplotlib y en el código importarlo, para así poder utilizar el comando plt.show(): ![](https://static.platzi.com/media/user_upload/image-c22546b9-a11f-493e-a23e-e207a1d64f4b.jpg) ![](https://static.platzi.com/media/user_upload/image-5ba593ac-a26e-4a01-bd65-ab07f8f2c07c.jpg)
Hola, si haces el codigo desde deepnote y no compila import seaborn as sns sns.displot(df, x="price\_usd", hue=" Aqui la informacion de la tabla"), no lo escribiste mal, es un error de version ya que el video es de python .7 y actualmente python es 3 asi que lo ideal es cambiar la kernel a anaconda o conda

RETO
En mi caso me decante por los autos Acura y de modelo “MDX”. No conozco mucho de carros asi que elegi el que combenia mejor. Segun los resultados:
![](
Deduje que la mayor venta de estos carros fue en 2007 y eso lo complemente con la grafica:
![](
La conclusion que llegue es que estos autos estaban de moda y su mayor produccion fue entre el año 2006 y 2007 donde estos carros llegaron a un apogeo grande.

Reto:![](https://static.platzi.com/media/user_upload/image-7b13cff4-76d3-475a-b0b1-fbbd1be6222b.jpg)
Esta muy bueno el curso, y como vamos llevando a la practica cada cosa. No queda todo en el aire o en los slides
Lo siento, soy un hondero jejeje ![](https://static.platzi.com/media/user_upload/image-bb6e8657-15e4-4867-836b-156ad1c137cd.jpg)
Hice esta gráfica con los datos del BMW X6![](https://static.platzi.com/media/user_upload/image-2a099ffb-6edc-4f08-b592-b4c7ce622e45.jpg)

Primero elegí el segmento de ‘suvs’ de la marca BWM:

BMW_df = df[(df['manufacturer_name'] == 'BMW') & (df['body_type'] == 'suv')]

Segundo, agrupe y conté por color buscando el más frecuente en esta marca de autos lujosos:

BMW_df.groupby('color').count()

Este fue el resultado:

![](

Como se espera, el color mas común es el negro o ‘black’.

Tercero, procedí a filtrar solamente estos autos negros

BMW_back_df = BMW_df[(BMW_df['color'] == 'black')]
BMW_back_df

Ahora tengo los BMW, negros y cuya categoría son SUV:

![](

Finalmente me pareció importante saber la cantidad de kilómetros recorridos por cada Modelo, lo cual me arrojo que el modelo X5, no es una buena opción, ya que el auto con más en la sección de SUVs:

sns.displot(BMW_back_df, x='odometer_value', hue = 'model_name', multiple='dodge')

![](

Fin del reto.

Valide si había algún clásico antiguo de lujo , y no.

princeHigh_df = df[df['price_usd'] > 40000]
sns.displot(princeHigh_df,x='price_usd',hue = 'year_produced')

Histograma con los tipos de cuerpo de carros con precio por debajo de los 15000 usd, transmisión mecánica, y de color plata, en función del tipo de ingeniería(gasolina o diésel).
Usé el argumento multiple = “stack” para comparar cuál hay mas de uno que de otro y stat=“frequency” para ver la cantidad de veces que se repite cada uno. Ahí dejo captura… 😃

Mi reto:
Yo uso un Kia Picanto 2017, queria comparar su precio si quisiera venderlo, pero logre constatar que de este modelo no se encuentra en el catalogo:

Filtre por camionetas Q3 pero utilice el codigo Palette para ver mayor diferencia visualmente en los años.

Seleccione la marca “Subaru” y el modelo “Xv”

  • Filtre inicialmente por la marca y el modelo
sb_df = df[(df["manufacturer_name"]=="Subaru" ) & (df["model_name"]=="XV") & (df["transmission"]=="automatic")]
sb_df
  • Grafique con la variable categórica de precio en el eje, haciendo un hue por el año de fabricación, con el parámetro multiple=“dodge” se separan las barras
sns.histplot(sb_df, y="price_usd", bins=7, hue="year_produced", multiple="dodge")

Como conclusiones

  • Hay 5 carros entre 13.000 a 14.000 dólares aproximadamente de los cuales la mayoría fueron fabricados en el 2012

De mi lado escogi el Ford Mustang

Mustang_df= df [(df["manufacturer_name"]=="Ford") & (df["model_name"]=="Mustang")]
Mustang_df
sns.histplot(Mustang_df, x="price_usd", hue ="year_produced")

Aquí mi reto de la clase

Obtuve los datos de los autos VW Golf que fueron porducidos después del 2010. Obtuve la media y la mediana de esos valores y después obtuve el histograma con seaborn del precio con el color de los autos.

El curso de matplotlib y seaborn es muy bueno para entender cómo hacer distintos tipos de grafica

RETO

En mi caso yo me incliné por analizar los modelos Yaris de la marca Toyota.

Q8_df = df[(df['manufacturer_name']=='Toyota')&(df['model_name']=='Yaris')]
sns.histplot(Q8_df, x='price_usd', hue='year_produced')
  • Histograma de precio vs cantidad producidos por año

  • Histograma por tipo de motor

  • Histograma precio segun color

Se filtró por la marca de vehículos Toyota que usan combustible como Diesel. En el grafico se quiso representar la cantidad de autos producida por año, además de estar segmentado por el tipo de transmisión que estos tienen.

<import seaborn as sns
Q7_df = df[(df['manufacturer_name']=='Toyota')&(df['model_name']=='Hilux')]
sns.histplot(Q7_df, x='price_usd', hue='color')> 

Un histograma para el color de autos que estan en estado={propiedad o emergencia}, solo para los que son ‘Subaru’ del modelo ‘Forester’

Una marca que me gusta mucho son los Toyota, y en particular el RAV4, así que decidí hacer de este modelo.

Jugando con el histograma

Para los que tengan problemas porque la leyenda se les superpone en la gráfica y no los deja ver el contenido, les sugiero usar sns.move_lengend() así:

ax = sns.histplot(data=GS_df, x='price_usd', hue='year_produced', multiple='stack')
sns.move_legend(ax, bbox_to_anchor=(1.02, 1), loc='upper left')

Estuve buscando y aparecía que utilizara plt.legend() pero al final desaparecía la leyenda.

Espero les sea útil! 👍

para importar seaborn desde VSC primero hay que instalarlo:

pip install seaborn

y ya con eso importan seaborn como escribe el profe.

Buena clase.

Yo utilicé Subaru Impreza

impresa_df = df[(df['manufacturer_name']=='Subaru') & (df['model_name']=='Impreza')]
sns.histplot(Impresa_df, x='price_usd', hue = 'year_produced')

Acá podemos ver la cantidad de vehículos LADA Vesta por tipo de transmisión y la cantidad de vehículos con transmisión mecánica o automática por año de producción

lada_niva_df =df[(
	df['manufacturer_name']== 'LADA') & 
	(df['model_name']=='Vesta')]

fig, ax = plt.subplots(1,2, figsize=(10,5))
fig.suptitle("Ejemplos medidas de tendencia central")
sns.histplot(
	lada_niva_df, 
	x ='price_usd',
	hue = 'transmisión',
	palette = 'viridis' , 
	ax = ax[0])
sns.histplot(
	lada_niva_df, 
	x ='year_produced',
	hue = 'transmisión', 
	palette = 'viridis', 
	ax=ax[1])
df[df['model_name'] == 'Outback'].loc[:,'price_usd'].plot.hist(bins=10)

Reto

Aquí les dejo la visualización de un modelo que a mi me gusta. También amo los Audi 👌👇

Para que tengan una mejor visualización de la gráfica de displot, agreguen el hyperparametro “height”

sns.displot(df, x = 'price_usd', hue = 'manufacturer_name', height=12); 

Acá el filtro de la marca y modelo que me gusta:

juke_df = df[(df['manufacturer_name']=='Nissan') & (df['model_name']=='Juke')]
sns.histplot(juke_df, x='price_usd', hue = 'year_produced')

Información resumida de esta clase
#EstudiantesDePlatzi

  • Recordemos que la moda es el valor que más se repite

  • El comando describe, me arroja un grupo de datos estadísticos descriptivos necesarios para entender de manera estadística mi dataset

  • Para obtener el promedio utilizo el comando mean y selecciono la columna a la que deseo obtener el promedio

  • Cuando tenemos datos numéricos continuos, es decir, con decimales y queremos ver algo como el diagrama de frecuencia, lo mejor es utilizar una gráfica de histograma

  • Con el histograma puedo ver si existen datos atípicos que puedan afectar él mean

  • Seaborn es una librería con enfoque en la estadística

  • Es importante tener claro que el objetivo de una gráfica es que nos muestre información clara y nada confusa

  • Hacer conteo de datos es una manera de hacer estadística descriptiva

  • Con el comando groupby puedo agrupar los datos que yo desee, siempre y cuando esta sea una columna categórica

  • La estadística descriptiva no son solo números, son visualizaciones

Mi reto: Quería ver la distribución del precio de los Porsche Cayenne que se construyeron del 2010 en adelante.

Porsche_df = df[(df['manufacturer_name']=='Porsche') & (df['model_name']=='Cayenne') & (df['year_produced'] > 2009)]
sns.histplot(Porsche_df, x = 'price_usd', hue = 'year_produced') 

RETO

La verdad no tengo idea de carros, pero los agrupé por colores. 😃

  • Cuantos carros de modelo Legacy y de frabricante Sabaru EXISTEN?
Qme_df = df[ (df['manufacturer_name'] == 'Subaru')  & (df['model_name'] == 'Legacy') ]

Grfica

sns.displot(data=Qme_df, x='price_usd', hue= 'color');

Realice este diagrama discriminando sólo los BMW que fueron producidos después de 2012:

bmw_df = df[(df['manufacturer_name']=='BMW') & (df['year_produced']>=2012)]

Una pregunta ¿Cómo hago que la caja de viñetas salga a un lado o más pequeña?

reto

En mi caso quise filtrar los autos marca Toyota, sin embargo no conocía que modelos estaban en el data frame. Lo primero fue un breve filtro para conocer los modelos de Toyota los datos:

pd.unique(df[df['manufacturer_name']=='Toyota']['model_name'])

Una vez conociendo los modelos decidi conocer los precios del modelo Hilux

hilux_df = df[(df['manufacturer_name']=='Toyota')&(df['model_name']=='Hilux')]
sns.histplot(hilux_df, x='price_usd', hue='year_produced')
plt.show()

En conclusión las Hilux entre el año 2012-2015 varian en un rango de precio entre USD 25.000 y USD 35.000

Reto
Escogí el Mercedez-Benz Sprinter y pude observar que mientras el año de producción es más reciente, su precio es más caro.

#Mercedez Benz | model: "Sprinter"
sprinter_mb = df_mercedez[df_mercedez.model_name == 'Sprinter']
#Canvas
fig = plt.figure()
#Axes
ax = fig.add_axes([0, 0, 2, 1.5])
#Histogram
ax = sns.histplot(data=sprinter_mb, x='price_usd', hue='year_produced', multiple='stack', palette='coolwarm')
ax.set_title('Price of Mercedez-Benz Splinter')
fig.set_facecolor('#FFFFCB')
fig.show()

El Reto…

Como tengo un humilde optra (lacetti en el resto del mundo) quise consultar su precio en la base…

Lo hice con kia es una marca que me gusta

me gusto mucho el resultado

RETO: El modelo que decido estudiar es el RAV4 de Toyota, por lo que hago el filtrado por este modelo

Pero a la hora de filtrar me topo con un problema 🤯

La leyenda es demasiado grande. Pero recuerdo que estoy buscando un auto que sea mayor al año 2010, por lo que aplico otro filtro.

Este me regresa una gráfica que se ajusta más a mi búsqueda.

Pero aún no es lo que necesito, quiero además que su color sea negro y que sea automático

Lo cual me indica que el auto Toyota RAV4 que debo comprar automático color negro se encuentra entre un rango de 1800$ a 2000$ y que sería del año 2014 o 2015.

Muy buena clase!

Solución al reto:

Vaya clase! muy buena y el profesor muy claro en la explicación

Hola!

Yo lo hice con el Volkswagen jetta

En lo personal me gustan los carros eléctricos, por lo que filtré para encontrar estos:

electric_df = df[df["engine_fuel"]=="electric"]
sns.histplot(electric_df, x="price_usd", hue="manufacturer_name");

Ahora, para comparar los precios:

non_electric_df = df[df["engine_fuel"]!="electric"]
print(f"Precio medio carros eléctricos: {electric_df['price_usd'].mean()} dólares")
print(f"Precio medio carros no-eléctricos: {non_electric_df['price_usd'].mean()} dólares")

Se observa claramente que los eléctricos, en promedio son más costosos. Aunque claro, como vimos puede que exista un sesgo. Y 10 muestras de automóviles eléctricos son muy pocos.

'histograma de marca de auto y modelo de auto que a mi me interese'
volkswagen_df=df.query('manufacturer_name=="Volkswagen" and (model_name=="Passat" or model_name=="Jetta") and year_produced>=2010')
sns.histplot(volkswagen_df, x='price_usd', hue='model_name')

Reto
Incluí la librería matplotlib para que no se amontonaran las leyendas y busque por el BMW 320 que me gusta

BMW_df = df[(df['manufacturer_name']=='BMW') & (df['model_name']=='320')]
sns.histplot(BMW_df, x='price_usd', hue = 'year_produced', palette = 'flare')
plt.legend(df['year_produced'],bbox_to_anchor=(1.25,0.5))

Comparto mi reto
Al ser alto me gustan los autos espaciosos, así que opte por buscar SUV’s que tengan transmisión automática y un motor 1.8 que sea cómodo para viajar por ruta 😃

autaco = df[
    (df['transmission']=='automatic') & 
    (df['body_type'] > 'suv') & 
    (df['engine_capacity'] == 1.8)]

plt.figure(figsize=(10,10))

sns.histplot(data=autaco, x='price_usd' ,y='year_produced',hue='manufacturer_name', multiple='dodge')

Asi me quedo la investigacion

No se mucho de autos asi que escogi el modelo mas comun, Toyota RAV4, pero al graficas se genero una sobreposicion de la leyenda asi q busque en la documentacion como arreglar eso y pues se ve mas limpio con esa linea extra

En mi caso quise analizar cuántas unidades del Porsche Cayenne tienen transmisión manual o automática para confirmar si con el paso de los años existe una reducción en las transmisiones manuales en la gama de autos semi lujo.

Porsche_df = df[(df['manufacturer_name']=='Porsche') & (df['model_name']=='Cayenne')]
sns.histplot(Porsche_df, x='year_produced', hue='transmission')

Sin embargo, al analizar los datos nos damos cuenta de que a lo largo de los años ofrecidos en nuestro data set de datos usados solamente contamos con transmisiones automáticas, lo cual confirma la tendencia del mercado al no uso frecuente de transmisiones manuales en esta gama de autos.

Como a mi me gustan librerias un poco mas interactivas, y que vi en un curso en otra plataforma. Realice el proceso haciendo uso de la libreria de plotly.express
En esencia son las mismas graficas hechas por la mayoria de los compañeros, pero con colores mas vistosos y que ademas se permite interactuar con las graficas, ya que al pasar el cursor del raton por las graficas te indica los valores de cada punto. Tambien puedes acercar un lugar exacto de la grafica, en fin, es mejor la interaccion.

Para el reto escogí los Subaru Outback, aquí el código:

<Subaru_df = df[(df['manufacturer_name']=='Subaru') & (df['model_name']=='Outback')]
sns.histplot(Subaru_df, x='price_usd', hue = 'year_produced')>