Si al utilizar la funcion mean() sobre todo el dataset python les eleva una advertencia, esto puedo deberse a que hay colomnas que no son numericas, para evitar esta advertencia prueba con
df.mean( numeric_only = True )
Introducción al análisis exploratorio de datos
¿Qué es y para qué sirve el análisis exploratorio de datos?
¿Cómo hacer un análisis exploratorio de datos?
Tipos de análisis de datos
Tipos de datos y análisis de variables
Herramientas de software para el análisis exploratorio de datos
Conociendo nuestros datos: palmerpenguins
Recolección de datos, limpieza y validación
Ejercicio de validación de datos
Quiz: Introducción al análisis exploratorio de datos
Análisis univariado
Explorando una variable categórica: conteos y proporciones
Estadística descriptiva aplicada: medidas de tendencia central
Estadística descriptiva aplicada: medidas de dispersión
Ejercicio de obtención de medidas de dispersión
Estadística descriptiva aplicada: distribuciones
Estadística descriptiva aplicada: funciones de densidad de probabilidad
Bonus: Teorema del límite central
Quiz: Análisis univariado
Análisis bivariado
Estableciendo relaciones: gráficos de puntos
Estableciendo relaciones: gráficos de violín y boxplots
Estableciendo relaciones: matrices de correlación
Limitantes de los coeficientes de correlación lineal
Estableciendo relaciones: análisis de regresión simple
Limitaciones del análisis de regresión simple
Quiz: Análisis bivariado
Análisis multivariado
Análisis de regresión múltiple
Visualización del análisis de regresión múltiple
Análisis de regresión logística
Paradoja de Simpson
¿Qué hacer cuando tengo muchas variables?
Quiz: Análisis multivariado
Conclusiones
Diversidad de gráficas al explorar datos
Continúa aprendiendo sobre EDA
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Jesús Vélez Santiago
Aportes 36
Preguntas 1
Si al utilizar la funcion mean() sobre todo el dataset python les eleva una advertencia, esto puedo deberse a que hay colomnas que no son numericas, para evitar esta advertencia prueba con
df.mean( numeric_only = True )
En la media ponderada se asigna un peso (importancia) a cada valor.
La media armonica es el promedio de los reciprocos (seria 1/x donde hay un X) y no puede haber nulos.
La media geometrica es la raiz n del producto de los n numeros y deben los numeros ser positivos.
Espero haber encontrado bien la informacion y haber hecho un resumen claro.
data_frame.variable.mean()
np.mean(data_frame.variable)
data_frame.mean()
data_frame.median()
data_frame.mode()
preprocessed_penguins_df.describe(include='object')
Media ponderada: Para calcular la media ponderada hay que asignar un peso a los distintos valores que se van a tomar para obtener dicha media. La suma de todos los valores por sus pesos se divide finalmente por la suma de todos los pesos y se obtiene la media ponderada.
Media armónica: es el recíproco de la media aritmética. Se calcula como el número total de observaciones dividido por la suma de los recíprocos.
Media geométrica es un tipo de media que se calcula como la raíz del producto de un conjunto de números estrictamente positivos.
Investigue un poco…
Media ponderada.
la media ponderada es parecida a la media pero a cada valor le corresponde un peso por el cual se multiplica, y asi se le da mayor o menor importancia segun su peso, luego se suman todos los valores poderados y se dividen por el numero de elementos.
Media armonica.
Es el reciproco de la media aritmética (la media de toda la vida), para calcularla, se halla el numero total de elementos, este numero se divide por la suma de todos los reciprocos de estos numeros, si por ejemplo tengo los numeros 2,3,4 sus reciprocos son 1/2, 1/3,1/4 respectivamente, sumados dan 13/12, la media armonica seria entonces 3 / (13/12) donde 3 es el numero de elementos.
.
Por ultimo,
La media geometrica
Se calcula multiplicando todos los numeros y sacando la raiz del numero de elementos.
Por ejemplo con 1,3 y 9 se calcula de esta forma:
Realmente no me gusta deep note, siento que es muy lento
La media ponderada es un tipo de media que otorga diferentes pesos a los distintos valores sobre los que se calcula
Además de la media, la mediana y la moda, existen otras medidas de tendencia central que también pueden ser útiles en diferentes contextos. Algunas de estas medidas son:
Los deciles dividen un conjunto de datos en 10 partes iguales.
¿Cómo podrías distribuir equitativamente los cuadros dentro de cada bloque?
Sumaría los cuadros de cada bloque: 7+5+6+2 = 20, y los dividimos sobre la cantidad de bloques: 20/4 = 5. Es decir, que se distribuirían 5 cuadros en cada bloque.
Lo que terminaría siendo una media o promedio 😊
La media ponderada o media aritmética ponderada es una media de centralización que da una importancia distinta a cada uno de los valores sobre los que se calcula la media. En una media ponderada cada valor se multiplica por un peso, y el total es dividido por la suma de los pesos.
En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números es la raíz n-ésima del producto de todos los números; es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índice
La media armónica (designada usualmente mediante H) de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.
Media geométrica (MG)
Se cálcula cómo, la raíz n, del producto de n números positivos. Se utiliza para cálcular la media de porcentajes o índices, comúnmente en negocios y finanzasc:
Simplemente tomando todos los cuadritos y sumandolos, luego los divido por la cantidad de bloques.
Medidas de tendencia central
Que curso tan espectacular
Aveces el valor de la mediana
es mejor que la media
para análisis descriptivos; esto cuando la distribución de los datos tiene muchos valores anómalos, lo que causa un sesgo en la media mientras que en la mediana no ~
Media ponderada
Medida de tendencia central y tipo de media, dónde, cada uno de los valores de una variable se multiplica por un peso y la sumatoria se divide por el total de esos pesos.
Ponderar: Atribuir un detrminado valor a cada uno de los elementos de una variable segun su importancia relativa dentro del conjunto.
Es interesante usar datos de estadistica descriptiva en los datos de dataset. Es algo que si queria aprender. tenia la base pero ahora con la data esto es interesante.
Me parece que las variables cualitativas no tienen medidas de posición central, sí se describen con la frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa, frecuencia relativa acumulada, porcentaje, y angulo (para hacer un diagrama sectorial, cuando unique es pequeño)
Media ponderada
Es util para conocer el promedio(por eso es una media) dentro de unos valores a los cuales se le asignan pesos.
por ejemplo:
imagina que tienes en casa unos alimentos.
y quieres saber cual es el promedio de que duren los alimentos.
entonces:
papa = 2 y duracion (10 dias)
cebolla = 3, duracion (2 dias)
zanahoria = 4, duracion (4 dias)
realizas la formula:
[(2(10)) + (3(2)) + (4(4))] / [10 + 2 + 4] =
[10 + 6 + 16] / 16 = 32/16 = 2 dias.
este es el promedio de duracion de tus productos en casa.
por lo que vemos, es útil cuando se quiere conocer según la relevancia de una variable su promedio.
Media armonica
Es una media que te devuelve un resultado promedio considerando los valores mas pequeños que tienes.
es util en finanzas si quieres conocer el rendimiento de una inversión a corto, media y largo plazo.
esta media armonica es muy sensible a datos atipicos.
por lo que su uso es muy especifico cuando se quiere conocer la influencia de valores pequeños en tu base de datos.
en un ejemplo de inversión:
digamos que yo tengo 6 empresas donde quiero invertir y deseo evaluarlas para conocer (NO SU RENDIMIENTO) sino mi promedio de rentabilidad.
y entonces, el valor de las empresas son (10 USD, 15USD, 40USD,50USD,100USD,200USD).
la operacion seria:
Media armonica = 6 / (1/10,1/15,1/40/,1/40,1/50,1/100/,1/200) =
Media armonica = 10 / 0.1 + 0.6 + 0.025 + 0.02 + 0.01 + 0.005 = 6/0.76 = 7.89USD
Media Exponensial
Es una media que te brinda el promedio de crecimiento de un valor comparandolo con el anterior.
si quieres que esta media crezca rapidamente entonces pones a alpha cercano a 1 y si quieres que crezca lento lo pones cercano a 0.
yo creo que es util dependiendo el contexto.
es decir:
quieres que aumenten tus ingresos.
entonces, pon un valor cercano a 1.
y siquieres que disminuyan tus gastos pues pon un valor cercano a 0.
entonces.
una Media Exponensial en teoria es un promedio que te calcula el crecimiento en promedio exponencial de un caso especifico.
su formula es:
EMAt = VALORt x alpha + EMAt-1 x(1 - alpha)
donde:
valort = es el tiempo actual.
EMAt = es el valor exponencial en el periodo anterior.
alpha = valor suavizado entre 0 y 1.
entonces.
tu haces la formula y si te dice.
queremos crecer un 60%.
entonces, pones a alpha como 0.60 = cercano a 1.
y queremos disminuir los costos un 30 porciento.
alpha = 0.30
entonces, ahi
Bonitos y gorditos muchachos.
Como la suma de todos los cuadros es 20, saco la media que es 20/4=5, entonces los que tienen más le dan a quien tiene menos, el que es igual a la media no se toca, donde hay 7 se sacan 2 para que tenga 5, y la que tiene 6 se le quita 1, y estas 3 se le agrega a la que tiene 2.
Creo que faltó la descripción de todas las variables numéricas en cuanto a medidas de tendencia central.
penguin_df.describe(include=float)
que geniaaaal el boton de pausa la clase, lo eh visto en pocos cursos, me encantaa
Media y mediana recortada o truncada. Para evitar afectaciones por outliers.
sumandolos todos los cuadros y luego dividiendo entre los 4 bloques
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?