Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Estadística descriptiva aplicada: medidas de tendencia central

10/28
Recursos

Aportes 36

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Si al utilizar la funcion mean() sobre todo el dataset python les eleva una advertencia, esto puedo deberse a que hay colomnas que no son numericas, para evitar esta advertencia prueba con

df.mean( numeric_only = True )

En la media ponderada se asigna un peso (importancia) a cada valor.
La media armonica es el promedio de los reciprocos (seria 1/x donde hay un X) y no puede haber nulos.
La media geometrica es la raiz n del producto de los n numeros y deben los numeros ser positivos.
Espero haber encontrado bien la informacion y haber hecho un resumen claro.

Estadistica Descriptiva Aplicada

  • Promedio de una variable usando pandas
data_frame.variable.mean()
  • Promedio de una variable usando numpy
np.mean(data_frame.variable)
  • Promedio para todas las variables numericas de un df
data_frame.mean()
  • Mediana para todas las variables numericas del df
data_frame.median()
  • La moda se puede obtener para las variables tanto categoricas como numericas del df
data_frame.mode()
  • Información estadísticas de las variables categóricas
preprocessed_penguins_df.describe(include='object')

Media ponderada: Para calcular la media ponderada hay que asignar un peso a los distintos valores que se van a tomar para obtener dicha media. La suma de todos los valores por sus pesos se divide finalmente por la suma de todos los pesos y se obtiene la media ponderada.
Media armónica: es el recíproco de la media aritmética. Se calcula como el número total de observaciones dividido por la suma de los recíprocos.
Media geométrica es un tipo de media que se calcula como la raíz del producto de un conjunto de números estrictamente positivos.

  1. Para un reparto equitativo puede utilizarse la media aritmética o promedio.
  2. La media ponderada es una media de centralización que da una importancia distinta a cada uno de los valores sobre los que se calcula la media. Se usa para el cálculo de notas de una asignatura y para el IPC
  3. La media geométrica es la raíz n-ésima del producto de todos los números. Se emplea para promediar porcentajes, índices y cifras relativas
  4. La media armónica es el recíproco de la media aritmética. Es muy utilizada en el campo de la electrónica y también para promediar múltiplos o cocientes, como en las operaciones bursátiles.
    Espero que sea útil mi aporte. Saludos.

Investigue un poco…
Media ponderada.
la media ponderada es parecida a la media pero a cada valor le corresponde un peso por el cual se multiplica, y asi se le da mayor o menor importancia segun su peso, luego se suman todos los valores poderados y se dividen por el numero de elementos.

Media armonica.
Es el reciproco de la media aritmética (la media de toda la vida), para calcularla, se halla el numero total de elementos, este numero se divide por la suma de todos los reciprocos de estos numeros, si por ejemplo tengo los numeros 2,3,4 sus reciprocos son 1/2, 1/3,1/4 respectivamente, sumados dan 13/12, la media armonica seria entonces 3 / (13/12) donde 3 es el numero de elementos.
.
Por ultimo,
La media geometrica
Se calcula multiplicando todos los numeros y sacando la raiz del numero de elementos.

Por ejemplo con 1,3 y 9 se calcula de esta forma:

Realmente no me gusta deep note, siento que es muy lento

La media ponderada es un tipo de media que otorga diferentes pesos a los distintos valores sobre los que se calcula

Además de la media, la mediana y la moda, existen otras medidas de tendencia central que también pueden ser útiles en diferentes contextos. Algunas de estas medidas son:


Percentiles:

  • Los percentiles dividen un conjunto de datos en 100 partes iguales.
  • El percentil P indica el valor por debajo del cual caen P por ciento de las observaciones.
  • Por ejemplo, el percentil 25 indica el valor por debajo del cual caen el 25 por ciento de las observaciones.

Cuartiles:

  • Los cuartiles dividen un conjunto de datos en cuatro partes iguales.
  • El primer cuartil (Q1) es el valor por debajo del cual caen el 25 por ciento de las observaciones,
  • El segundo cuartil es la mediana (Q2) y
  • El tercer cuartil (Q3) es el valor por debajo del cual caen el 75 por ciento de las observaciones.

Deciles:

Los deciles dividen un conjunto de datos en 10 partes iguales.

  • El primer decil (D1) es el valor por debajo del cual caen el 10 por ciento de las observaciones
  • El segundo decil (D2) es el valor por debajo del cual caen el 20 por ciento de las observaciones, y así sucesivamente.

¿Cómo podrías distribuir equitativamente los cuadros dentro de cada bloque?

Sumaría los cuadros de cada bloque: 7+5+6+2 = 20, y los dividimos sobre la cantidad de bloques: 20/4 = 5. Es decir, que se distribuirían 5 cuadros en cada bloque.

Lo que terminaría siendo una media o promedio 😊

La media ponderada o media aritmética ponderada es una media de centralización que da una importancia distinta a cada uno de los valores sobre los que se calcula la media. En una media ponderada cada valor se multiplica por un peso, y el total es dividido por la suma de los pesos.

En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números es la raíz n-ésima del producto de todos los números; es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índice

La media armónica (designada usualmente mediante H) de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.

Media geométrica (MG)
Se cálcula cómo, la raíz n, del producto de n números positivos. Se utiliza para cálcular la media de porcentajes o índices, comúnmente en negocios y finanzasc:

Simplemente tomando todos los cuadritos y sumandolos, luego los divido por la cantidad de bloques.

10. Estadística descriptiva aplicada: medidas de tendencia central

Medidas de tendencia central

  • Media (promedio).
  • Mediana (dato central).
  • Moda (dato que más se repite).
  • Media ponderada.
  • Media armónica.
  • Media geométrica.

Que curso tan espectacular

Aveces el valor de la mediana es mejor que la media para análisis descriptivos; esto cuando la distribución de los datos tiene muchos valores anómalos, lo que causa un sesgo en la media mientras que en la mediana no ~

Media ponderada

Medida de tendencia central y tipo de media, dónde, cada uno de los valores de una variable se multiplica por un peso y la sumatoria se divide por el total de esos pesos.

Ponderar: Atribuir un detrminado valor a cada uno de los elementos de una variable segun su importancia relativa dentro del conjunto.

Que buen curso la verdad!!
en cada bloque quedan 5
* **Media Ponderada**: Se usa cuando cada valor tiene un peso diferente. Útil en casos como notas con diferentes créditos. * **Media Armónica**: Se usa para promediar ratios o tasas. Útil en casos como velocidades. * **Media Geométrica**: Se usa para calcular el promedio de tasas de crecimiento. Útil en casos como tasas de retorno de inversiones. Cada tipo de media tiene sus propias aplicaciones y se usa en contextos específicos según la naturaleza de los datos y el propósito del análisis.
Respuesta de Copilot: Claro, aquí tienes una tabla con la explicación sencilla, la fórmula matemática y ejemplos de uso para la media ponderada, la media armónica y la media geométrica: Medida de Tendencia CentralExplicación SencillaFórmula MatemáticaEjemplo de Uso**Media Ponderada**Es un promedio que tiene en cuenta la importancia relativa de cada valor. \bar{x} = \frac{\sum\_{i=1}^{n} w\_i x\_i}{\sum\_{i=1}^{n} w\_i}xˉ=∑i=1n​wi​∑i=1n​wi​xi​​ Si tienes calificaciones en diferentes asignaturas con diferente crédito o peso, puedes usar la media ponderada para calcular tu promedio general.**Media Armónica**Es el recíproco del promedio de los recíprocos de los valores. Útil cuando los valores son tasas o velocidades. H = \frac{n}{\sum\_{i=1}^{n} \frac{1}{x\_i}}H=∑i=1n​xi​1​n​ Si quieres encontrar el promedio de velocidades, por ejemplo, el promedio de velocidad en un viaje de ida y vuelta.**Media Geométrica**Es la raíz n-ésima del producto de n números. Útil para promediar factores de crecimiento. G = \sqrt\[n]{\prod\_{i=1}^{n} x\_i}G=ni=1∏n​xi​​ Si tienes tasas de crecimiento anual para una inversión y quieres encontrar la tasa promedio de crecimiento por año. Espero que esta tabla te sea útil y clara. Si necesitas más información o ejemplos, no dudes en preguntar.
Este será un comentario muy personal, pero no he podido avanzar hace una semana, así que intentaré terminar este curso antes de irme a dormir.
Hola! Para distribuir equitativamente los cuadros dentro de cada bloque, usaría el promedio o medio, donde seria 5 cuadros por cada bloque.

Es interesante usar datos de estadistica descriptiva en los datos de dataset. Es algo que si queria aprender. tenia la base pero ahora con la data esto es interesante.

Como no me expecifican pesos de cada recuadro o demas, simplemente sumaria la cantida de cuadros pequeños y los dividiria por 4 y asi lo haria equitativamente

Me parece que las variables cualitativas no tienen medidas de posición central, sí se describen con la frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa, frecuencia relativa acumulada, porcentaje, y angulo (para hacer un diagrama sectorial, cuando unique es pequeño)

Tuve que hacer un nuevo dataframe

Media ponderada
Es util para conocer el promedio(por eso es una media) dentro de unos valores a los cuales se le asignan pesos.
por ejemplo:
imagina que tienes en casa unos alimentos.
y quieres saber cual es el promedio de que duren los alimentos.
entonces:
papa = 2 y duracion (10 dias)
cebolla = 3, duracion (2 dias)
zanahoria = 4, duracion (4 dias)
realizas la formula:
[(2(10)) + (3(2)) + (4(4))] / [10 + 2 + 4] =
[10 + 6 + 16] / 16 = 32/16 = 2 dias.
este es el promedio de duracion de tus productos en casa.
por lo que vemos, es útil cuando se quiere conocer según la relevancia de una variable su promedio.

Media armonica
Es una media que te devuelve un resultado promedio considerando los valores mas pequeños que tienes.
es util en finanzas si quieres conocer el rendimiento de una inversión a corto, media y largo plazo.
esta media armonica es muy sensible a datos atipicos.
por lo que su uso es muy especifico cuando se quiere conocer la influencia de valores pequeños en tu base de datos.
en un ejemplo de inversión:
digamos que yo tengo 6 empresas donde quiero invertir y deseo evaluarlas para conocer (NO SU RENDIMIENTO) sino mi promedio de rentabilidad.
y entonces, el valor de las empresas son (10 USD, 15USD, 40USD,50USD,100USD,200USD).
la operacion seria:
Media armonica = 6 / (1/10,1/15,1/40/,1/40,1/50,1/100/,1/200) =

Media armonica = 10 / 0.1 + 0.6 + 0.025 + 0.02 + 0.01 + 0.005 = 6/0.76 = 7.89USD

Media Exponensial
Es una media que te brinda el promedio de crecimiento de un valor comparandolo con el anterior.
si quieres que esta media crezca rapidamente entonces pones a alpha cercano a 1 y si quieres que crezca lento lo pones cercano a 0.
yo creo que es util dependiendo el contexto.
es decir:
quieres que aumenten tus ingresos.
entonces, pon un valor cercano a 1.
y siquieres que disminuyan tus gastos pues pon un valor cercano a 0.

entonces.
una Media Exponensial en teoria es un promedio que te calcula el crecimiento en promedio exponencial de un caso especifico.

su formula es:
EMAt = VALORt x alpha + EMAt-1 x(1 - alpha)

donde:
valort = es el tiempo actual.
EMAt = es el valor exponencial en el periodo anterior.
alpha = valor suavizado entre 0 y 1.

entonces.
tu haces la formula y si te dice.
queremos crecer un 60%.
entonces, pones a alpha como 0.60 = cercano a 1.
y queremos disminuir los costos un 30 porciento.

alpha = 0.30
entonces, ahi

Bonitos y gorditos muchachos.

Como la suma de todos los cuadros es 20, saco la media que es 20/4=5, entonces los que tienen más le dan a quien tiene menos, el que es igual a la media no se toca, donde hay 7 se sacan 2 para que tenga 5, y la que tiene 6 se le quita 1, y estas 3 se le agrega a la que tiene 2.

Creo que faltó la descripción de todas las variables numéricas en cuanto a medidas de tendencia central.

penguin_df.describe(include=float)

que geniaaaal el boton de pausa la clase, lo eh visto en pocos cursos, me encantaa

Media y mediana recortada o truncada. Para evitar afectaciones por outliers.

sumandolos todos los cuadros y luego dividiendo entre los 4 bloques