Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Estadística descriptiva aplicada: medidas de tendencia central

10/28
Recursos

Aportes 23

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

En la media ponderada se asigna un peso (importancia) a cada valor.
La media armonica es el promedio de los reciprocos (seria 1/x donde hay un X) y no puede haber nulos.
La media geometrica es la raiz n del producto de los n numeros y deben los numeros ser positivos.
Espero haber encontrado bien la informacion y haber hecho un resumen claro.

Media ponderada: Para calcular la media ponderada hay que asignar un peso a los distintos valores que se van a tomar para obtener dicha media. La suma de todos los valores por sus pesos se divide finalmente por la suma de todos los pesos y se obtiene la media ponderada.
Media armónica: es el recíproco de la media aritmética. Se calcula como el número total de observaciones dividido por la suma de los recíprocos.
Media geométrica es un tipo de media que se calcula como la raíz del producto de un conjunto de números estrictamente positivos.

Estadistica Descriptiva Aplicada

  • Promedio de una variable usando pandas
data_frame.variable.mean()
  • Promedio de una variable usando numpy
np.mean(data_frame.variable)
  • Promedio para todas las variables numericas de un df
data_frame.mean()
  • Mediana para todas las variables numericas del df
data_frame.median()
  • La moda se puede obtener para las variables tanto categoricas como numericas del df
data_frame.mode()
  • Información estadísticas de las variables categóricas
preprocessed_penguins_df.describe(include='object')

Si al utilizar la funcion mean() sobre todo el dataset python les eleva una advertencia, esto puedo deberse a que hay colomnas que no son numericas, para evitar esta advertencia prueba con

df.mean( numeric_only = True )
  1. Para un reparto equitativo puede utilizarse la media aritmética o promedio.
  2. La media ponderada es una media de centralización que da una importancia distinta a cada uno de los valores sobre los que se calcula la media. Se usa para el cálculo de notas de una asignatura y para el IPC
  3. La media geométrica es la raíz n-ésima del producto de todos los números. Se emplea para promediar porcentajes, índices y cifras relativas
  4. La media armónica es el recíproco de la media aritmética. Es muy utilizada en el campo de la electrónica y también para promediar múltiplos o cocientes, como en las operaciones bursátiles.
    Espero que sea útil mi aporte. Saludos.

Investigue un poco…
Media ponderada.
la media ponderada es parecida a la media pero a cada valor le corresponde un peso por el cual se multiplica, y asi se le da mayor o menor importancia segun su peso, luego se suman todos los valores poderados y se dividen por el numero de elementos.

Media armonica.
Es el reciproco de la media aritmética (la media de toda la vida), para calcularla, se halla el numero total de elementos, este numero se divide por la suma de todos los reciprocos de estos numeros, si por ejemplo tengo los numeros 2,3,4 sus reciprocos son 1/2, 1/3,1/4 respectivamente, sumados dan 13/12, la media armonica seria entonces 3 / (13/12) donde 3 es el numero de elementos.
.
Por ultimo,
La media geometrica
Se calcula multiplicando todos los numeros y sacando la raiz del numero de elementos.

Por ejemplo con 1,3 y 9 se calcula de esta forma:

¿Cómo podrías distribuir equitativamente los cuadros dentro de cada bloque?

Sumaría los cuadros de cada bloque: 7+5+6+2 = 20, y los dividimos sobre la cantidad de bloques: 20/4 = 5. Es decir, que se distribuirían 5 cuadros en cada bloque.

Lo que terminaría siendo una media o promedio 😊

La media ponderada o media aritmética ponderada es una media de centralización que da una importancia distinta a cada uno de los valores sobre los que se calcula la media. En una media ponderada cada valor se multiplica por un peso, y el total es dividido por la suma de los pesos.

En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números es la raíz n-ésima del producto de todos los números; es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índice

La media armónica (designada usualmente mediante H) de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.

La media ponderada es un tipo de media que otorga diferentes pesos a los distintos valores sobre los que se calcula

Media geométrica (MG)
Se cálcula cómo, la raíz n, del producto de n números positivos. Se utiliza para cálcular la media de porcentajes o índices, comúnmente en negocios y finanzasc:

Simplemente tomando todos los cuadritos y sumandolos, luego los divido por la cantidad de bloques.

Además de la media, la mediana y la moda, existen otras medidas de tendencia central que también pueden ser útiles en diferentes contextos. Algunas de estas medidas son:


Percentiles:

  • Los percentiles dividen un conjunto de datos en 100 partes iguales.
  • El percentil P indica el valor por debajo del cual caen P por ciento de las observaciones.
  • Por ejemplo, el percentil 25 indica el valor por debajo del cual caen el 25 por ciento de las observaciones.

Cuartiles:

  • Los cuartiles dividen un conjunto de datos en cuatro partes iguales.
  • El primer cuartil (Q1) es el valor por debajo del cual caen el 25 por ciento de las observaciones,
  • El segundo cuartil es la mediana (Q2) y
  • El tercer cuartil (Q3) es el valor por debajo del cual caen el 75 por ciento de las observaciones.

Deciles:

Los deciles dividen un conjunto de datos en 10 partes iguales.

  • El primer decil (D1) es el valor por debajo del cual caen el 10 por ciento de las observaciones
  • El segundo decil (D2) es el valor por debajo del cual caen el 20 por ciento de las observaciones, y así sucesivamente.

Que curso tan espectacular

Aveces el valor de la mediana es mejor que la media para análisis descriptivos; esto cuando la distribución de los datos tiene muchos valores anómalos, lo que causa un sesgo en la media mientras que en la mediana no ~

Realmente no me gusta deep note, siento que es muy lento

Media ponderada

Medida de tendencia central y tipo de media, dónde, cada uno de los valores de una variable se multiplica por un peso y la sumatoria se divide por el total de esos pesos.

Ponderar: Atribuir un detrminado valor a cada uno de los elementos de una variable segun su importancia relativa dentro del conjunto.

Como la suma de todos los cuadros es 20, saco la media que es 20/4=5, entonces los que tienen más le dan a quien tiene menos, el que es igual a la media no se toca, donde hay 7 se sacan 2 para que tenga 5, y la que tiene 6 se le quita 1, y estas 3 se le agrega a la que tiene 2.

Creo que faltó la descripción de todas las variables numéricas en cuanto a medidas de tendencia central.

penguin_df.describe(include=float)

que geniaaaal el boton de pausa la clase, lo eh visto en pocos cursos, me encantaa

10. Estadística descriptiva aplicada: medidas de tendencia central

Medidas de tendencia central

  • Media (promedio).
  • Mediana (dato central).
  • Moda (dato que más se repite).
  • Media ponderada.
  • Media armónica.
  • Media geométrica.

Media y mediana recortada o truncada. Para evitar afectaciones por outliers.

sumandolos todos los cuadros y luego dividiendo entre los 4 bloques