Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

12 Días
8 Hrs
1 Min
38 Seg

Tipos de datos y análisis de variables

4/28
Recursos

Aportes 17

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Tipos de Datos Y Análisis de variables

Tipos de análisis:

  • Análisis Univariado: analiza a cada variable por separado, entender sus característica.
  • Análisis Bivariado: analiza la relacion de cada par de variables. Permite buscar relaciones intrinsecas entre los datos
  • Análisis Multivariado: analiza el efecto simultaneo de multiples variables. Analiza la variables como un conjunto

En el comienzo de la EDA, el análisis univariado te va a dar informacion mucho mas valiosa que comenzar con todas las variables al mismo tiempo. Te ayuda a analizar la contribución individual de una variable sobre las demas para luego incrementar la cantidad de variables y analizar los efectos en conjunto.

Cualitativos

Categóricos

Este tipo de datos representa las características de un objeto; por ejemplo, género, estado civil, tipo de dirección o categorías de las películas. Estos datos a menudo se denominan conjuntos de datos cualitativos en estadística.

Una variable que describe datos categóricos se denomina variable categórica. Estos tipos de variables pueden tener uno de un número limitado de valores. Es más fácil para los estudiantes de informática entender los valores categóricos como tipos enumerados o enumeraciones de variables. Hay diferentes tipos de variables categóricas:

  • Ordinal

    En las escalas ordinales, el orden de los valores es un factor significativo.

    Una encuesta donde se me muestran 5 valores y debo de escoger uno de ellos

  • Nominal

    Estos se practican para etiquetar variables sin ningún valor cuantitativo. Las escalas se conocen generalmente como etiquetas. Y estas escalas son mutuamente excluyentes y no tienen ninguna importancia numérica. Veamos algunos ejemplos:

    Genero, los idiomas que se hablan en un país en particular, Especies biológicas, Partes de la oración en gramática, Rangos taxonómicos en biología
    Las escalas nominales se consideran escalas cualitativas y las medidas se toman utilizando las escalas cualitativas.

    Ejemplo, podría ser una escala para evaluar, de cinco valores ordinales diferentes: totalmente de acuerdo / de acuerdo / neutral / en desacuerdo / totalmente en desacuerdo.
    Este tipo de escala son llamadas Likert., para este tipo de datos, se permite aplicar la mediana como medida de tendencia central; sin embargo, el promedio no esta permitido.

  • Interval

    En las escalas de intervalo, tanto el orden como las diferencias exactas entre los valores son significativos. Las escalas de intervalo se utilizan ampliamente en estadística, por ejemplo, en la medida de las tendencias centrales: media, mediana, moda y desviaciones estándar. Los ejemplos incluyen la ubicación en coordenadas cartesianas y la dirección medida en grados desde el norte magnético. La media, la mediana y la moda están permitidas en datos de intervalo.

  • Ratio

    Contienen orden, valores exactos y cero absoluto, lo que permite su uso en estadísticas descriptivas e inferenciales. Estas escalas ofrecen numerosas posibilidades para el análisis estadístico. Las operaciones matemáticas, la medida de las tendencias centrales y la medida de la dispersión y el coeficiente de variación también se pueden calcular a partir de tales escalas.

    Los ejemplos incluyen una medida de energía, masa, longitud, duración, energía eléctrica, ángulo plano y volumen.

Cuantitativos

Numéricos

Estos datos tienen un sentido de medición involucrado en ellos; por ejemplo, la edad, la altura, el peso, la presión arterial, la frecuencia cardíaca, la temperatura, el número de dientes, el número de huesos y el número de miembros de la familia de una persona. Estos datos a menudo se denominan datos cuantitativos en las estadísticas. El conjunto de datos numérico puede ser de tipo discreto o continuo.

  • Discreto ⇒ Altura, peso, longitud, volumen, temperatura, humedad, edad.

    Estos son datos que son contables y sus valores se pueden enumerar. Por ejemplo, si lanzamos una moneda, el número de caras en 200 lanzamientos de moneda puede tomar valores de 0 a 200 casos (finitos).

    Una variable que representa un conjunto de datos discreto se denomina variable discreta. La variable discreta toma un número fijo de valores distintos. Por ejemplo, la variable País puede tener valores como Nepal, India, Noruega y Japón. La variable Rango de un alumno en un aula puede tomar valores de 1, 2, 3, 4, 5, etc.

  • Continuo ⇒ número de amigos, calificación.

    Una variable que puede tener un número infinito de valores numéricos dentro de un rango específico se clasifica como datos continuos. Una variable que describe datos continuos es una variable continua. Por ejemplo, ¿cuál es la temperatura de tu ciudad hoy?

Tipos de Datos

Los datos se dividen en cualitativos y cuantitativos, en elprimer caso los podemos agrupar a su vez en ordinales y nominales, y el segundo, los numericos, pueden ser discretos y/o continuos

Me sorprende que nadie comentó la referencia a poder tener “un millón de amigos”, je. Gran toque

Los tipos de datos que se pueden encontrar en un conjunto de datos pueden ser clasificados en cuatro categorías principales: numéricos, categóricos, ordinales y secuenciales. Cada tipo de dato se puede analizar de diferentes maneras.👍🧑‍🏫💭

Datos numéricos:

  • Este tipo de datos incluye valores medidos o contables, como la edad, el ingreso y la altura.
  • Los análisis numéricos incluyen la descripción estadística básica, como la media, la desviación estándar, el rango y la distribución.

Datos categóricos:

  • Este tipo de datos incluye valores que se pueden clasificar en categorías, como género, raza, tipo de producto, etc.
  • Los análisis categóricos incluyen la frecuencia y la proporción, así como las pruebas de independencia, como el test chi-squared.

Datos ordinales:

  • Este tipo de datos incluye valores que tienen un orden implícito, como la escala de satisfacción del cliente (muy insatisfecho, insatisfecho, neutral, satisfecho, muy satisfecho).
  • Los análisis ordinales incluyen la tabulación de frecuencias y las pruebas de tendencia, como la prueba de Wilcoxon.

Datos secuenciales:

Este tipo de datos incluye secuencias de eventos, como un registro de transacciones de compras de un cliente. Los análisis secuenciales incluyen la minería de datos y la análisis de secuencias.

Además de estas categorías, también existen otros tipos de datos como los datos de texto, imágenes y audio, que requieren análisis especializados y a menudo se combinan con otras técnicas de análisis de datos.
///////////////////////////////////////////////////////////////////////////////////////


En cuanto a las variables, hay dos tipos principales: variables independientes y variables dependientes. Las variables independientes son aquellas que se consideran causas o predictoras, mientras que las variables dependientes son aquellas que se consideran efectos o respuestas. En un análisis de datos, se busca identificar la relación entre las variables independientes y las dependientes y cómo las variables independientes afectan a las dependientes.

Variables Cualitativas

  • Miden una cualidad o característica en cada unidad experimental.
  • Producen datos categóricos.
  • Los números sustituyen categorías verbales.
    • Ejemplo: Estado (0 = muerto, 1 = vivo)

 

Principios Fundamentales:

  • Principio de Exclusividad: Las categorías deben ser mutuamente excluyentes.
  • Principio de Exhaustividad: Todas las categorías son suficientes para clasificar a todos los participantes.

 

Tipos:

  1. Nominales:

    • No hay orden inherente.
    • Ejemplo: Estado Civil (Soltero, Casado, Divorciado).

    a) Dicotómicas o Binarias:

    • Solo dos categorías.
    • Ejemplos:
      • Estado: Vivo(0), Muerto(1).
      • Sexo: Hombre(0), Mujer(1).

    b) Politómicas:

    • Más de dos categorías.
    • Ejemplos:
      • Nacionalidad: Argentina, Chilena, Uruguaya.
      • Fenómeno Meteorológico: Soleado, Nublado.
  2. Ordinales:

    • Implican un orden.
    • Ejemplos:
      • Nivel socioeconómico: Bajo, Medio, Alto.
      • Nivel de satisfacción: Nada, Algo, Bastante, Mucho.

 

Operaciones Matemáticas:

  • Nominales:
    • Operaciones de igualdad y desigualdad.
  • Ordinales:
    • Operaciones de igualdad, desigualdad, mayor y menor.

Variables Cuantitativas

  • Miden una cantidad numérica en cada unidad experimental.
  • Producen datos numéricos.

 

Tipos:

  1. Intervalo:

  • El cero no implica ausencia de la característica, sino que es un valor arbitrario.

  • Ejemplo: temperatura en grados centígrados. El cero grado centígrado indica que hace frío, y no que no existe temperatura.

    • a) Discreta:
      • No admiten valores entre enteros → números enteros.
    • b) Continua:
      • Sí admiten valores entre enteros → números reales.
  1. Razón o Proporción:

  • El cero sí implica la ausencia de la característica.
  • Ejemplo: Peso. El cero indica que no se ha medido nada.
    • (x > 0)

    • a) Discreta:

      • No admiten valores entre enteros → números enteros.
    • b) Continua:

      • Sí admiten valores entre enteros → números reales.

 

Operaciones Matemáticas

Intervalo:

  • De igualdad, desigualdad, mayor, menor, suma y resta.
  • Ejemplo: 22°C son 2° más que 20°C, pero 22°C no es el doble de 11°C.

Razón:

  • De igualdad, desigualdad, mayor, menor, suma, resta, multiplicación y división.
  • Ejemplo: 20kg es el doble de 10kg.

Datos Categóricos

  • Ordinales: No tienen un orden.
  • Nominales: Están organizados por una jerarquía.
  • Binarios: Estado, apagado o encendido.
### Datos Cuantitativos y Cualitativos **Datos Cuantitativos**: Son datos que se pueden medir y expresar con números. Estos datos te permiten hacer cálculos matemáticos como sumar, restar, multiplicar, etc. Se dividen en dos tipos: * **Datos Numéricos**: Son los que puedes contar o medir. Por ejemplo, la altura de una persona, el peso de un objeto, o la cantidad de manzanas que tienes. **Datos Cualitativos**: Son datos que describen cualidades o características y no se pueden medir con números. Se dividen en dos tipos: * **Datos Categóricos**: Estos datos clasifican o agrupan algo. Por ejemplo, el color de los ojos (azules, verdes, marrones) o el tipo de música que te gusta (pop, rock, clásica). ### Categórico y Numérico **Categórico**: Estos datos ponen las cosas en categorías o grupos. No tienen un orden específico. Ejemplos: * Tipos de frutas (manzana, plátano, naranja) * Marcas de autos (Toyota, Ford, BMW) **Numérico**: Estos datos tienen valores numéricos y se pueden contar o medir. Ejemplos: * Edad de las personas (14 años, 15 años) * Número de hermanos que tienes (1, 2, 3) ### Ordinal y Nominal **Ordinal**: Estos datos categóricos tienen un orden específico. Por ejemplo: * Tamaños de camisetas (pequeño, mediano, grande) * Clasificación en una carrera (primer lugar, segundo lugar, tercer lugar) **Nominal**: Estos datos categóricos no tienen un orden específico. Por ejemplo: * Colores favoritos (rojo, azul, verde) * Género de películas (comedia, acción, drama) ### Discreto y Continuo **Discreto**: Estos datos numéricos solo pueden tomar valores específicos y no pueden ser divididos. Por ejemplo: * Número de estudiantes en una clase (20, 21, 22) * Cantidad de coches en un estacionamiento (15, 16, 17) **Continuo**: Estos datos numéricos pueden tomar cualquier valor dentro de un rango. Por ejemplo: * Altura de una persona (1.65 metros, 1.66 metros, 1.67 metros) * La temperatura en un día (20.5°C, 21.3°C, 22.1°C)
Yo quiero tener un millón de amigos Y asi más fuerte poder cantar Yo quiero tener un millón de amigos Y asi más fuerte poder cantar

Es impresionante estos tipos de datos. Son muy utiles para el desarrollo y analisis de los datos ya que muchos datasets se clasifican por la categoria y otros elementos similares.

Variable o Dato

  • el sabor es ejemplo de variable categórica.
    • menta granizada, pistacho, DDL, vainilla… son ejemplos de datos categóricos
  • la textura es ejemplo de variable categórica
    • rugoso, liso, áspero, suave… son ejemplos de datos categóricos
  • “altura en cm”, “peso en kg”, “longitud en cm” son variables:
    • para la variable “altura”: 173, 168, 177, 155, 205 son datos
    • para la variable “peso”: 68,75, 45, 91… son datos

Sería mas acertado hablar de tipos de variables en lugar de tipo de datos?

Cuáles son 3 de los tipos de análisis de variables que podemos realizar
**Tipos de datos** **Categóricos:** son aquellos que tienen un orden, género, a favor o en contra, categoría de película, día de la semana, sabor, textura y de dividen el  Ordinal : orden natural Nominal: no importa el orden  **Numéricos:** Datos numéricos que pueden ser de altura, longitud, volumen, numero de amigos, calificación. Discreto Continuo: 5.5, 6.6 a pesar de que un numero puede ser continuo, lo puedes transformar a uno discreto. Acomodarás los datos, dependiendo el tipo de analisis que necesitarás realizar. Cuáles son los tipos de análisis? Análisis Univariado. Analizar cada variable por separado, entender características que lo definincan por s misma. Analisis Bivariado. Analizar la relacion de cada par de variables, encontrar relación entre las variables. Analisis multivariado. Analizar el efecto simultaneo de multiples variables. Tomar todas las variables y analizarlas. Aunque el análisis multivariado es el más utilizado, **se recomienda iniciar con el análisis univariado para generar insight más grande** que permitirá analizar el efecto individual, sus variables y de qué manera puede irse incrementando la información. Con análisis profundo de datos, es posible mejorar cualquier proceso.

No se toca el tema, pero me parece que también es de importancia un análisis temporal