13

Apuntes teóricos

PRIMER BLOQUE: ¿Para qué sirve la estadística descriptiva?

Estadística descriptiva vs inferencial

Estadística de un jugador de fútbol:

  • Descriptiva: Resumir historial deportivo.

  • Inferencial: Predecir el desempeño del jugador.

¿Puedes mentir con estadística? sí.

  • Diferentes estadísticos descriptivos pueden dar nociones diferentes de los mismos datos.

¿Por qué aprender estadística?

  • Resumir grandes cantidades de información.
  • Tomar mejores decisiones.
  • Respondes preguntas con relevancia social.
  • Reconocer patrones (Estadística inferencial).
  • Descubrir cuando los datos se usan con fines nefastos.

Flujo de trabajo en data science

  1. Data ingestion (descriptiva).
  2. Data visualization (descriptiva).
  3. Data preparation (descriptiva).
  4. Model training (descriptiva).
  5. Model evaluation (inferencial).
  6. Model validation.
  7. Model serving.
  8. En user interface.

SEGUNDO BLOQUE: ESTADÍSTICA DESCRIPTIVA PARA ANALÍTICA.

Tipos de datos

  • Categóricos: Pueden ser ordinales (orden o subordinación) o nominales.
  • Numéricos: Pueden ser discretos (int) o continuos (float).

Medidas de tendencia central

Manera de resumir un conjunto de datos para extraer información valiosa.

  • Media (promedio).

  • Mediana (dato central).

  • Moda (dato que más se repite).

La tabla y diagrama de frecuencia se pueden usar.

¿Cuándo usar cual?

  • La media es susceptible a valores atípicos.

  • La moda no aplica para datos numéricos continuos.

Metáfora de Bill Gates

Con esta metáfora vemos que no siempre la mediana es igual a la media. Esto sucede cuando existen outliers, como el sueldo de Bill Gates.

Numeró de comensales: 12

Sueldo de 11 comensales: 35000 USD.

Sueldo Bill Gates: 1000000 USD.

Media de sueldo: 115416 USD

Mediana de sueldo: 35000 USD

Medidas de dispersión

  • Histograma: para ver la distribución.

  • Dispersión en una distribución: Rango, rango intercuartil y desviación estándar.

  • Rango: valor máximo menos mínimo.

  • Rango intercuartil: subdivisión en 4 partes homogéneas.

diagrama_de_caja.PNG
  • Diagrama de cajas: Visualizar la dispersión de los datos principalmente respecto a la mediana.

Desviación estándar

Se emplea para describir la distribución de los datos.

Funciona en datos que tienen una distribución normal.

En una distribución normal:

  • Se considera el 99.72% de los datos (6 sigma).

  • el valor mínimo es Q1 - 1.5IQR.

  • el valor máximo es Q3 + 1.5IQR.

  • Los valores fuera de los valores extremos no se tienen en cuenta.

Nota: Para distribuciones asimétricas los valore mínimos y máximos se hallan de manera diferente.

Diagrama de dispersión en el análisis de datos

Un diagrama de dispersión nos permite encontrar la correlación entre dos variables.

scatterplot_iris.png

TERCER BLOQUE: ESTADÍSTICA EN LA INGESTA DE DATOS

Pipelines de procesamiento de datos numéricos

Es necesario normalizar los datos antes de pasarlos por un modelo de machine learning, ya que estos son óptimos cuando los atributos están siempre en las mismas dimensiones.

Los modelos ML generalmente son eficientes en el rango [-1, 1].

Existen diferentes métodos para hacer este tipo de normalización o escalamiento:

  • min-max.
  • Clipping.
  • Z-score.

Estos métodos se utilizan cuando se tienen distribuciones normales o gaussianas.

Transformaciones no lineales

Cuando se tienen distribuciones no simétricas, antes de aplicarles algún método de escalamiento lineal, hay que aplicar una transformación no lineal.

Las transformaciones no lineales pueden ser:

  • Tangente hiperbólica.
  • Sigmoide.
  • Polinomiales.

Mapeos numéricos

Con esto podemos convertir variables categóricas en numéricas.
Puede ser

  • Dummy: Es una representación compacta. Mejor para inputs linealmente independientes.
  • One-hot: permite describir categorías no incluidas inicialmente.

Correlaciones

Cuando se hacen análisis de machine learning se puede reducir la cantidad de variables cuando algunas de estas presentan una fuerte correlación.

Cuando se miden correlaciones se usa la covarianza.

Otra manera más exacta de medir la correlación de dos variables es usando el coeficiente de correlación (rho).

Este coeficiente varía entre -1 y 1. Cuando es cercano a 0 la correlación es débil.

Cuando el coeficiente de correlación es cercano a 1 la correlación entre variables es directa.

Cuando el coeficiente de correlación es cercano a -1 la correlación entre variables es inversa.

Matriz de covarianza

Permite calcular todas las posibles relaciones de las variables de un dataset.

matriz_cov.png

PCA: Análisis de componentes principales

Nos permite por medio de los valores propios de la matriz de covarianza, identificar las direcciones a lo largo de las cuales se captura la mayor cantidad de varianza de los datos.

Con esto se pueden reducir el número de variables para facilitar el proceso con el modelo de machine learning.

Escribe tu comentario
+ 2
1
22059Puntos
2 años

Gracias Mauricio por el aporte