Varianza y Desviación Estándar Automatizadas en Python

Clase 9 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística para Ciencia de Datos y Machine Learning
01:28 min

Tomar examen

Resumen

¿Cómo importar librerías necesarias para el análisis estadístico en Python?

Para comenzar con el análisis estadístico automatizado en Python, es esencial preparar nuestro entorno de trabajo importando algunas librerías fundamentales. Siguiendo un enfoque estructurado nos aseguramos de que cada paso esté bien documentado y listo para su ejecución. Aquí te dejo el fragmento inicial del código para importar las librerías:

# Importar las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

¿Qué pasos seguir para importar datos en Python desde una URL?

El siguiente paso es cargar y explorar los datos. En lugar de descargar un archivo a tu ordenador, puedes importar directamente desde una URL, lo cual es más eficiente.

Define la URL del conjunto de datos.
Usa pandas para leer el archivo CSV desde la URL.
Asigna nombres a las columnas si el archivo no los incluye.

# Ubicación de los datos
url = "tu_url_aquí"

# Nombres de las columnas
names = ["sepalLength", "sepalWidth", "petalLength", "petalWidth", "class"]

# Leer el archivo CSV
iris = pd.read_csv(url, names=names)

¿Cómo realizar un análisis exploratorio de los datos?

Una vez importados los datos, es importante realizar un análisis exploratorio preliminar. La función head() de pandas es útil para obtener una visión general:

# Ver los primeros registros del dataset
print(iris.head())

Es recomendable visualizar la distribución de los datos mediante gráficos, como histogramas, para entender mejor sus características estadísticas.

¿Cómo se visualiza la distribución de una variable?

Para comprobar la distribución de la variable sepalLength, se pueden utilizar herramientas de visualización de matplotlib y seaborn.

# Histograma con Matplotlib
plt.hist(iris["sepalLength"], bins=185, color='orange')
plt.show()

# Histograma con KDE usando Seaborn
sns.displot(iris["sepalLength"], kde=True, bins=185, color='orange')
plt.show()

¿Cómo se calculan varianza y desviación estándar en Python?

Calcular la varianza y la desviación estándar en Python ayuda a entender la dispersión de nuestros datos alrededor de la media. Aquí te muestro cómo puedes calcular estos valores:

Cálculo de la varianza

# Calcular la varianza
varianza = iris["sepalLength"].var()
print(f"Varianza: {varianza}")

Cálculo de la desviación estándar

# Calcular la desviación estándar
desviacion_estandar = iris["sepalLength"].std()
print(f"Desviación estándar: {desviacion_estandar}")

Compara estos valores con la media para evaluar la dispersión relativa:

# Calcular la media
media = iris["sepalLength"].mean()
print(f"Media: {media}")

¿Cómo crear una muestra aleatoria y calcular estadísticos?

Para trabajar con un subconjunto de datos, podemos extraer muestras aleatorias. Este procedimiento es esencial en estudios estadísticos para hacer inferencias sobre poblaciones.

Crear una muestra aleatoria simple

# Crear una muestra aleatoria del 50% de la población
muestra = iris.sample(frac=0.5)

Repetir los cálculos para la muestra

Una vez que tienes la muestra, repite los cálculos de varianza y desviación estándar sobre esta.

# Calcular la varianza de la muestra
muestra_varianza = muestra["sepalLength"].var()

# Calcular la desviación estándar de la muestra
muestra_desviacion_estandar = muestra["sepalLength"].std()

print(f"Varianza de la muestra: {muestra_varianza}")
print(f"Desviación estándar de la muestra: {muestra_desviacion_estandar}")

Cada vez que ejecutes la muestra, los resultados pueden variar ligeramente debido a la aleatoriedad del muestreo.

Estas técnicas son fundamentales para el análisis estadístico en Python y te proporcionan un conjunto de herramientas valiosas para manipular conjuntos de datos y extraer conclusiones significativas. Recuerda siempre verificar tus resultados en el contexto de tus datos y objetivos de análisis. ¡Sigue aprendiendo y explorando para mejorar tus habilidades en estadísticas y ciencia de datos!

Comentarios

Fabian Stevens Varon Valencia

student•

Hola compañeros,

Les comparto la fórmula de la varianza en Markdown:

Varianza:
$$\sigma^{2} = \frac{\sum_{i=1}^{n} 
  \left(x_{i} - \mu\right)^{2}}
  {N}$$

se vería así:

Saludos.

Fabian Stevens Varon Valencia

student•

Olvidé adjuntar la de la desviación estándar:

**standard deviation**

$$\sigma = \sqrt{\sigma}^{2} = \sqrt{\frac{\sum\limits_{i=1}^{n} \left(x_{i} - \mu\right)^{2}} {N}}$$

Fabian Stevens Varon Valencia

student•

así luce:

Adrian Flores Tomas

student•

Pequeño aporte: en seaborn ya está cargado el dataset de iris, por lo cual no es necesario sacarlo de la URL. Sólo necesitas la siguiente orden:

df_iris=sns.load_dataset('iris')

Jhony Pacheco

student•

Coeficiente de variacion ![](

Anthony Campos

student•

Buen dato, adicionalmente agregaría debido a que el C.V no supera el 30%, podemos afirmar que la media del conjunto de datos es respresentativa. https://es.wikipedia.org/wiki/Coeficiente_de_variaci%C3%B3n

Eliana Ossio

student•

Gracias por complementar para tener una referencia

Benjamín Cortés

student•

Les dejo el url asi lo pegan

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

y el código sería

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
names = ['sepal-length','sepal-width','petal-length','petal-width','class']
iris = pd.read_csv(url,names = names)
iris.head()

Jozmiguel Antonio Cárdenas Mundarain

student•

no debería haber otro comando para la varianza y desviación estandar muestral? como en la formula hay un n-1 en el denominador.

Wilmer Jimmy Bendezu Alvarez

student•

Es cierto, se debería de usar

std (ddof=0) y var (ddof=0) para poblacional
std (ddof=1) y var (ddof=1) para muestral, aunque ya NO es necesario indicar el ddof=1 , dado que Pandas lo asume por defecto, es decir podemos dejas () paréntesis vacíos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.std.html

Leonardo Martínez

student•

Delta degrees of freedom

Jason Francisco Macas Mora

student•

También pueden cargar el dataset desde seaborn:

iris = sns.load_dataset('iris')

Alejandro Toledo Cuenca

student•

también pueden cargar el dataset de esta manera

iris = sns.load_dataset('iris')

Johan Nicolás Valderrama Serrato

student•

desc = muestra[['sepal-length','sepal-width','petal-length','petal-width']].describe()

desc.loc['var'] = muestra[['sepal-length','sepal-width','petal-length','petal-width']].var()

print(desc)

Gabriel Obregón

student•

📊Análisis estadístico en Python

🛠️ 1. Librerías esenciales

🔹 pandas (pd): manejo de datos 🔹 numpy (np): cálculos numéricos 🔹 matplotlib.pyplot (plt): gráficos básicos 🔹 seaborn (sns): gráficos estadísticos

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

🌐 2. Importar datos desde URL

📌 Pasos clave: 1️⃣ Define la URL 2️⃣ Lee el archivo con pandas 3️⃣ Asigna nombres a las columnas

url = "tu_url_aquí"

names = ["sepalLength", "sepalWidth", "petalLength", "petalWidth", "class"]

iris = pd.read_csv(url, names=names)

🔎 3. Análisis exploratorio

👀 Ver primeros registros

print(iris.head())

📊 Visualizar distribución

plt.hist(iris["sepalLength"], bins=185, color='orange')

sns.displot(iris["sepalLength"], kde=True, bins=185, color='orange')

📐 4. Medidas de dispersión

📌 Conceptos clave:

🔸 Varianza: mide la dispersión respecto a la media.
🔸 Desviación estándar: raíz cuadrada de la varianza.

varianza = iris["sepalLength"].var()

desviacion_estandar = iris["sepalLength"].std()

media = iris["sepalLength"].mean()

🎲 5. Muestras aleatorias

✂️ Crear una muestra del 50%:

muestra = iris.sample(frac=0.5)

📊 Calcular estadísticos en la muestra:

muestra_varianza = muestra["sepalLength"].var()

muestra_desviacion_estandar = muestra["sepalLength"].std()

⚠️ Cada ejecución da resultados distintos por la aleatoriedad.

Daniel Alberto Paredes Peralta

student•

Una forma de analizar si desviación estándar es muy alta es utilizar el coeficiente de variación (cv) cv = (std_dev / mean) * 100 si el resultado del CV es menor al 10% se podría considerar que la desviación estándar es buena y es probable que la variación se deba a variaciones aleatorias; si es menor a 30% es adecuada y mayor a 30% hay una alta variación, y lo más probable es que sea una variación sistemática, también dependerán de los datos utilizados y su aplicación, para salud la anterior regla no es aplicable, pero para procesos de producción sí.

Ada Nicol Lloret Rey

student•

Buen aporte! :)

Nayru Alexandra Ramirez Molano

student•

Compañeros, yo lo estaba haciendo en vscode, para poder ver las gráficas deben usar plt.show() por ejemplo les dejaré este código

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns # URL de los datosurl = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data' # Nombres de las columnasnames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] # Cargar el conjunto de datosiris = pd.read_csv(url, names=names) # Mostrar el datasetprint(iris) # Mostrar las primeras filasprint(iris.head()) # Histograma con Matplotlibplt.hist(iris['sepal-length'], color='orange', bins=36)plt.title('Histograma de sepal-length')plt.xlabel('sepal-length')plt.ylabel('Frecuencia')plt.show() # Histograma y KDE con Seabornsns.histplot(iris['sepal-length'], kde=True, bins=36, color='orange')plt.title('Distribución de sepal-length con KDE')plt.xlabel('sepal-length')plt.ylabel('Densidad/Frecuencia')plt.show()

Oscar Alfredo Prado Bush

student•

Al parecer la función distplot() será eliminada de seaborn, entonces se puede graficar usando histplot() sin problema

Olga Lisethe Castellanos Galeano

student•

El estimador de kernel es una técnica no paramétrica utilizada para estimar la función de densidad de probabilidad de una variable. En lugar de asumir que los datos siguen una distribución específica, el estimador de kernel suaviza los datos utilizando un "kernel" (una función matemática) para crear una estimación continua de la distribución. En el contexto de la clase, se aplica para visualizar la distribución de datos, como en el caso del displot en Seaborn, donde se combina un histograma con la estimación de densidad. Esto ayuda a identificar la forma de la distribución de manera más clara.

Leandro Tenjo

student•

La forma más sencilla de completar el ejercicio:

💡 Agregar la varianza al df.describe()

df_describe = df.describe().T   #Transpuesta 
df_describe.insert(3, 'varianza', np.sqrt(df_describe['std']) )
df_describe = df_describe.T

Antonio Demarco Bonino

student•

Esta clase hace subir mi AMOR por NumPy y por Seaborn. De verdad que son bibliotecas MARAVILLOSAS.

Jhon Freddy Tavera Blandon

student•

La varianza

Es una medida de la dispersión de los datos alrededor de los medios. Es una medida cuadrática de la desviación estándar. La desviación estándar es la raíz cuadrada de la variación. Ambas medidas pueden calcularse utilizando el módulo statisticsde Python.
Para calcular la varianza muestral en Python, puede utilizar la función statistics.variance(). Esta función toma un conjunto de datos y devuelve la varianza muestral. Por ejemplo:

Copiar código

import statistics
datos = [4, 7, 9, 11, 13]
varianza = statistics.variance(datos)
print(varianza)

Para calcular la desviación estándar muestral en Python, puede utilizar la función statistics.stdev().
Esta función toma un conjunto de datos y devuelve la desviación estándar muestral. Por ejemplo:

Copiar código

import statistics

datos = [4, 7, 9, 11, 13]
desviacion_estandar = statistics.stdev(datos)
print(desviacion_estandar)

Es importante mencionar que, en caso de querer calcular la varianza o desviación estandar poblacional, deberías utilizar la función numpy.var()o numpy.std()respectivamente, y pasarle el argumentoddof=0

Copiar código

import numpy as np

datos = [4, 7, 9, 11, 13]
varianza = np.var(datos,ddof=0)
print(varianza)

Copiar código

import numpy as np

datos = [4, 7, 9, 11, 13]
desviacion_estandar = np.std(datos,ddof=0)
print(desviacion_estandar)

Espero que esta información te sea útil.

Ricardo Gomez

student•

Samit Arias

student•

Un articulo de como interpretar la varianza y la desviación estándar: Link

Alfonso Andres Zapata Guzman

student•

def varianza(dfcolumn, name):
    print(f'La varianza de {name} es {dfcolumn.var(ddof=0):.3f}')

def desviacion(dfcolumn, name):
    print(f'La desviacion estandar de {name} es {dfcolumn.std(ddof=0):.3f}')
    
def promedio(dfcolumn, name):
    print(f'El promedio de {name} es {dfcolumn.mean():.3f}')
    
name = 'poblacional sepal-width'
varianza(iris['sepal-width'], name)
desviacion(iris['sepal-width'], name)
promedio(iris['sepal-width'], name)

name = 'muestra 20% sepal-width'
varianza(muestra['sepal-width'], name)
desviacion(muestra['sepal-width'], name)
promedio(muestra['sepal-width'], name)

Carlos Ortiz Bonilla

student•

En este caso la desviación estándar es baja. El coeficiente de variación está muy cercano a 0. Entre más grande sea, más heterogéneos serán los datos.

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
names = ['sepal-length','sepal-width','petal-length','petal-width','class']
iris = pd.read_csv(url,names = names)
iris.head()

def varianza(dfcolumn, name):
    print(f'La varianza de {name} es {dfcolumn.var(ddof=0):.3f}')

def desviacion(dfcolumn, name):
    print(f'La desviacion estandar de {name} es {dfcolumn.std(ddof=0):.3f}')
    
def promedio(dfcolumn, name):
    print(f'El promedio de {name} es {dfcolumn.mean():.3f}')
    
name = 'poblacional sepal-width'
varianza(iris['sepal-width'], name)
desviacion(iris['sepal-width'], name)
promedio(iris['sepal-width'], name)

name = 'muestra 20% sepal-width'
varianza(muestra['sepal-width'], name)
desviacion(muestra['sepal-width'], name)
promedio(muestra['sepal-width'], name)

Varianza y Desviación Estándar Automatizadas en Python

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central

Funciones de muestra en Python: aleatorio y sistemático

Muestreo Estratificado: Creación y Aplicación en Python

Estadísticos y cálculos

Cálculo de la Media Muestral y Conceptos de Estadística Básica

Diferencias entre varianza y desviación estándar muestral y poblacional