Cálculo de Desviación Estándar en Series de Tiempo con NumPy

Clase 23 de 29 • Curso de Introducción al Álgebra Lineal: Vectores

Contenido del curso

Introducción al curso

Vectores

Funciones lineales

Norma y distancia

Clustering

Cierre

29
Programación de Clústers y Análisis de Sentimientos
02:21 min

Tomar examen

Resumen

Cuando trabajamos con grandes cantidades de datos, necesitamos herramientas que nos digan qué tan dispersos están esos datos respecto a un valor central. La desviación estándar es precisamente esa herramienta, y comprenderla desde la perspectiva de vectores abre la puerta a aplicaciones poderosas en ciencia de datos, estadística e inversiones.

¿Qué son las series de tiempo y por qué importan?

Un vector no solo representa una cantidad geométrica. También puede funcionar como una serie de tiempo [0:08], es decir, una secuencia de mediciones ordenadas: una medida en el tiempo uno, otra en el tiempo dos, y así sucesivamente hasta el tiempo n. Los tiempos no se registran de forma explícita, sino que quedan implícitos conforme agregamos datos al vector.

Por ejemplo, si nuestro vector es x, la componente x₀ corresponde a la primera medida, x₁ a la segunda, x₂ a la tercera y así hasta la medida n. Esta forma de pensar los vectores resulta muy útil porque más adelante permite interpretar incluso matrices como series de tiempo multidimensionales [1:19].

¿Cómo se construye el vector de-meaned y qué representa?

Para calcular la desviación estándar, primero necesitamos un vector auxiliar llamado vector de-meaned o vector sin promedio [2:22]. Se define como:

x̃ = x − avg(x) · 1

Donde 1 es un vector con el promedio de x en todas sus entradas. Esta operación garantiza que el promedio de x̃ sea cero [2:42]. Es decir, le quitamos el sesgo del promedio para observar cómo se distribuyen los elementos respecto a ese valor central.

¿Qué es la desviación estándar de un vector?

La desviación estándar de un n-vector x es el RMS (root mean square) del vector de-meaned [3:04]. En fórmula:

std(x) = ‖x − avg(x) · 1‖ / √n

Esta cantidad nos dice la variación típica por la cual cada entrada se desvía del promedio del vector [3:26].

¿Cómo se interpreta con una distribución gaussiana?

Imagina que mides la altura de todas las personas de tu trabajo. Al graficar esos datos obtienes un histograma [4:27] que, con suficientes mediciones, tiende a seguir una distribución gaussiana [4:34]. El valor central de esa campana es el promedio (mu) [4:47]. Una desviación estándar (sigma) a cada lado del promedio captura aproximadamente el 68.2% de los datos [5:00].

Esto tiene aplicaciones prácticas directas. Si registras cuánto te pagan por trabajos freelance, sabrías que:

Tu ingreso esperado es el valor central (promedio).
La cota mínima y máxima probables están a una sigma de distancia [5:38].
Eventos fuera de esa ventana pueden ocurrir, pero son menos frecuentes.

¿Cómo calcular la desviación estándar en Python con NumPy?

Consideremos el vector [1, -2, 3, 2]. Su promedio es 1, y el vector sin promedio resulta [0, -3, 2, 1], con una desviación estándar de 1.87 [6:22].

python import numpy as np

x = np.array([1, -2, 3, 2])

Promedio

np.mean(x) # Resultado: 1.0

Vector de-meaned

u = np.array([1, 1, 1, 1]) xt = x - np.mean(x) * u # [0, -3, 2, 1]

Verificar promedio cero

np.mean(xt) # Resultado: 0.0

Desviación estándar manual

np.linalg.norm(xt) / np.sqrt(len(xt)) # 1.87

Desviación estándar con función directa

np.std(x) # 1.87

La función np.std [8:07] realiza todo el cálculo de forma directa sobre el vector original, sin necesidad de construir el vector de-meaned manualmente.

¿Qué significa una desviación estándar igual a cero?

Si std(x) = 0, entonces todas las componentes del vector son idénticas [5:55], es decir, x es un múltiplo escalar del vector 1. Una desviación muy pequeña indica que las entradas son similares entre sí, aunque no exactamente iguales.

¿Qué relación existe entre RMS, promedio y desviación estándar?

Existe una identidad fundamental [9:33]:

rms(x)² = avg(x)² + std(x)²

Esta relación conecta las tres medidas escalares más importantes de un vector. En estadística, el promedio se denota como μ (mu) y la desviación estándar como σ (sigma) [9:03]. Además, en la práctica es común encontrar la corrección de Bessel [9:25], que usa √(n−1) en lugar de √n, y es la versión que NumPy utiliza por defecto con np.std(x, ddof=1).

Con estas herramientas ya es posible avanzar hacia aplicaciones financieras, como calcular el riesgo y los retornos esperados de una inversión. ¿Has aplicado la desviación estándar en algún proyecto propio? Comparte tu experiencia.

Comentarios

Roberto Jassiel Montes Gutierrez

student•

La desviación estandar es cero cuando todos los datos estan en la mitad de la campana de gauss es decir en la media. sdt=0 siempre y cuando los componentes del vector sean iguales. Aquí mi comprobación: espero se me entienda xd ![](

Andrés David Lizarazo Becerra

student•

muy buena comprobación

David Mejía Estrada

student•

Buena apreciación, pero creo que es más preciso decir que cuando std = 0, no existe una campana de Gauss.

Sergio Alejandro Martínez

student•

En el minuto 14 :00 el -2 queda afuera del 68.2% de la data, porque al restar (1.87= desviación estándar)del promedio que es 1 esto da como resultado -0.87. -2 < -0.87

Bryan

student•

Yo también me percate de ese fallo

Hermes A. J. Cabrera F.

student•

Ciertamente. El profesor tuvo un lapsus ahí. para el lado izquierdo 1-1.87 = -0.87 por lo tanto, salen el -2 y el 3, los que no se saldrías serían en 1 y el 2 ya que estarían en el rango -,87 <= x <=2.87, por lo que queda dentro del rango el 50% de la data. Saludos

JAVIER SANTIAGO SALGADO

student•

Mi demostraciones: Primera Parte

Segunda Parte

Juan Sebastian Olarte Uribe

student•

Buenas noches, me ha sido de gran ayuda esta demostración, pero tengo una pequeña duda.

Cuando suma todas las fracciones que tienen denominador n, que principio usa para distribuir el u^2 de esa manera, ya que este es un escalar y no un vector, igualmente el u^2 va acompañado de n el numerador y no sé muy bien que hace con esa n.

Muchas gracias.

JAVIER SANTIAGO SALGADO

student•

No te logro entender lo que me estas diciendo, sin embargo el procedimiento fue mas o menos el siguiente. Comencé con la segunda parte para saber que cero tenia que sumar. el promedio. Fíjate que por ambos lados son escalares los resultados finales, por temas de facilidad al avg(x) le llame mu, y la desviación estándar lo exprese como su definición. Luego rompí los términos al cuadrado, reagrupe términos y factorice. En la penúltima parte de la segunda parte, que quedan las x^2/n + 2mu^2-2mu*(la suma de las x dividido n) este ultimo por definición es el promedio por ende quedan dos veces 2mu^2 La primera parte es devolver la segunda parte sumando 2mu^2-2*mu^2

Espero ser mas claro así, sin embargo no dudes en escribirme y compartimos el análisis ;)

Bryan

student•

La razón por la cual se usa n-1 en la desviación estándar es cuando la muestra es menor a 30 (n<30) para compensar que tenemos pocos datos y puede haber mucha dispersión

Mateo Echavarria

student•

Es interesante como el profe prefiere poner toda la expresión en vez de reducirla con el operador matemático de sumatoria.

Santiago Ahumada Lozano

student•

Hola Mateo! Esto se realiza supongo que es porque las expresiones expandidas son mucho más sencillas de comprender que las compactas como las sumatorias o productorias. Saludos!

Hermes A. J. Cabrera F.

student•

Hola compañeros, La desviación estándar es la variación de las entradas respecto al valor de la media. Solo valdrá cero, como se solicita en la operación a demostrar, cuando todas las entradas son iguales, es decir las entradas serán iguales al promedio, por lo tanto no hay desviación. std(x)=0 si y solamente si x = α*1 Un escalar multiplicado por el vector unidad, dará un vector cuyas componentes son todas iguales al valor del escalar; por lo tanto, el promedio será el valor del escalar y por ende no habrá valor desviado.

Christian Molina Vázquez

student•

rms(x)^2 = avg(x)^2 + std(x)^2

rms2 = np.sum(x**2)/x.size
avg2 = np.mean(x)**2
std2 = np.std(x)**2
rms2 == avg2 + std2
#True

Daniel Valenzuela

student•

Para usar la desviacion estandar de la muestra, o en fácil dividir por n-1 (Grados de libertad), debemos usar "np.std(X, ddof=1)".

ddof = Delta Degrees of Fredom, por defecto la libreria toma ddof igual a cero, ojo con esto.

Samuel José Moreno

student•

De donde sale la norma en la ecuacion que hace el profesor?

Mariano Gobea Alcoba

student•

1 - 1,87 es -0,87 x lo que el -2 no entraría dentro de la desv std. ¿O estoy equivocado?

Jhon Freddy Tavera Blandon

student•

Por Demostrar:  std(x)=0  si y solamente si  x=α1

Para demostrar que la desviación estándar de un vector xes igual a 0 si y solo si xes un vector constante, es decir, x = α1donde αes una constante, podemos seguir los siguientes pasos:

Supongamos que xes un vector constante x = α1. Entonces, la media del vector xserá el promedio de todos los elementos, que en este caso es α. La desviación estándar se calcula como la raíz cuadrada de la varianza, donde la varianza es la media de las diferencias al cuadrado entre cada elemento y la media. En este caso, como todos los elementos son iguales a α, la diferencia entre cada elemento y la media será 0. Por lo tanto, la varianza será 0 y, en consecuencia, la desviación estándar también será 0.

Promedio, RMS y desviación estándar. Hay una relación que estas tres cumplen cantidad rms(x)2=avg(x)2+std(x)2

avg(x)), el valor cuadrático medio (RMS) ( rms(x)) y la desviación estánstd(x)). La relacion es la siguiente:

rms(x)^2 = avg(x)^2 + std(x)^2

Esta relación establece que el cuadrado del valor cuadrático medio de un conjunto de datos xes igual a la suma del cuadrado del promedio de xy el cuadrado de la desviación estándar de x.

Jonathan Vásquez Alvarado

student•

Esas son las diferencias de ver con escalar los datos. NOTA IMPORTANTE: En los datos de la inversión a debes notar que el promedio es cero, y python no entiende ese cero absoluto, por lo que puedes hacer el vector en a2 = np.zeros(50)

Rafael Arteaga

student•

La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos

Thomas Gonzalez Rodrigues

student•

una forma de realizar la 1 demonstration es que la std o desviación estándar es una medida de que tan **dispersos **están los datos por lo que si todos son lo mismo lo que significa que no se alejan uno de otro en nada el calculo de que tan alejado están los datos es 0

la segunda demostración de

rms(X)**2 = abg(x)**2 + srd(x)**2

se resolver pensando en

en el rms y std el cuadrado les esta quitando la raiz
el cuadrado del avg los esta igualando a los cuadrados de los avg dentro del calculo de la std
al sumar el avg2 con el std2 (sin raiz) estoy cancelando cada avg negativo (Xn - avg(X))**2 en el calculo del std
al quedar el calculo del std (después de la cancelación) solo con Xn**2 es exactamente el mismo que el de el rms()

aquí las ecuaciones para visualizarlo mejor

Edson Luis Pérez Castillo

student•

La comprobación de por qué std(x)=0 cuando todos sus elementos son iguales.

Osvaldo Olguín

student•

En el minuto 11:00 se ingresa un vector de unos para restar el promedio a cada entrada del vector x, pero como se ve en el curos de Introducción al Álgebra Lineal con Python (recomendado si no lo han hecho), el vector de unos no es necesario, porque al operar entre un vector y un escalar (en este caso el promedio es un escalar), ocurre broadcasting, es decir, la dimensión del escalar se amplía para ajustarse al vector.

Oscar Trujillo

student•

sigma es la desviación estándar poblacional, cuando es muestral se escribe S, y mu es la media poblacional, la muestral se escribe como X barra.

Ciro Villafraz

student•

Alejandro Cuello Maure

student•

¿Como se hace para diferenciar cuando se hace producto punto y cuando multiplicacion?

Interpretaba que hay que realizar el producto punto.

Alejandro Cuello Maure

student•

Repasando un poco las clases me di cuenta que cuando se refiere a realizar un producto punto se escribe asi

Es decir el vector transpuesto por el vector sin transponer significan que ahi se realiza el producto punto.

Cuando es sin transponer se refiere a multiplicacion del vector, es decir tenemos como resultado otro vector que resulta de multiplicar cada componete de los dos.

Carlos Alberto Cortés Ramírez

student•

Correción de Bessel : https://es.wikipedia.org/wiki/Correcci%C3%B3n_de_Bessel#:~:text=Las%20desviaciones%20est%C3%A1ndar%20se%20obtienen,estimadores%20de%20la%20varianza%20poblacional.

Cálculo de Desviación Estándar en Series de Tiempo con NumPy

Introducción al curso

Este curso tiene una versión actualizada

Vectores en Álgebra Lineal: Definición y Operaciones Básicas

Vectores

Vectores y Escalares: Conceptos y Operaciones Básicas

Convenciones y Notación en Vectores y Escalares

Modelo RGB y su implementación en Python

Adición de Vectores: Conceptos y Propiedades Básicas

Suma de Vectores en Python con NumPy

Producto Escalar-Vectores: Conceptos y Propiedades Básicas

Operaciones con Escalares y Vectores en Python usando NumPy

Producto Interno de Vectores: Definición y Propiedades

Producto Interno de Vectores en Python con NumPy

Análisis de Sentimientos de Tweets con Vectores de Palabras

Funciones lineales

Funciones Lineales: Transformación de Vectores en Escalares

Funciones Lineales y Propiedades de Superposición

Teoremas y Corolarios en Funciones Lineales

Funciones Afines: Propiedades y Ejercicios Prácticos

Aproximaciones de Taylor: Modelos Lineales de Funciones No Lineales

Aproximaciones de Taylor y análisis de error en Python

Regresión Lineal con Datos Geográficos y Socioeconómicos

Norma y distancia

Propiedades y Cálculo de la Norma de Vectores

Cálculo de Distancias entre Vectores usando Normas Euclidianas y LP

Optimización de Visitas para Arrendar Departamentos