Desplazamiento y Escalado de Datos Estadísticos

Clase 12 de 26Curso de Estadística y Probabilidad

Contenido del curso

Resumen

Cuando trabajamos con conjuntos de datos, es común descubrir errores en las mediciones o necesitar ajustar todos los valores al mismo tiempo. Saber cómo estos cambios afectan las medidas de tendencia central y las medidas de dispersión te ahorra recalcular todo desde cero y te da una comprensión más profunda del comportamiento de tus datos.

¿Qué sucede cuando aplicas un desplazamiento a tus datos?

Imagina que estás revisando las calificaciones de veintiún estudiantes y descubres que dos preguntas del examen estaban mal formuladas. Decides otorgar cuatro puntos extra a todos [0:25]. En lugar de recalcular cada medida manualmente, puedes aprovechar una propiedad muy útil.

El desplazamiento consiste en sumar o restar un mismo valor a cada elemento del conjunto. Cuando esto ocurre:

  • La media se desplaza exactamente la misma cantidad. Si era 68.6, ahora será 72.6 [1:18].
  • La mediana pasa de 67 a 71, porque el punto medio del conjunto ordenado se mueve igual.
  • La moda cambia de 66 a 70, ya que el valor más frecuente simplemente recibe el mismo incremento.

La explicación es directa: la media funciona como un punto de equilibrio. Si agregas el mismo peso a todos los datos, el equilibrio se mueve en la misma magnitud [1:40]. La mediana sigue siendo la posición central, solo que cada dato creció igual. Y la moda mantiene su frecuencia; únicamente cambia su valor numérico.

¿Por qué el rango y el IQR no cambian con el desplazamiento?

El rango mide la distancia entre el valor máximo y el mínimo. Si ambos extremos se desplazan cuatro puntos, la diferencia entre ellos permanece idéntica [2:28]. Lo mismo ocurre con el rango intercuartílico (IQR): el percentil 25 sube cuatro, el percentil 75 sube cuatro, y la distancia entre ambos se conserva.

Gráficamente, lo que ves es que toda la distribución se traslada hacia la derecha (si sumas) o hacia la izquierda (si restas), pero su forma y amplitud no se alteran [2:58].

¿Cómo cambian tus medidas al escalar los datos?

Ahora supongamos que en lugar de sumar, multiplicas todo el conjunto por dos [3:24]. Este es el concepto de escalar: aplicar una multiplicación o división uniforme a cada elemento.

  • La media, la mediana y la moda se multiplican por el mismo escalar. Si tu media era 68.6, ahora será 137.2.
  • A diferencia del desplazamiento, el rango y el IQR también se ven afectados. El mínimo pasa de 60 a 120 y el máximo de 77 a 154, haciendo que la distancia entre ellos sea el doble [3:52].

Cuando las distancias se amplían, los datos se dispersan más. Por eso las medidas de dispersión se multiplican por el mismo factor.

¿Qué le ocurre a la forma de la gráfica al escalar?

Al graficar las frecuencias del conjunto escalado, la distribución se ensancha [4:27]. La forma original se suaviza porque los valores ahora están más separados entre sí. Si comparas ambas gráficas, la original luce más angosta y la escalada se extiende sobre un rango mucho mayor [4:43].

Esta idea es fundamental cuando más adelante trabajes con distribuciones estadísticas, donde la escala determina qué tan concentrados o dispersos se encuentran los datos.

¿Qué pasa si agregas o quitas elementos del conjunto?

A diferencia del desplazamiento y la escala, agregar o eliminar valores no sigue una regla tan directa [5:10]. Si del conjunto de veintiún calificaciones eliminas el valor 60:

  • La media cambia porque ahora divides entre veinte en lugar de veintiuno.
  • La mediana pasa de calcularse en un conjunto impar a uno par, lo que modifica su valor.
  • La moda podría conservarse si el valor eliminado no era el más frecuente.
  • El rango puede conservarse si el mínimo que quitaste coincide con otro dato igual [5:45].

Cada caso depende del valor específico que modifiques, por lo que aquí sí conviene recalcular.

Te invito a que pruebes eliminando o agregando distintos valores a tu propio conjunto y compartas en los comentarios qué encontraste tanto en las medidas como en la gráfica de frecuencias.