Aprende Inglés, Programación, AI y Ciberseguridad.

Antes:$249

Currency
$209
Suscríbete

Termina en:

01d

12h

43m

27s

37

¡Hablemos de esta dística! - Estadística descriptiva

¡Resumen! 😇

Como vimos en los 2 tutoriales anteriores, los datos son nuestra unidad fundamental, nuestro ladrillo a la hora de construir y siempre debemos pensar en la forma de recopilarlos, describirlos y analizarlos.

1.¿Qué es la estadística?
2. Tipos de variable.

¡Estadística descriptiva! 📗

El objetivo principal de la estadística descriptiva es entender los datos, como dice el nombre debemos describirlos. Siempre que hagamos una tabla o gráfica debemos hacernos la pregunta ¿Ayuda a entender mejor los datos? Si tu respuesta es no, posiblemente escogiste una forma errónea de agrupar o graficar los datos.

¡Continuemos! Todos los datos tienes en su naturaleza, características que debemos conocer:

  • Centro: Sor valores representativos, como la media o mediana.
  • Variación: Nos hablan de como varían los datos usamos la desviación estándar o varianza.
  • Distribución: Como se distribuyen los datos, forma de campana o sesgada.
  • Valores extremos: Datos que están muy alejados de los demás.
  • Tiempo: Como cambian los datos al paso del tiempo.

Aún recuerdo una clase de estadística donde una profesora nos dijo: Cuidado con los virus que destruyen el valioso trabajo. Esta mnemotecnia te ayudará a recordar las características que recién vimos.

Tablas y frecuencias.📊

Podemos reconocer 4 tipos de frecuencias:

  1. Frecuencia absoluta (fi): Es el número de veces que aparece cualquier valor de la variable.
  2. Frecuencia absoluta acumulada (Fi): Es la suma de la frecuencia absoluta.
  3. Frecuencia relativa (hi): Es la división entre la frecuencia absoluta y el número total de datos.
  4. Frecuencia relativa acumulada (HI): Es la suma de la frecuencia relativa.

Hagamos una pausa para explicar que es un Xi. Supongamos que necesitamos escribir un script de Python para que un usuario coloque 10 edades, para esto usaremos el ciclo for.

Edades_de_los_alumnos=[] #creamos una lista para guardar nuestra variableforiin range(1,11):
    edad= int(input("Ingrese la edad del alumno {i}"))
    Edades_de_los_alumnos.append(edad)

En esta analogía cuando nosotros hablamos de Xi hablamos de Edades_de_los_alumnos[i] , intentemos entender el promedio.
formula del promedio.png

Este símbolo que es como una se llama sumatoria y su análogo en Python seria

foriin range(i,n):
    suma += Edades_de_los_alumnos[i]
    suma/len(Edades_de_los_alumnos)

Como puedes notar “n” representa el número total de datos.

Continuemos con un ejemplo para entender las frecuencias. Imagina que haces una encuesta a 50 estudiantes en Platzi preguntado por la cantidad de horas que estudian al día. Tus resultados son los siguientes:

0 1121110002131220000113110000301512111220140312204

Recuerda que esto es igual a crear un ciclo for con input pidiendo la cantidad de horas dedicas al estudio diario. Ahora toca agruparlos en este caso nosotros decidimos usar 6 categorías para agrupar nuestros datos, categorías que van del 0-6.
⠀⠀⠀⠀⠀⠀⠀⠀⠀
🔴⛔️ ¡Advertencia! El número de categorías no puede ser al azar, hay un procedimiento recomendado que te enseñaré más adelante. ❗️
⠀⠀⠀⠀⠀⠀⠀⠀⠀

N° de horasfiFihiHi
0161632%32%
1183418*100/50=36%68%
294318%86%
34478%94%
42494%98%
51502%100%

Recuerda que los datos se transforman en conocimiento y con base en esto ya debiste haber notado que cometimos un error ¿Con qué objetivo hacemos este análisis? Inventemos uno: “El team Platzi regalará un mes de suscripción a los estudiantes que estudian más de 1 hora”. Ahora nuestra tabla tienes sentido y podemos obtener rápidamente información.

  • El 32% de los estudiantes de Platzi no serán beneficiados.
  • El 68% de los estudiantes de Platzi serán beneficiados.
  • El 14% de los estudiantes de Platzi estudian 2 horas o más.

Transformemos esta información en conocimiento: ¿Por qué hay estudiantes qué estudian 0 hora? ¿Escogimos bien el tipo de variable? ¿Estudiarán 59 minutos? ¿Qué podemos hacer para incentivar el estudio?

📌Nota: Explícame en los comentarios porque la frecuencia acumulada de colores favoritos carece de sentido.

Determinar el número de categorías.📝

  1. Determinar el rango: esto se calcula restando al valor máximo el mínimo. Xmax - Xmin.
  2. Calculamos el número de intervalos: Para esto usamos la siguiente formula k = 1+3.3*Log(X) con X: Número de datos.
  3. Determinar la amplitud: Hacemos la división A=(Rango/N° Intervalos).

Ejemplo, Usemos los datos anteriores.

  1. Xmax=5 Xmin=0 entonces, Rango= 5-0 = 5
  2. k =1+3.3*log(50)= 6.35 —> 6. Siempre aproximamos.
  3. A = 5/6 = 0.83 ----> 1, debemos hacer 6 categorías de 1 en 1.

Medidas de tendencia central. 📈

Antes de continuar déjame decirte que existe varios tipos de medida, profundizaremos en cada uno en los siguientes tutoriales.
Medidad de estadistica descriptiva.png

Las medidas de tendencia central son bastante simples, sirven para informar sobre valores medios y tenemos 3 tipos:

  • Moda: Es el valor que más se repite. Puede haber más de una moda.
  • Mediana: Es el valor, que ordenando los datos, queda en la posición central. Una ventaja es que no se ve afectada por valores extremos. Una desventaja es que no utiliza toda la información del conjunto de datos.
  • Media aritmética: Corresponde al promedio. Se presta para manipulación numérica y se ve afectada por valores extremos.

Paradoja del tamaño de la clase
Existen por lo menos dos formas de obtener el tamaño de una clase promedio, y ambas pueden dar resultados muy diferentes. En una universidad, si tomamos la cantidad de estudiantes de 737 clases, obtenemos una media de 40 estudiantes. Sin embargo, si reunimos una lista del tamaño de las clases para cada estudiante y utilizamos esta lista, obtendríamos una media de 147. Esta gran discrepancia se debe al hecho de que existen muchos estudiantes en clases grandes, en tanto que hay pocos estudiantes en clases pequeñas. Sin cambiar el número de clases o de profesores, podríamos reducir el tamaño de clase promedio para los estudiantes haciendo que todas las clases tengan un tamaño similar. Esto también aumentaría la asistencia, que es más alta en las clases más pequeñas
- Walpolee sobre el promedio.

Trabajemos con Python.💚

Trabajando con Python

¿Qué sigue ahora? 😍

Para profundizar puedes tomar cursos que encuentras en tu suscripción de Platzi.

Deja de tenerle miedo a las estadísticas y domínalas con Platzi. Tenemos un Telegram de la comunidad de la Escuela de Data Science puedes solicitar unirte aquí. Es un espacio en el cual podrás resolver tus dudas y compartir con más personas que están en la misma ruta que tú ¡Te espero allá!

Escribe tu comentario
+ 2