Como vimos en los 2 tutoriales anteriores, los datos son nuestra unidad fundamental, nuestro ladrillo a la hora de construir y siempre debemos pensar en la forma de recopilarlos, describirlos y analizarlos.
1.¿Qué es la estadística?
2. Tipos de variable.
El objetivo principal de la estadística descriptiva es entender los datos, como dice el nombre debemos describirlos. Siempre que hagamos una tabla o gráfica debemos hacernos la pregunta ¿Ayuda a entender mejor los datos? Si tu respuesta es no, posiblemente escogiste una forma errónea de agrupar o graficar los datos.
¡Continuemos! Todos los datos tienes en su naturaleza, características que debemos conocer:
Aún recuerdo una clase de estadística donde una profesora nos dijo: Cuidado con los virus que destruyen el valioso trabajo. Esta mnemotecnia te ayudará a recordar las características que recién vimos.
Podemos reconocer 4 tipos de frecuencias:
Hagamos una pausa para explicar que es un Xi. Supongamos que necesitamos escribir un script de Python para que un usuario coloque 10 edades, para esto usaremos el ciclo for.
Edades_de_los_alumnos=[] #creamos una lista para guardar nuestra variableforiin range(1,11):
edad= int(input("Ingrese la edad del alumno {i}"))
Edades_de_los_alumnos.append(edad)
En esta analogía cuando nosotros hablamos de Xi hablamos de Edades_de_los_alumnos[i] , intentemos entender el promedio.
Este símbolo que es como una se llama sumatoria y su análogo en Python seria
foriin range(i,n):
suma += Edades_de_los_alumnos[i]
suma/len(Edades_de_los_alumnos)
Como puedes notar “n” representa el número total de datos.
Continuemos con un ejemplo para entender las frecuencias. Imagina que haces una encuesta a 50 estudiantes en Platzi preguntado por la cantidad de horas que estudian al día. Tus resultados son los siguientes:
0 1121110002131220000113110000301512111220140312204
Recuerda que esto es igual a crear un ciclo for con input pidiendo la cantidad de horas dedicas al estudio diario. Ahora toca agruparlos en este caso nosotros decidimos usar 6 categorías para agrupar nuestros datos, categorías que van del 0-6.
⠀⠀⠀⠀⠀⠀⠀⠀⠀
🔴⛔️ ¡Advertencia! El número de categorías no puede ser al azar, hay un procedimiento recomendado que te enseñaré más adelante. ❗️
⠀⠀⠀⠀⠀⠀⠀⠀⠀
N° de horas | fi | Fi | hi | Hi |
---|---|---|---|---|
0 | 16 | 16 | 32% | 32% |
1 | 18 | 34 | 18*100/50=36% | 68% |
2 | 9 | 43 | 18% | 86% |
3 | 4 | 47 | 8% | 94% |
4 | 2 | 49 | 4% | 98% |
5 | 1 | 50 | 2% | 100% |
Recuerda que los datos se transforman en conocimiento y con base en esto ya debiste haber notado que cometimos un error ¿Con qué objetivo hacemos este análisis? Inventemos uno: “El team Platzi regalará un mes de suscripción a los estudiantes que estudian más de 1 hora”. Ahora nuestra tabla tienes sentido y podemos obtener rápidamente información.
Transformemos esta información en conocimiento: ¿Por qué hay estudiantes qué estudian 0 hora? ¿Escogimos bien el tipo de variable? ¿Estudiarán 59 minutos? ¿Qué podemos hacer para incentivar el estudio?
📌Nota: Explícame en los comentarios porque la frecuencia acumulada de colores favoritos carece de sentido.
Ejemplo, Usemos los datos anteriores.
Antes de continuar déjame decirte que existe varios tipos de medida, profundizaremos en cada uno en los siguientes tutoriales.
Las medidas de tendencia central son bastante simples, sirven para informar sobre valores medios y tenemos 3 tipos:
Paradoja del tamaño de la clase
Existen por lo menos dos formas de obtener el tamaño de una clase promedio, y ambas pueden dar resultados muy diferentes. En una universidad, si tomamos la cantidad de estudiantes de 737 clases, obtenemos una media de 40 estudiantes. Sin embargo, si reunimos una lista del tamaño de las clases para cada estudiante y utilizamos esta lista, obtendríamos una media de 147. Esta gran discrepancia se debe al hecho de que existen muchos estudiantes en clases grandes, en tanto que hay pocos estudiantes en clases pequeñas. Sin cambiar el número de clases o de profesores, podríamos reducir el tamaño de clase promedio para los estudiantes haciendo que todas las clases tengan un tamaño similar. Esto también aumentaría la asistencia, que es más alta en las clases más pequeñas- Walpolee sobre el promedio.
Para profundizar puedes tomar cursos que encuentras en tu suscripción de Platzi.
Deja de tenerle miedo a las estadísticas y domínalas con Platzi. Tenemos un Telegram de la comunidad de la Escuela de Data Science puedes solicitar unirte aquí. Es un espacio en el cual podrás resolver tus dudas y compartir con más personas que están en la misma ruta que tú ¡Te espero allá!