Distribuciones Conjuntas, Marginales y Condicionales en Estadística
Clase 8 de 26 • Curso de Estadística y Probabilidad
Resumen
¿Qué son las distribuciones conjuntas?
Las distribuciones conjuntas son herramientas estadísticamente poderosas que permiten analizar cómo se comporta una variable en relación con otra. Son esenciales cuando se quiere entender la relación o interdependencia entre dos conjuntos de datos cuantificables. Imagina una tabla donde cada eje representa una variable diferente. Por ejemplo, podría ser útil para comprender cómo las horas de sueño afectan el peso perdido en personas que se ejercitan regularmente.
En un ejemplo práctico: entrevisté a 100 personas que se ejercitan con regularidad para observar la relación entre las horas de sueño y los kilos perdidos en un mes. Con el 17% de estas personas perdiendo entre 2 y 4 kilos al dormir entre 6 y 9 horas, se puede construir una tabla bidimensional para visualizar y concluir sobre estas conexiones.
¿Cómo se utilizan las distribuciones marginales?
Las distribuciones marginales se sitúan en los márgenes de una tabla bidimensional y te permiten obtener datos generales de una sola variable sin la influencia directa de la otra. Se generan sumando los totales de filas o columnas y se pueden utilizar para concluir de manera específica sobre cada variable individualmente.
Por ejemplo, al observar los kilos perdidos en las 100 personas entrevistadas, se puede ver que, independientemente de las horas de sueño, el 33% de las personas perdieron entre 4 y 6 kilos. Lo mismo se podría hacer para ver la distribución de horas de sueño sin importar el peso perdido.
¿Cómo nos ayudan las distribuciones condicionales?
Las distribuciones condicionales permiten responder preguntas específicas sobre una variable dada una condición en la otra. Es decir, se centró en una variable específica mientras se analizan los porcentajes de la otra.
Al analizar cuántas horas durmieron las personas que perdieron entre 3 y 6 kilos, podrías observar que el 36% durmieron entre 9 y 12 horas. Esto se logra al hacer que las filas o columnas relevantes sumen el 100%, lo que facilita el análisis de los grupos específicos seleccionados.
Ejemplo práctico con datos de Netflix
Para ilustrar el uso de distribuciones conjuntas, podemos usar un dataset de Netflix y analizar qué país fue el mayor productor de series o películas por década. Procedemos a construir una tabla dinámica, donde los países se ubican en las filas y las décadas en las columnas. Así, se estructura una tabla que permite visualizar la cantidad de títulos estrenados por país y por período.
Al cambiar la visualización a porcentaje de línea o columna, se puede determinar, por ejemplo, que aproximadamente el 7% de las producciones en Canadá se estrenaron entre el 2000 y 2010.
¿Te animas a intentarlo? Como reto final, intenta crear una tabla de distribución conjunta entre el rating o clasificación de la producción y su género principal usando el mismo dataset. Sumérgete en los datos y descubre las relaciones ocultas. ¡El mundo del análisis estadístico está lleno de posibilidades!