🚨🚨🚨 En esta clase hay un error importante que debe corregirse 🚨🚨🚨
El profesor explica que para ver si hay correlación entre las Apps Descargadas y el Tiempo en celular (horas) es ordenando ascendentemente cada columna de forma independiente, éste es el error.
¿Por qué es un error importante y en que afecta al análisis de correlación?
- Se pierde la correspondencia fila a fila entre las Apps Descargadas y el Tiempo en celular.
Por ejemplo
Utilizando el ejemplo de la clase, con el dataset de usuarios con un determinado numero de apps descargadas y horas que pasan en el celular.
- En la fila 43 (usuario con el id 42) vemos que tiene 36 apps descargadas (Columna D) y que pasa 2.7 horas (Columna E) en el celular.
- Al ordenar las columnas (G y H) por separado (copia de D y E):
🚨 Si prestamos atención, ahora la información del usuario 42 esta relacionada con dos usuarios diferentes.
Lo que hicimos fue romper la relación entre esas columnas (variables).
- Las 36 apps descargadas del usuario con id 42 ya no se encuentra en la fila 43, se paso a la fila 5 y ahora esta con el usuario id 4 (por que la columna G se ordeno de menor a mayor).
- Las 2.7 horas de tiempo en celular del usuario id 42 ahora se encuentra en la fila 4 con el usuario id 3.
📌 NOTA sobre la imagen: Columnas de la A a la E son los datos originales. Columnas G y H corresponden a las Apps Descargadas y al Tiempo en celular (horas) pero se ordenaron ascendentemente por separado para visualizar mejor el error.
📢 Debemos entender que el análisis estadístico se basa en pares de observaciones que representan a una misma unidad de análisis (una persona, un país, un registro, etc.).
Al ordenar los datos por separado perdemos la relación real entre las variables (ej.: Apps Descargadas y Tiempo en celular), cambiamos la historia que cuentan los datos y los resultados que obtengamos ya no son validos, pues estamos comparando el número de apps de una persona con el tiempo en celular de otra.
Si seguimos el ejemplo de la clase y graficamos el diagrama de dispersión con los datos ordenados vemos:
- La linea de regresión tiene un ajuste casi perfecto con los datos.
- Coeficiente de relación de Pearson de 0.997 que indica una relación lineal casi perfecta.
- Coeficiente de determinación (R² ) de 0.994, el cuál indica que la variabilidad en las apps descargadas describen en un 99.4% el tiempo que pasan los usuarios en el celular.
📝 El resultado es una relación artificial generada por el ordenamiento ascendente de cada columna por separado.
Entonces, ¿cómo se ve el gráfico de dispersión y que valor tiene R² utilizando los datos reales?
- La linea de regresión que explica la relación entre las apps descargadas y el tiempo en celular tiene un ajuste más realista.
- R² es 0.936, quiere decir que la variabilidad en las apps descargadas describe en un 93.6% el tiempo el tiempo que los usuarios pasan en el celular.
📌 Al comparar las gráficas y los valores de R² , los resultados se ven muy similares, pero esto no significa que los primeros (datos ordenados) sean los correctos o que debamos quedarnos con ese resultado. En este ejemplo de la clase, las consecuencias de realizar mal el ejercicio trae consigo un entendimiento erróneo del análisis de correlación y regresión lineal.
Espero este aporte les sea de ayuda. 💜