Correlación entre variables y coeficiente de Pearson

Curso de Estadística Descriptiva

Contenido del curso

Fundamentos estadísticos

Organización de datos cualitativos

3. Organización de datos cuantitativos

Medidas descriptivas

Probabilidad

Distribución Normal e Inferencia

Tomar examen

Correlación entre variables y coeficiente de Pearson

Resumen

Conocer y comprender qué es la correlación entre variables es clave para interpretar y aprovechar la información presente en los datos. La correlación nos ayuda a entender cómo dos variables podrían estar relacionadas entre sí, como la cantidad de aplicaciones en tu móvil y el tiempo que dedicas a usarlo. Un ejemplo práctico sería determinar si una mayor inversión en publicidad genera más ventas en una empresa. Hoy aprenderás sobre el coeficiente de correlación de Pearson, cómo interpretarlo visualmente y cómo verificar la exactitud de tus resultados con el indicador R cuadrada.

¿Qué significa correlación positiva, negativa y nula?

La correlación mide cómo dos variables se relacionan al cambiar una respecto a la otra:

Correlación positiva: ambas variables incrementan juntas. Por ejemplo, más aplicaciones instaladas coinciden con más horas usando el celular.
Correlación negativa: una variable incrementa mientras la otra disminuye. Esto no implica algo negativo, sino una relación inversamente proporcional.
Correlación nula: ninguna de las dos variables afecta a la otra perceptiblemente, resultando en datos dispersos sin tendencia definida.

¿Cómo graficar la correlación para visualizar su tendencia?

Para determinar visualmente la correlación, es útil crear un gráfico de dispersión en herramientas como Excel o Google Sheets realizando pasos simples:

Copiar y pegar únicamente valores para evitar errores.
Ordenar tus datos preferentemente de menor a mayor.
Insertar un gráfico adecuado como el de dispersión.
Añadir una línea de tendencia para establecer claramente la relación lineal entre ambas variables.

Al visualizarlos, puedes notar claramente una correlación positiva si los puntos tienden a seguir la línea hacia arriba.

¿Cómo calcular e interpretar la ecuación de regresión lineal?

La línea de tendencia, o regresión lineal, formula cómo la variación en una variable puede expresar predicciones sobre cambios en la otra:

La ecuación toma una forma sencilla como: número de horas = 0.0581 × número de aplicaciones + 0.713.
Permite predecir, por ejemplo, que con unas 60 aplicaciones, se espera aproximadamente 4 horas diarias de uso del celular.

¿Qué es la R cuadrada y cómo evaluar la precisión del modelo?

La R cuadrada (R²) determina qué tan precisa y confiable es la correlación calculada:

Cercana al valor "1", indica alta confiabilidad; por ejemplo, R²=0.994 implica una precisión del 99.4%.
Un valor menor, como 0.80, aporta una certeza del 80%, aún considerable, pero menos precisa.

Es crucial este indicador porque valida qué tan fiables son los resultados obtenidos con la ecuación de regresión lineal.

Ahora te toca a ti: ¿cuántas aplicaciones tienes en tu celular y cuántas horas estima este método que lo utilizas al día? ¡Comparte lo que obtuviste y cuéntame si coincide con tu realidad!

Paola Alapizco

Estudiante

🚨🚨🚨 En esta clase hay un error importante que debe corregirse 🚨🚨🚨

El profesor explica que para ver si hay correlación entre las Apps Descargadas y el Tiempo en celular (horas) es ordenando ascendentemente cada columna de forma independiente, éste es el error.

¿Por qué es un error importante y en que afecta al análisis de correlación?

Se pierde la correspondencia fila a fila entre las Apps Descargadas y el Tiempo en celular.

Por ejemplo

Utilizando el ejemplo de la clase, con el dataset de usuarios con un determinado numero de apps descargadas y horas que pasan en el celular.

En la fila 43 (usuario con el id 42) vemos que tiene 36 apps descargadas (Columna D) y que pasa 2.7 horas (Columna E) en el celular.
Al ordenar las columnas (G y H) por separado (copia de D y E): 🚨 Si prestamos atención, ahora la información del usuario 42 esta relacionada con dos usuarios diferentes. Lo que hicimos fue romper la relación entre esas columnas (variables).
- Las 36 apps descargadas del usuario con id 42 ya no se encuentra en la fila 43, se paso a la fila 5 y ahora esta con el usuario id 4 (por que la columna G se ordeno de menor a mayor).
- Las 2.7 horas de tiempo en celular del usuario id 42 ahora se encuentra en la fila 4 con el usuario id 3.

📌 NOTA sobre la imagen: Columnas de la A a la E son los datos originales. Columnas G y H corresponden a las Apps Descargadas y al Tiempo en celular (horas) pero se ordenaron ascendentemente por separado para visualizar mejor el error.

📢 Debemos entender que el análisis estadístico se basa en pares de observaciones que representan a una misma unidad de análisis (una persona, un país, un registro, etc.).

Al ordenar los datos por separado perdemos la relación real entre las variables (ej.: Apps Descargadas y Tiempo en celular), cambiamos la historia que cuentan los datos y los resultados que obtengamos ya no son validos, pues estamos comparando el número de apps de una persona con el tiempo en celular de otra.

Si seguimos el ejemplo de la clase y graficamos el diagrama de dispersión con los datos ordenados vemos:

La linea de regresión tiene un ajuste casi perfecto con los datos.
Coeficiente de relación de Pearson de 0.997 que indica una relación lineal casi perfecta.
Coeficiente de determinación (R² ) de 0.994, el cuál indica que la variabilidad en las apps descargadas describen en un 99.4% el tiempo que pasan los usuarios en el celular.

📝 El resultado es una relación artificial generada por el ordenamiento ascendente de cada columna por separado.

Entonces, ¿cómo se ve el gráfico de dispersión y que valor tiene R² utilizando los datos reales?

La linea de regresión que explica la relación entre las apps descargadas y el tiempo en celular tiene un ajuste más realista.
R² es 0.936, quiere decir que la variabilidad en las apps descargadas describe en un 93.6% el tiempo el tiempo que los usuarios pasan en el celular.

📌 Al comparar las gráficas y los valores de R² , los resultados se ven muy similares, pero esto no significa que los primeros (datos ordenados) sean los correctos o que debamos quedarnos con ese resultado. En este ejemplo de la clase, las consecuencias de realizar mal el ejercicio trae consigo un entendimiento erróneo del análisis de correlación y regresión lineal.

Espero este aporte les sea de ayuda. 💜

Esnaider Reales

Estudiante

Asi es.

JOSÉ ANTONIO SÁNCHEZ MONROY

Victor Matias Marquez

Edgar A. Gonzalez Ambriz

Stefany Campo Arraut

Patrick Antony Bent Bowie

Daniela Becerril García

Eric José Jara Palacios

Elmer Leonel Melo

Otto Salamanca Castillo

Norma Eunice Alfaro Amaya

Alejandro José Hugo Escalante Santos

Aaron Mainero

David Santiago Medina Puerto

camilo plata

Moises David Calles Gomez

Camilo Vicaria

Sergio Andrés Lavalle Camacho

Alamo Avila

Viviana Gallego

Carlos Enrique Arrieta Fierro

Jesus Ivan Villalobos de la Cruz

Juan Diego

Correlación entre variables y coeficiente de Pearson

Fundamentos estadísticos

Estadística básica para decidir sin adivinar

Cómo funciona la estadística en Netflix, deportes y medicina

Población vs muestra: cómo muestrear bien

Datos cualitativos: nominales vs ordinales

Diferencia entre datos cuantitativos discretos y continuos

Organización de datos cualitativos

Tablas de frecuencia en Google Sheets

Gráficas de barras y pastel en Google Sheets

3. Organización de datos cuantitativos

Tablas de frecuencia para datos cuantitativos

Histograma vs gráfico de barras en Sheets

Polígonos de frecuencia y ojivas en Google Sheets

Diagrama de cajas para datos cuantitativos en Google Sheets

Medidas descriptivas

Cálculo de media, mediana y moda en Google Sheets

Media y mediana con tabla de frecuencias

Rango y desviación estándar en Google Sheets

Coeficiente de variación para comparar datos distintos

Cuartiles y curtosis en Google Sheets

Probabilidad

Conceptos clave de probabilidad

Probabilidad simple con la regla de Laplace

Adición y multiplicación de probabilidades

Probabilidad compuesta en eventos excluyentes

Probabilidad condicional y teorema de Bayes

Distribución Normal e Inferencia

La campana de Gauss explicada

Puntuación Z para calcular porcentajes en Gauss

Porcentajes entre dos valores con tabla Z

Teorema central del límite explicado

Cómo calcular el intervalo de confianza al 95%

Correlación entre variables y coeficiente de Pearson

Resumen