Coeficiente de Correlación en un Diagrama de Dispersión
Clase 20 de 28 • Curso de Probabilidad y Estadística 2018
Contenido del curso
Clase 20 de 28 • Curso de Probabilidad y Estadística 2018
Contenido del curso
Nico Jara
Diego Forero
Francisco Leví Méndez Delgado
Maximiliano Rodríguez Porras
MARCELA VALENZUELA GÓMEZ
Cristian Orozco Benjumea
Wilson Fernando Antury Torres
Joaquin Villamediana
Guillermo Jonathan Salas Montenegro
Diana Mildred Galindo
JESUS ALBERTO CARREÑO MARTINEZ
Diana Mildred Galindo
Hector Vasquez
Andrés Madrigal
Luis Fernando Pedroza Taborda
Nico Quiroz
Julian David Colorado Jaramillo
Luis Ruiz Ramos
Luis E. Gama Ramirez
Ricardo Celis
Aaron Quiroga
José Luis Gómez Rojas
Xavier Sebastian Vaca Ordoñez
Felipe Andrés González Quintero
Omar Fernando López Olivas
Jesús Joel Sarabia Félix
JAVIER SANTIAGO SALGADO
Usuario anónimo
Manuel Alejandro Aguilar Téllez Girón
Andrés Madrigal
Andrés Madrigal
LUIS FERNANDO CASTAÑEDA CASTRO
Luis Fernando Úbeda Camacho
Diego Forero
Luis Fernando Úbeda Camacho
Smerlyn Javier Eusebio Bonifacio
Héctor Daniel Vega Quiñones
Ricardo Rosas Esquivel
Armando González Esquivel
Creo que se han estado apurando mucho con los últimos cursos. Si bien ya están calendarizados por Platzo, se están lanzando con muchos problemas, videos cortados, errores en los contenidos, y falta de los archivos y materiales de estudio.Y no hablo sólo de este curso, ya va en varios de los últimos que han lanzado.
Por favor, preferimos esperar un poco más pero que sigan con la buena calidad de los videos y los contenidos de apoyo bien publicados.
Saludos y gracias.
Muchas gracias por tu comentario, es muy valioso para ayudar a mejorar, tomas nota y trabajaremos para corregir estos errores.
Estoy muy de acuerdo, entiendo que nuestra responsabilidad es darle más profundidad al tema por medios externos, pero el curso no está dándo una base sólida para lograrlo dado que tratan de hacer videos muy cortos por tema, y las fuentes externas en las que me he apoyado solo me demuestran que el tema fue explicado de forma muy vaga.
Creo que no habría problema en que las clases se extendieran más para poder darnos unas bases mucho más solidas.
Hola,
Les comparto el ejemplo visto en clase y un par más en Jupyter, usando pandas, seaborn y matplotlib.
Tipos de Correlación y Covarianza
Saludos.
¡Excelente aporte!
Gracias!! Me ayuda a entender mejor el funcionamiento de Jupyter
El coeficiente de correlación nos describe cómo es la relación existente entre dos variables.
Es un valor cuantitativo.
No existe relación entre las variables cuando el coeficiente es 0.00.
Correlación positiva: +1, correlación negativa: -1
El coeficiente de correlación está definido como el cociente entre la Covarianza de la distribución y el producto de las desviaciones típicas(estándar) de cada una de las variables.
la mitad del vídeo lee lo que esta en la presentación
es como obvio que tiene que leer lo que esta en la presentación si no de que nos guiaremos si solo se escuchara hablar... nunca están conforme... si no se compartiera la presentación estarían reclamando de porque no comparten esta... ¬¬
No entiendo porque cuando saco la desviación estándar de este ejercicio en excel NO me da 1.118, Me da 1.29. Auxilioooo!!
Hola, porque estas realizando el calculo en el Excel como los datos de una muestra Y en el curso como los datos de una población Recuerda que la formula cambia ligeramente Saludos
Mil gracias! Ahorra todo tiene sentido!
Dejo mi código en python, con comentarios, que calcula el coeficiente de correlación, mostrando los cálculos en pantalla:
# -*- coding: utf-8 -*- from functools import reduce import math def media(lista): # Calcular la media de una lista de elementos return reduce( lambda a, b: a + b, lista ) / len(lista) def cuadrado(x): return x*x def varianza(lista, valMedia): # Sumo los resultados del cuadrado de la resta de la media total, menos cada valor de la lista, dividido por la cantidad de elementos de la lista return reduce( lambda a, b: a + b, list(map( lambda x: cuadrado(valMedia - x), lista )) ) / len(lista) def desviacionEstandar(varianza): # Obtener raíz cuadrada de la varianza return math.sqrt(varianza) def sumatoriaXY(lista): # Sumar todos los valores de X y retornar resultado. Lo mismo con Y return reduce( lambda a, b: (a[0] + b[0], a[1] + b[1]), lista ) def sumatoriaMediaMenosVal(lista, mediaX, mediaY): # Sumar todos los resultados de restar X con la media de X, y restar Y con la media de Y return reduce( lambda a, b: a + b, list(map( lambda x: (x[0] - mediaX) * (x[1] - mediaY), lista )) ) def covarianza1(lista): # Cantidad de elementos en la lista lenLista = len(lista) # Obtener la media de X y la media de Y valSumatoriaXY = sumatoriaXY(lista) mediaX = valSumatoriaXY[0] / lenLista mediaY = valSumatoriaXY[1] / lenLista print('Media de X: {}'.format( mediaX )) print('Media de Y: {}'.format( mediaY )) valSumatoriaMediaMenosVal = sumatoriaMediaMenosVal(lista, mediaX, mediaY) print('{} / {}'.format( valSumatoriaMediaMenosVal, lenLista )) # Dividir el resultado de arriba, con la cantidad de elementos de la lista return valSumatoriaMediaMenosVal / lenLista def sumatoriaXPorY(lista): # Sumar el resultado de la multiplicación de todos los valores X e Y return reduce( lambda a, b: a + b, list(map( lambda x: x[0] * x[1], lista )) ) def covarianza2(lista): valSumatoriaXPorY = sumatoriaXPorY(lista) # Cantidad de elementos en la lista lenLista = len(lista) # Obtener la media de X y la media de Y valSumatoriaXY = sumatoriaXY(lista) mediaX = valSumatoriaXY[0] / lenLista mediaY = valSumatoriaXY[1] / lenLista print('Media de X: {}'.format( mediaX )) print('Media de Y: {}'.format( mediaY )) # Dividir el resultado de arriba, con la cantidad de elementos de la lista # Luego restar la multiplicación de la media de X y la media de Y print('({} / {}) - ({} * {})'.format( valSumatoriaXPorY, lenLista, mediaX, mediaY )) return (valSumatoriaXPorY / lenLista) - (mediaX * mediaY) def coeficienteCorrelacion(lista): listaX = list(map( lambda x: x[0], lista )) listaY = list(map( lambda x: x[1], lista )) valCovarianza = covarianza2(lista) print('Covarianza: {}'.format(valCovarianza)) valVarianzaX = varianza(listaX, media(listaX)) print('Varianza X: {}'.format(valVarianzaX)) valDesviacionX = desviacionEstandar(valVarianzaX) print('Desviación Estandar X: {}'.format(valDesviacionX)) valVarianzaY = varianza(listaY, media(listaY)) print('Varianza Y: {}'.format(valVarianzaY)) valDesviacionY = desviacionEstandar(valVarianzaY) print('Desviación Estandar Y: {}'.format(valDesviacionY)) print('{} / ({} * {})'.format(valCovarianza, valDesviacionX, valDesviacionY)) return valCovarianza / ( valDesviacionX * valDesviacionY ) if __name__ == '__main__': # Lista de datos de ejemplo (X, Y) lista = [(3,4), (4,3), (5,2), (6,1)] print('lista: {}'.format(lista)) print('Coeficiente de Correlación: {}'.format( coeficienteCorrelacion(lista) ))```
que buena trabajada jaja
Excelente codigo Hector, mucha gracias
Lo mismo un poquito de código en python
import pandas as pd anios = [3,4,5,6] infracciones = [4,3,2,1] df_valores = pd.DataFrame({"anios": anios, "infracciones": infracciones}) print(df_valores)
anios infracciones 0 3 4 1 4 3 2 5 2 3 6 1
df_valores.describe() # standard deviation
anios infracciones
count 4.000000 4.000000 mean 4.500000 2.500000 std 1.290994 1.290994 min 3.000000 1.000000 25% 3.750000 1.750000 50% 4.500000 2.500000 75% 5.250000 3.250000 max 6.000000 4.000000
para terminar correlación (en la diagonal esta el -1)
df_valores.corr()
En el siguiente link encontré un par de ejemplos de correlación.
Es negativa. Deberían mejorar los slides, las cosas se ven pequeñas.
AVISO ! el vídeo se corta … Si traen AUDÍFONOS no es cool 😦
Hola Gama! Ya quedó corregido, una disculpa por los inconvenientes causados y espero que sigas disfrutando mucho del curso!
Coeficiente de correlación Describe cómo es la relación entre dos variables (dependiente e independiente)
Gracias!
Aqui encontre otra explicacion de lo que significa cada parte de la formula
Bien
Me hago bolas, de repente no sé cual formula es la que está explicando. :s
A todos nos pasa jejeje Solo repite la clase de uevo :D
Creo ser un earlier adopter tiene sus ventajas y desventajas, como raro depende de como uno lo vea, por ejemplo al día de hoy diciembre 2020 Platzi a mejorado la presentación en sus cursos tanto en calidad como en especificidad, realmente. Sin embargo hace unos años y es totalmente comprensible no tenían el nivel de hoy, y algunos cursos pasan por ser genéricos y poco profundos. Es normal a toda empresa le pasa tienen su evolución sus aprendizajes, entonces pues una de las cosas como usuario es intentar ir reportando con la cabeza fría cada uno de los errores u oportunidades de mejora.
En lo personal creo que el curso no es malo, simplemente es muy introductorio. Ahora en el momento en Platzi lo esta modularizando, es decir haciendo cursos cortos que traten mas a profundidad, cada uno de los temas que ves en este.
Revisa este, y revisa los otros ambos funcionan.
Cuando R es CERO nadie puede ver una relación lineal entre las variables. ( Eso esta claro) ¿Ahora si R es cero significa que no hay NINGÚN TIPO DE RELACIÓN entre las variables? Ejemplo x^2+y^2=4 da una gráfica con R=0.00
En tu ejemplo en concreto, no existe una relación lineal puesto que hablas del perímetro de una circunferencia de radio dos, pero yo creo que no se puede decir aún que no hay relación alguna, se habría de profundizar más en el tema par ver si se tiene alguna relación en concreta.
La respuesta es negativa por que va como una linea decreciente
6:58
Totalmente de acuerdo, es negativa.
Porque ya no no ponen el archivo en la parte de archivos ?
Lo estamos revisando y se van a subir todos los archivos en las clases correspondientes.
vale estupendo
Guía rápida:
Correlación Directa: +1.00
Correlación Inversa: -1.00
Correlación Nula: 0.00
Guía rápida:
negativa :p
negativa