Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Clase 14 de 35 • Curso Profesional de Data Science 2016

Resumen

Regresión

Los modelos de regresión son modelos que predicen valores continuos. Entonces, por ejemplo, un modelo de regresión podría predecir el número de minutos que el TransMilenio, que es el transporte público aquí en Bogotá, estaría retrasado en una determinada parada en un día determinado; podría predecir el número de votantes que una cabina de votación en Minneapolis necesitaría albergar; o podría predecir el número de pulgadas de lluvia que el desierto de Atacama recibirá el próximo año.

Y los modelos de regresión, por supuesto,son algoritmos de aprendizaje supervisado. Así que le alimentamos a estos modelos ejemplos que tienen, ya sabes, algún ejemplo codificado en el espacio vectorial.

Clasificación

Los modelos de clasificación predicen una etiqueta. Esta podría ser binaria en el caso del ejemplo de Twitter. "Sí, mi tweet contiene esta palabra clave" o "no, no la contiene".

Podría ser: "¿Quién ganaría las elecciones presidenciales de los Estados Unidos? ¿Hillary o Trump?

*Lo que por supuesto es un problema de clasificación binaria.

Algoritmos de agrupamiento

El agrupamiento se usa a menudo como un paso exploratorio en el análisis de datos. Y por supuesto, este es un tipo de algoritmo de machine learning no supervisado.

Un ejemplo es agrupar canciones en Spotify codificadas como datos de frecuencia, mejor, datos de frecuencia de audio.

¿Cuántos tipos diferentes de canciones tenemos aproximadamente? Es una canción alegre, canciones lentas, canciones con bajo, etc. Quizás tomamos esto como un paso exploratorio antes de aplicar etiquetas a cada canción de Spotify. De modo que quizás Spotify podría tener una pestaña de géneros donde dicen: "Puedes ordenar tu música por el tipo de género en el que cae."

Para algoritmos de agrupamiento hacemos una distinción entre verdaderos algoritmos de agrupamiento y algoritmos de partición:

Un algoritmo de partición pone cada punto que tenemos dentro de algún grupo. Básicamente hace una partición de nuestros datos,divide nuestros datos, estratifica nuestros datos dentro de grupos distintos.
Un algoritmo de agrupamiento aplica alguna lógica por la cual sólo está poniendo un punto dentro de un grupo si pasa ciertos criterios. Y posiblemente, si no lo hace, lo está dejando completamente por fuera.

Reducción de dimensionalidad

Finalmente hablaremos de algoritmos de reducción de dimensionalidad. Que es reducir un conjunto de vectores desde una cierta alta dimensionalidad hasta una baja dimensionalidad. Esto es típicamente con dos fines.:

El primero es visualización.

En dos dimensiones es muy fácil, ¿verdad? Si nuestros datos, tienen dos dimensiones los ponemos en un plano x-y. Quizás tenemos un grupo por acá, un grupo por acá. Quizás vemos cómo diferentes valores varían entre sí, a medida que un valor sube, normalmente el otro baja, etc. etc. En 20,000 dimensiones en teoría podemos hacerlo, es decir, del mismo modo en que podemos construir visualizaciones en dos dimensiones. El punto es que el espacio de 20,000 dimensiones existe, justo como el espacio en dos dimensiones. Pero como humanos en realidad estamos limitados por nuestra propia intuición, nuestra propia capacidad de mirar fotos y entender lo que realmente nos están diciendo. Como humanos, el espacio en dos dimensiones tiene sentido para nosotros.

La segunda es el costo computacional.

Debido a que somos capaces de capitalizar la redundancia en nuestros datos y proyectar esos datos desde un espacio dimensional mayor hasta un espacio dimensional menor sin perder las diferencias entre los puntos de datos, sin perder demasiado de la variación entre las diferentes dimensiones de nuestros puntos de datos. De nuevo, podemos representar nuestros datos en un espacio dimensional menor. Y cuando pasamos estos vectores más pequeños a algoritmos de machine learning por supuesto cuanta menor es la dimensión en la que residen nuestros datos más rápidamente pueden trabajar nuestros algoritmos.

Comentarios

William Arevalo

student•

El camino que sugiere Scikit-learn para hacer tus modelos dependiendo de que quieras y cuantos datos tengas

Pedro Escobar

student•

Aquí les dejo un link a mi google drive de un ejemplo de t-SNE vs CPA con Pókemons, también se aplica K-means link

Antonio Villavicencio Garzón

student•

Alguien me puede explicar la diferencia fundamental entre un modelo de clasificación y uno de clustering?

Luis Carlos Parra Raffán

student•

Por lo que entendí del video, los algoritmos de Clasificación son supervisados, quiere decir que por ejemplo en facebook, ellos ya tienen las fotos de tus amigos guardados y en el momento en que subes una foto comparan los rostros de tus amigos con los que ya conocían de ante mano.

En cambio los de agrupamiento no cuentan con una información previa y lo que hacen es determinar similitudes entre puntos cercanos para así según su similitud, crear una categoría que los agrupe entre sí.

Espero haberte podido ayudar.

Kevin Moreno

student•

los modelos de clasificación corresponden a algoritmos supervisados, es decir, el set de datos que se usa como entrenamiento ya está identificado dentro de una categoría y sólo predice a que categoría pertenece los nuevos datos a evaluar. Por otro lado el clustering se entrena con un set de datos no clasificados, ya que su trabajo es conseguir tantas categorías y agrupaciones como sea posible y luego predecir la categoría de nuevos a evaluar, esto ya se conoce como un algoritmo no supervisado.

Pedro Escobar

student•

Métodos de regresión, clasificación y clustering
Está en R

Pedro Escobar

student•

t-Distributed Stochastic Neighbor Embedding (t-SNE)
Implementación con R y Python

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Bienvenido al curso

¿Cómo activar los subtítulos para este curso?

Bienvenido al curso profesional de Data Science

Llevar tus cosas a Producción

Llevar tus cosas a producción

Bases de datos: SQL o NoSQL

ETL

Mostrar tus datos mediante dashboards

Repaso por Jupyter Notebook

Ejemplo de inferencia en twitter para producción

Creando nuestro modelo matematico

Automatización

Llevar tus cosas a producción

Machine Learning

Un poco de contexto sobre machine learning

Entrenando un modelo de Machine Learning

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Modelos canónicos y para que los usamos

Más modelos canonicos

Itera rápido o muere lento

Recolectando y limpiando nuestros datos

Implementando nuestros modelos de Machine Learning

Creando y ejecutando nuestro pipeline

Machine Learning

Estadística

Estadística y su aplicación en Data Science

Distribuciones de probabilidad

Inferencia estadística

Ejemplo de un modelo estadístico en un Testing A/B

Estadística

Herramientas clave que usa un data scientist

Herramientas que todos necesitamos

Servicios en la nube de Amazon: AWS / EC2

Obteniendo y explorando datos desde nuestra línea de comandos

Git

Construyendo un equipo de data science

Construyendo un equipo de Data Science

Ingenieros de datos, creadores de producto y data scientists

¿Qué sigue?

¿Qué sigue?

Cierre del curso

Contenido complementario