Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
Clase 14 de 35 • Curso Profesional de Data Science 2016
Contenido del curso
Llevar tus cosas a Producción
- 3

Llevar tus cosas a producción
05:53 min - 4

Bases de datos: SQL o NoSQL
05:22 min - 5

ETL
12:01 min - 6

Mostrar tus datos mediante dashboards
07:38 min - 7

Repaso por Jupyter Notebook
07:34 min - 8

Ejemplo de inferencia en twitter para producción
20:35 min - 9

Creando nuestro modelo matematico
17:45 min - 10

Automatización
24:35 min - 11
Llevar tus cosas a producción
07:13 min
Machine Learning
- 12

Un poco de contexto sobre machine learning
10:40 min - 13

Entrenando un modelo de Machine Learning
12:03 min - 14

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
Viendo ahora - 15

Modelos canónicos y para que los usamos
17:02 min - 16

Más modelos canonicos
28:24 min - 17

Itera rápido o muere lento
06:33 min - 18

Recolectando y limpiando nuestros datos
23:28 min - 19

Implementando nuestros modelos de Machine Learning
16:23 min - 20

Creando y ejecutando nuestro pipeline
32:34 min - 21
Machine Learning
12:04 min
Estadística
Herramientas clave que usa un data scientist
Construyendo un equipo de data science
¿Qué sigue?
Regresión
Los modelos de regresión son modelos que predicen valores continuos.
Entonces, por ejemplo, un modelo de regresión podría predecir el número de minutos que el TransMilenio, que es el transporte público aquí en Bogotá, estaría retrasado en una determinada parada en un día determinado; podría predecir el número de votantes que una cabina de votación en Minneapolis necesitaría albergar; o podría predecir el número de pulgadas de lluvia que el desierto de Atacama recibirá el próximo año.
Y los modelos de regresión, por supuesto,son algoritmos de aprendizaje supervisado.
Así que le alimentamos a estos modelos ejemplos que tienen, ya sabes, algún ejemplo codificado en el espacio vectorial.
Clasificación
Los modelos de clasificación predicen una etiqueta. Esta podría ser binaria en el caso del ejemplo de Twitter. “Sí, mi tweet contiene esta palabra clave” o “no, no la contiene”.
Podría ser: "¿Quién ganaría las elecciones presidenciales de los Estados Unidos? ¿Hillary o Trump?
*Lo que por supuesto es un problema de clasificación binaria.
Algoritmos de agrupamiento
El agrupamiento se usa a menudo como un paso exploratorio en el análisis de datos. Y por supuesto, este es un tipo de algoritmo de machine learning no supervisado.
Un ejemplo es agrupar canciones en Spotify codificadas como datos de frecuencia, mejor, datos de frecuencia de audio.
¿Cuántos tipos diferentes de canciones tenemos aproximadamente?
Es una canción alegre, canciones lentas, canciones con bajo, etc. Quizás tomamos esto como un paso exploratorio antes de aplicar etiquetas a cada canción de Spotify. De modo que quizás Spotify podría tener una pestaña de géneros donde dicen: “Puedes ordenar tu música por el tipo de género en el que cae.”
Para algoritmos de agrupamiento hacemos una distinción entre verdaderos algoritmos de agrupamiento y algoritmos de partición:
- Un algoritmo de partición pone cada punto que tenemos dentro de algún grupo. Básicamente hace una partición de nuestros datos,divide nuestros datos, estratifica nuestros datos dentro de grupos distintos.
- Un algoritmo de agrupamiento aplica alguna lógica por la cual sólo está poniendo un punto dentro de un grupo si pasa ciertos criterios. Y posiblemente, si no lo hace, lo está dejando completamente por fuera.
Reducción de dimensionalidad
Finalmente hablaremos de algoritmos de reducción de dimensionalidad. Que es reducir un conjunto de vectores desde una cierta alta dimensionalidad hasta una baja dimensionalidad.
Esto es típicamente con dos fines.:
- El primero es visualización.
En dos dimensiones es muy fácil, ¿verdad? Si nuestros datos, tienen dos dimensiones los ponemos en un plano x-y. Quizás tenemos un grupo por acá, un grupo por acá. Quizás vemos cómo diferentes valores varían entre sí, a medida que un valor sube, normalmente el otro baja, etc. etc. En 20,000 dimensiones en teoría podemos hacerlo, es decir, del mismo modo en que podemos construir visualizaciones en dos dimensiones. El punto es que el espacio de 20,000 dimensiones existe, justo como el espacio en dos dimensiones. Pero como humanos en realidad estamos limitados por nuestra propia intuición, nuestra propia capacidad de mirar fotos y entender lo que realmente nos están diciendo.
Como humanos, el espacio en dos dimensiones tiene sentido para nosotros.
- La segunda es el costo computacional.
Debido a que somos capaces de capitalizar la redundancia en nuestros datos y proyectar esos datos desde un espacio dimensional mayor hasta un espacio dimensional menor
sin perder las diferencias entre los puntos de datos, sin perder demasiado de la variación
entre las diferentes dimensiones de nuestros puntos de datos. De nuevo, podemos representar nuestros datos en un espacio dimensional menor. Y cuando pasamos estos vectores más pequeños a algoritmos de machine learning por supuesto cuanta menor es la dimensión en la que residen nuestros datos más rápidamente pueden trabajar nuestros algoritmos.