Recolectando y limpiando nuestros datos
Clase 18 de 35 • Curso Profesional de Data Science 2016
Contenido del curso
Llevar tus cosas a Producción
- 3

Llevar tus cosas a producción
05:53 min - 4

Bases de datos: SQL o NoSQL
05:22 min - 5

ETL
12:01 min - 6

Mostrar tus datos mediante dashboards
07:38 min - 7

Repaso por Jupyter Notebook
07:34 min - 8

Ejemplo de inferencia en twitter para producción
20:35 min - 9

Creando nuestro modelo matematico
17:45 min - 10

Automatización
24:35 min - 11
Llevar tus cosas a producción
07:13 min
Machine Learning
- 12

Un poco de contexto sobre machine learning
10:40 min - 13

Entrenando un modelo de Machine Learning
12:03 min - 14

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
15:38 min - 15

Modelos canónicos y para que los usamos
17:02 min - 16

Más modelos canonicos
28:24 min - 17

Itera rápido o muere lento
06:33 min - 18

Recolectando y limpiando nuestros datos
Viendo ahora - 19

Implementando nuestros modelos de Machine Learning
16:23 min - 20

Creando y ejecutando nuestro pipeline
32:34 min - 21
Machine Learning
12:04 min
Estadística
Herramientas clave que usa un data scientist
Construyendo un equipo de data science
¿Qué sigue?
La idea es es crear un modelo de machine learning para detectar insultos en redes sociales.
Entonces tenemos al favorito de todos: Donald J. Trump.
Vamos a usar machine learning para hacer esto. Este va a ser un problema de aprendizaje supervisado. Vamos a tomar datos que hemos recogido previamente, cada uno es un comentario en una red social, y tiene una etiqueta vinculada. Y por supuesto esta es una tarea de aprendizaje supervisado.
En este ejemplo utilizamos varias bibliotecas:
- Re, que es la biblioteca de expresiones regulares en Python, y string.
- Pandas
- Sklearn.
Lo primero que hacemos es cargar nuestros datos. Para hacer esto vamos a usar la función read.csv de pandas. Como nota al pie, el módulo E/S de pandas es fenomenal. Realmente facilita consumir datos desde una variedad de fuentes, intuir el esquema de esos datos, etc.
Antes hablamos de que las relaciones en los datos en muchos casos cambiarán fundamentalmente con el tiempo. Yo no pensaría que decir algo como: “eres estúpido” sería un mayor insulto hoy de lo que habría sido hace cinco años. Y por supuesto podría estar equivocado pero ese es mi propio primer instinto.
Y seguimos por algunos casos puntuales donde podemos inferir que cierto conjunto de palabras son un insulto.
Ahora que hemos recorrido el proceso de cargar nuestros datos, limpiar nuestros datos, inspeccionar nuestros datos y visualizar nuestros datos, estamos listos para empezar a crear modelos, hacer validación cruzada de estos y averiguar qué hiper parámetros nos dan el modelo que mejor predice.