Ejemplo de inferencia en twitter para producción
Clase 8 de 35 • Curso Profesional de Data Science 2016
Contenido del curso
Llevar tus cosas a Producción
- 3

Llevar tus cosas a producción
05:53 min - 4

Bases de datos: SQL o NoSQL
05:22 min - 5

ETL
12:01 min - 6

Mostrar tus datos mediante dashboards
07:38 min - 7

Repaso por Jupyter Notebook
07:34 min - 8

Ejemplo de inferencia en twitter para producción
Viendo ahora - 9

Creando nuestro modelo matematico
17:45 min - 10

Automatización
24:35 min - 11
Llevar tus cosas a producción
07:13 min
Machine Learning
- 12

Un poco de contexto sobre machine learning
10:40 min - 13

Entrenando un modelo de Machine Learning
12:03 min - 14

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
15:38 min - 15

Modelos canónicos y para que los usamos
17:02 min - 16

Más modelos canonicos
28:24 min - 17

Itera rápido o muere lento
06:33 min - 18

Recolectando y limpiando nuestros datos
23:28 min - 19

Implementando nuestros modelos de Machine Learning
16:23 min - 20

Creando y ejecutando nuestro pipeline
32:34 min - 21
Machine Learning
12:04 min
Estadística
Herramientas clave que usa un data scientist
Construyendo un equipo de data science
¿Qué sigue?
Problema: Vamos a hacer la pregunta: "¿Cuál es la probabilidad de que un determinado tweet originado en Colombia contenga la palabra “yo”.
Vamos a examinar todo el flujo de trabajo de data science: Recoger datos, a continuación limpiarlos, crear un modelo matemático, inspeccionar los resultados, hacer preguntas sobre esos resultados, etc.
- Lo primero que haremos es crear un entorno virtual para mantener nuestro proyecto aislado
de otros proyectos que tenemos en este equipo. - Jupyter es un paquete en Python que instalaremos. Lo primero que vamos a hacer es instalar con pip todos estos requisitos de modo que las bibliotecas en el ejemplo de efecto funcionen porque estarán en nuestro equipo.
- La primera biblioteca que usamos es tweepy, Tweepy es una forma de interactuar con la API de Twitter. Una API es, digamos, una cosa de la que recogemos datos, al menos para este ejemplo en particular.
- Como saben, los tweets pueden contener un montón de basura, emoticones, pueden contener enlaces, puntuación, etc. etc. Para nuestro ejemplo todo lo que nos importa es la palabra “yo”.
No nos importa si tiene acentos o no y no nos importa si está en mayúsculas, minúsculas, etc.
Así que recorreremos algunos pasos para normalizar nuestros datos y que sea más fácil trabajar con ellos. - Lo segundo, y lo último que vamos a hacer al recibir un tweet, es guardarlo en nuestras base de datos, así que tenemos dos campos en esta base de datos: La cadena de ID, que es un identificador único para ese tweet, y también tenemos el texto de ese tweet.
Para las personas, ya sabes, que están trabajando en data science y adquiriendo habilidades, practicando, etc. es importante que sepan que estas cosas, ya sabes, no se supone que se despierten y las entiendan. No se supone que despierten y digan: “OK, para escribir datos en una base de datos definitivamente debo crear un cursor, tengo que ejecutar una sentencia, etc.”
Así que, ahora hemos sentado las bases para la recolección y limpieza de los datos, y, finalmente, la persistencia de esos datos desde la API de Twitter.