Ejemplo de inferencia en twitter para producción

Clase 8 de 35Curso Profesional de Data Science 2016

Resumen

Problema: Vamos a hacer la pregunta: "¿Cuál es la probabilidad de que un determinado tweet originado en Colombia contenga la palabra “yo”.

Vamos a examinar todo el flujo de trabajo de data science: Recoger datos, a continuación limpiarlos, crear un modelo matemático, inspeccionar los resultados, hacer preguntas sobre esos resultados, etc.

  • Lo primero que haremos es crear un entorno virtual para mantener nuestro proyecto aislado
    de otros proyectos que tenemos en este equipo.
  • Jupyter es un paquete en Python que instalaremos. Lo primero que vamos a hacer es instalar con pip todos estos requisitos de modo que las bibliotecas en el ejemplo de efecto funcionen porque estarán en nuestro equipo.
  • La primera biblioteca que usamos es tweepy, Tweepy es una forma de interactuar con la API de Twitter. Una API es, digamos, una cosa de la que recogemos datos, al menos para este ejemplo en particular.
  • Como saben, los tweets pueden contener un montón de basura, emoticones, pueden contener enlaces, puntuación, etc. etc. Para nuestro ejemplo todo lo que nos importa es la palabra “yo”.
    No nos importa si tiene acentos o no y no nos importa si está en mayúsculas, minúsculas, etc.
    Así que recorreremos algunos pasos para normalizar nuestros datos y que sea más fácil trabajar con ellos.
  • Lo segundo, y lo último que vamos a hacer al recibir un tweet, es guardarlo en nuestras base de datos, así que tenemos dos campos en esta base de datos: La cadena de ID, que es un identificador único para ese tweet, y también tenemos el texto de ese tweet.

Para las personas, ya sabes, que están trabajando en data science y adquiriendo habilidades, practicando, etc. es importante que sepan que estas cosas, ya sabes, no se supone que se despierten y las entiendan. No se supone que despierten y digan: “OK, para escribir datos en una base de datos definitivamente debo crear un cursor, tengo que ejecutar una sentencia, etc.”

Así que, ahora hemos sentado las bases para la recolección y limpieza de los datos, y, finalmente, la persistencia de esos datos desde la API de Twitter.