Recolectando y limpiando nuestros datos

Clase 18 de 35Curso Profesional de Data Science 2016

Resumen

La idea es es crear un modelo de machine learning para detectar insultos en redes sociales.
Entonces tenemos al favorito de todos: Donald J. Trump.

Vamos a usar machine learning para hacer esto. Este va a ser un problema de aprendizaje supervisado. Vamos a tomar datos que hemos recogido previamente, cada uno es un comentario en una red social, y tiene una etiqueta vinculada. Y por supuesto esta es una tarea de aprendizaje supervisado.

En este ejemplo utilizamos varias bibliotecas:

  • Re, que es la biblioteca de expresiones regulares en Python, y string.
  • Pandas
  • Sklearn.

Lo primero que hacemos es cargar nuestros datos. Para hacer esto vamos a usar la función read.csv de pandas. Como nota al pie, el módulo E/S de pandas es fenomenal. Realmente facilita consumir datos desde una variedad de fuentes, intuir el esquema de esos datos, etc.

Antes hablamos de que las relaciones en los datos en muchos casos cambiarán fundamentalmente con el tiempo. Yo no pensaría que decir algo como: “eres estúpido” sería un mayor insulto hoy de lo que habría sido hace cinco años. Y por supuesto podría estar equivocado pero ese es mi propio primer instinto.

Y seguimos por algunos casos puntuales donde podemos inferir que cierto conjunto de palabras son un insulto.

Ahora que hemos recorrido el proceso de cargar nuestros datos, limpiar nuestros datos, inspeccionar nuestros datos y visualizar nuestros datos, estamos listos para empezar a crear modelos, hacer validación cruzada de estos y averiguar qué hiper parámetros nos dan el modelo que mejor predice.