Ejemplo de inferencia en twitter para producción

Clase 8 de 35 • Curso Profesional de Data Science 2016

Contenido del curso

Bienvenido al curso

Llevar tus cosas a Producción

Machine Learning

Estadística

Herramientas clave que usa un data scientist

Construyendo un equipo de data science

¿Qué sigue?

Tomar examen

Resumen

Problema: Vamos a hacer la pregunta: "¿Cuál es la probabilidad de que un determinado tweet originado en Colombia contenga la palabra "yo".

Vamos a examinar todo el flujo de trabajo de data science: Recoger datos, a continuación limpiarlos, crear un modelo matemático, inspeccionar los resultados, hacer preguntas sobre esos resultados, etc.

Lo primero que haremos es crear un entorno virtual para mantener nuestro proyecto aislado de otros proyectos que tenemos en este equipo.
Jupyter es un paquete en Python que instalaremos. Lo primero que vamos a hacer es instalar con pip todos estos requisitos de modo que las bibliotecas en el ejemplo de efecto funcionen porque estarán en nuestro equipo.
La primera biblioteca que usamos es tweepy, Tweepy es una forma de interactuar con la API de Twitter. Una API es, digamos, una cosa de la que recogemos datos, al menos para este ejemplo en particular.
Como saben, los tweets pueden contener un montón de basura, emoticones, pueden contener enlaces, puntuación, etc. etc. Para nuestro ejemplo todo lo que nos importa es la palabra "yo". No nos importa si tiene acentos o no y no nos importa si está en mayúsculas, minúsculas, etc. Así que recorreremos algunos pasos para normalizar nuestros datos y que sea más fácil trabajar con ellos.
Lo segundo, y lo último que vamos a hacer al recibir un tweet, es guardarlo en nuestras base de datos, así que tenemos dos campos en esta base de datos: La cadena de ID, que es un identificador único para ese tweet, y también tenemos el texto de ese tweet.

Para las personas, ya sabes, que están trabajando en data science y adquiriendo habilidades, practicando, etc. es importante que sepan que estas cosas, ya sabes, no se supone que se despierten y las entiendan. No se supone que despierten y digan: "OK, para escribir datos en una base de datos definitivamente debo crear un cursor, tengo que ejecutar una sentencia, etc."

Así que, ahora hemos sentado las bases para la recolección y limpieza de los datos, y, finalmente, la persistencia de esos datos desde la API de Twitter.

Comentarios

Melvy Virginia Pérez Ramos

student•

Hola!, en la app móvil no me sale la opción de la tuerca como se dice en el primer video, hay q descargar una nueva versión de la app de platzy, o q estoy haciendo mal?

Joaquin Borovich

student•

Hola, simplemento no funcionan los subtitulos en la app mobile en platzi, deberias pasarte a web. Saludos

Alexander Grajales Vanegas

student•

instale los requerimientos y la librería especifica de

y me sale este error que puede ser

ModuleNotFoundError Traceback (most recent call last)
<ipython-input-10-f5e4f2180e08> in <module>
----> 1 import tweepy

ModuleNotFoundError: No module named ‘tweepy’

Alexander Grajales Vanegas

student•

lo instale desde jupyter y me funciono lo estaba haciendo por la consola y no me estaba funcionando

adrian Ortiga

student•

En el twitter-inference-production hay una sentencia que me da error, añado a los detalles el error y la línea que me da el error.

Cuando ejecuto lo siguiente en jupiter:

streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

Me da los siguientes errores:

OperationalError: could not connect to server: Connection refused (0x0000274D/10061)
Is the server running on host “localhost” (::1) and accepting
TCP/IP connections on port 5432?

could not connect to server: Connection refused (0x0000274D/10061)
Is the server running on host “localhost” (127.0.0.1) and accepting
TCP/IP connections on port 5432?

Paul Alarcon

student•

Es un error de postgresql 5432 es el puerto de la base de datos

Gustavo David Guillen Gutierrez

student•

Cambia tus variables de esta manera, porque **os.getenv ** es para obtener variables de entorno del sistema caso que no aplica. Quizas el profesor lo hizo de esta manera para ocultar sus claves para la clase.

CONSUMER_KEY = 'TWITTER_CONSUMER_KEY'
CONSUMER_SECRET = 'TWITTER_CONSUMER_SECRET'
ACCESS_TOKEN = 'TWITTER_ACCESS_TOKEN'
ACCESS_TOKEN_SECRET = 'TWITTER_ACCESS_TOKEN_SECRET'

Daniel Morales

student•

No se ustedes, pero para mi no es una buena practica instalar todos los paquetes via requirements.txt porque podrian haber conflictos entre versiones o algo por el estilo. Por ejemplo, me dio problemas el paquete psycopg2 con la version 2.6.2, despues de media hora de buscar encontre que mi version compatible era 2.7.1. Muchos podrian quedar obsoletos, no se si haya una mejor manera. Porque instalar uno por uno tampoco es algo practico. O instalarlos todos via requirements pero sin especificar versiones, para que se traiga siempre la ultima (no se si sea posible). Alguna sugerencia?

Diego Forero

Team Platzi•

Para esto siempre debes crear entornos virtuales para cada proyecto y que te permita manejar versiones diferentes, el requirements es la mejor forma instalar paquetes en python, tienes que tener en cuenta que muchas veces no es util tener las últimas versiones ya que por ejemplo si no tienes la última version de postgresql si no que tienes por ejemplo la 9.1 en la más reciente version de psycopg2 puede que le quiten el soporte a esa versión y te fallará, es por esto que se mantienen estáticas las versiones en ese archivo.

Jesús Alfredo Delgado González

student•

Yo tuve problemas para instalar los paquetes, creo que es porque el video es de 2016 y ya hay actualizaciones de esas liberías/programas (o como se llamen). Instalé línea por línea sin versión y después con ‘pip freeze’ saqué la versión que se instaló en mi ambiente virtual. Aquí se las dejo por si a alguien le funciona la lista. Solo lo copian y pegan en un archivo .txt

appnope==0.1.0
backports-abc==0.5
bokeh==0.12.15
cycler==0.10.0
decorator==4.3.0
entrypoints==0.2.3
ipykernel==4.8.2
ipython==6.3.1
ipython-genutils==0.2.0
ipywidgets==7.2.1
Jinja2==2.10
jsonschema==2.6.0
jupyter==1.0.0
jupyter-client==5.2.3
jupyter-console==5.2.0
jupyter-core==4.4.0
MarkupSafe==1.0
matplotlib==2.2.2
mistune==0.8.3
nbconvert==5.3.1
nbformat==4.4.0
notebook==5.4.1
numpy==1.14.3
oauthlib==2.0.7
pandas==0.22.0
pexpect==4.5.0
pickleshare==0.7.4
prettyprint==0.1.5
prompt-toolkit==1.0.15
psycopg2==2.7.4
ptyprocess==0.5.2
Pygments==2.2.0
pyparsing==2.2.0
python-dateutil==2.7.2
pytz==2018.4
PyYAML==3.12
pyzmq==17.0.0
qtconsole==4.3.1
requests==2.18.4
requests-oauthlib==0.8.0
scipy==1.0.1
seaborn==0.8.1
simplegeneric==0.8.1
six==1.11.0
terminado==0.8.1
tornado==5.0.2
traitlets==4.3.2
tweepy==3.6.0
Unidecode==1.0.22
wcwidth==0.1.7
wheel==0.31.0
widgetsnbextension==3.2.1

alberto garcia cobo

student•

Me he instalado postgresql en mi PC pero tras la sentencia en jupyter notebook:

streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

obtengo el siguiente error:

---------------------------------------------------------------------------
OperationalError                          Traceback (most recent calllast)
<ipython-input-38-90c30ace842d> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-37-9be0767e670b> in __init__(self)
      6 
      7def __init__(self):
----> 8         self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
      9         super().__init__()
     10 

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2\__init__.py inconnect(dsn, connection_factory, cursor_factory, **kwargs)
    128 
    129     dsn = _ext.make_dsn(dsn, **kwargs)
--> 130     conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
    131if cursor_factory isnotNone:
    132conn.cursor_factory = cursor_factory

OperationalError: fe_sendauth: nopassword supplied```

¿Alguna indicación? Si para completar el ejercicio hay que configurar postgresql me vendría bien alguna guia. 
Gracias.

Diego Forero

Team Platzi•

El error que te esta dando es que no estas pasando el argumento password a la función el cual es requerido.

alberto garcia cobo

student•

Ahora que pongo la clave que seleccioné al instalar postgresql me sale este error:

OperationalError                          Traceback (most recent call last)
<ipython-input-22-90c30ace842d> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-20-9be0767e670b> in __init__(self)
      6 
      7     def __init__(self):
----> 8         self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
      9         super().__init__()
     10 

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2\__init__.py in connect(dsn, connection_factory, cursor_factory, **kwargs)
    128 
    129     dsn = _ext.make_dsn(dsn, **kwargs)
--> 130     conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
    131     if cursor_factory is not None:
    132         conn.cursor_factory = cursor_factory

OperationalError: ```

El problema puede ser de que hay que configurar la base de datos? en ese caso podríais ofrecer alguna guía más. Gracias.

Alexander Grajales Vanegas

student•

en este paso
streaming_api.filter(locations=COLOMBIA_GEO_LOCATION_BOUNDING_BOX, async=True)

se me genera el siguiente error

File “<ipython-input-178-ca20020afbcc>”, line 1
streaming_api.filter(locations=COLOMBIA_GEO_LOCATION_BOUNDING_BOX, async=True)
^
SyntaxError: invalid syntax

Alexander Grajales Vanegas

student•

se debería de especificar los requisitos para ese video, el de tener una base de datos postgreSQL y que se debe de contar con una app en tw developer

Noemí Medina Davila

student•

pip3 install -r requirements_8ebadfed-f717-416b-b485-39270459dbea.txt

Using cached psycopg2-2.6.2.tar.gz (376 kB) ERROR: Command errored out with exit status 1: command: /usr/bin/python3 -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-tfy5d0j9/psycopg2/setup.py'"'"'; file='"'"'/tmp/pip-install-tfy5d0j9/psycopg2/setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' egg_info --egg-base /tmp/pip-pip-egg-info-yvlhamoa cwd: /tmp/pip-install-tfy5d0j9/psycopg2/ Complete output (14 lines):

Alexander Grajales Vanegas

student•

File “<ipython-input-43-ca20020afbcc>”, line 1
streaming_api.filter(locations=COLOMBIA_GEO_LOCATION_BOUNDING_BOX, async=True)
^
SyntaxError: invalid syntax

se me presento este error, alguien sabe como puedo solucionarlo

Fredy Abel Huanca Torres

student•

is_async=True

Joseba Fuentes

student•

Para solucionar el error _ Error: pg_config executable not found._
usar el siguiente codigo:
sudo apt-get install libpq-dev python-dev

Jhon Fredy Duarte Vargas

student•

Cuando voy a la cuaderno de notas no me aparece esa carpeta de twitter-inference-production que puede ser?

Ruben Eduardo Acosta Vela

student•

Que no estas abriendo el notebook desde la carpeta que contiene el archivo.

Marco Antonio Jimenez Soto

student•

Una duda en caso que no se tenga un api quizá tan completa como la maneja twitter, como hace uno estas pruebas de montar el modelo?

Diego Forero

Team Platzi•

El modelo se monta dependiendo de los datos que quieres analizar, entonces todo depende del API con la que trabajes.

Beto Mendez Vilca

student•

Alguien quien me pueda ayudar con el siguiente error

---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
<ipython-input-23-c6e8734a0b11> in <module>()
----> 1 import psycopg2
      2 from tweepy import StreamListener
      3 
      4 
      5 class PersistedStreamListener(StreamListener):

ModuleNotFoundError: No module named 'psycopg2'

Diego Forero

Team Platzi•

Instalar psycopg2 en el entorno virtual

pip install psycopg

Beto Mendez Vilca

student•

Gracias

F.Javier Pedrosa Ruiz

student•

¿Alguien me puede explicar que significa esto?

OperationalError Traceback (most recent call last)
<ipython-input-16-9d057b837aa8> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-15-c6e8734a0b11> in init(self)
6
7 def init(self):
----> 8 self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
9 super().init()
10

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2_init_.py in connect(dsn, connection_factory, cursor_factory, **kwargs)
128
129 dsn = _ext.make_dsn(dsn, **kwargs)
–> 130 conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
131 if cursor_factory is not None:
132 conn.cursor_factory = cursor_factory

OperationalError: fe_sendauth: no password supplied

Diego Forero

Team Platzi•

El error dice que no se ha pasado el password para poder autenticar en la base de datos.

F.Javier Pedrosa Ruiz

student•

Muchas gracias!! parece que ya he solucionado el ultimo error… pero y los anteriores?

OperationalError Traceback (most recent call last)
<ipython-input-16-9d057b837aa8> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-15-c6e8734a0b11> in init(self)
6
7 def init(self):
----> 8 self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
9 super().init()
10

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2_init_.py in connect(dsn, connection_factory, cursor_factory, **kwargs)
128
129 dsn = _ext.make_dsn(dsn, **kwargs)
–> 130 conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
131 if cursor_factory is not None:
132 conn.cursor_factory = cursor_factory```

Daniel Morales

student•

Yo creo que la mejor manera de enseñar lenguajes de programacion es ir escribiendo codigo, mas que ir explicando que hace cada linea de codigo, porque el video se hace aburridor y poco practico. Lo mejor es ir escribiendo linea por linea, a mi ya me perdio aqui 😦 Lo mismo sucedio con el curso anterior

Armando Mendivil

student•

Esta bien cholo ese requirements.txt, en python no usan algo como npm?

Diego Forero

Team Platzi•

El gestor de paquetes se llama pip, puede leer el archivo requirements.txt e instalar los paquetes en la versión especificada. npm ademas de gestionar paquetes permite correr scripts pero es por la naturaleza de JavaScript y de node.

Gerson Ortega

student•

No puedo reproducir los vídeos!

Diego Forero

Team Platzi•

Gracias por el reporte, estamos trabajando para solucionar el problema.

Diego Forero

Team Platzi•

Ya esta solucionado, disfruta el curso.

Miyer Lozano Sanchez

student•

como activo los subtitulosen español desde la APP? No me aparece la opcion como lo muestra en el navegador.

appnope==0.1.0
backports-abc==0.5
bokeh==0.12.15
cycler==0.10.0
decorator==4.3.0
entrypoints==0.2.3
ipykernel==4.8.2
ipython==6.3.1
ipython-genutils==0.2.0
ipywidgets==7.2.1
Jinja2==2.10
jsonschema==2.6.0
jupyter==1.0.0
jupyter-client==5.2.3
jupyter-console==5.2.0
jupyter-core==4.4.0
MarkupSafe==1.0
matplotlib==2.2.2
mistune==0.8.3
nbconvert==5.3.1
nbformat==4.4.0
notebook==5.4.1
numpy==1.14.3
oauthlib==2.0.7
pandas==0.22.0
pexpect==4.5.0
pickleshare==0.7.4
prettyprint==0.1.5
prompt-toolkit==1.0.15
psycopg2==2.7.4
ptyprocess==0.5.2
Pygments==2.2.0
pyparsing==2.2.0
python-dateutil==2.7.2
pytz==2018.4
PyYAML==3.12
pyzmq==17.0.0
qtconsole==4.3.1
requests==2.18.4
requests-oauthlib==0.8.0
scipy==1.0.1
seaborn==0.8.1
simplegeneric==0.8.1
six==1.11.0
terminado==0.8.1
tornado==5.0.2
traitlets==4.3.2
tweepy==3.6.0
Unidecode==1.0.22
wcwidth==0.1.7
wheel==0.31.0
widgetsnbextension==3.2.1

---------------------------------------------------------------------------
OperationalError                          Traceback (most recent calllast)
<ipython-input-38-90c30ace842d> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-37-9be0767e670b> in __init__(self)
      6 
      7def __init__(self):
----> 8         self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
      9         super().__init__()
     10 

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2\__init__.py inconnect(dsn, connection_factory, cursor_factory, **kwargs)
    128 
    129     dsn = _ext.make_dsn(dsn, **kwargs)
--> 130     conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
    131if cursor_factory isnotNone:
    132conn.cursor_factory = cursor_factory

OperationalError: fe_sendauth: nopassword supplied```

¿Alguna indicación? Si para completar el ejercicio hay que configurar postgresql me vendría bien alguna guia. 
Gracias.

OperationalError                          Traceback (most recent call last)
<ipython-input-22-90c30ace842d> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-20-9be0767e670b> in __init__(self)
      6 
      7     def __init__(self):
----> 8         self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
      9         super().__init__()
     10 

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2\__init__.py in connect(dsn, connection_factory, cursor_factory, **kwargs)
    128 
    129     dsn = _ext.make_dsn(dsn, **kwargs)
--> 130     conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
    131     if cursor_factory is not None:
    132         conn.cursor_factory = cursor_factory

OperationalError: ```

El problema puede ser de que hay que configurar la base de datos? en ese caso podríais ofrecer alguna guía más. Gracias.

---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
<ipython-input-23-c6e8734a0b11> in <module>()
----> 1 import psycopg2
      2 from tweepy import StreamListener
      3 
      4 
      5 class PersistedStreamListener(StreamListener):

ModuleNotFoundError: No module named 'psycopg2'

OperationalError Traceback (most recent call last)
<ipython-input-16-9d057b837aa8> in <module>()
----> 1 streaming_api = Stream(auth=auth, listener=PersistedStreamListener())

<ipython-input-15-c6e8734a0b11> in init(self)
6
7 def init(self):
----> 8 self._database_connection = psycopg2.connect(dbname=DATABASE_NAME, user=USER, host=HOST, password=PASSWORD)
9 super().init()
10

C:\ProgramData\Anaconda3\lib\site-packages\psycopg2_init_.py in connect(dsn, connection_factory, cursor_factory, **kwargs)
128
129 dsn = _ext.make_dsn(dsn, **kwargs)
–> 130 conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
131 if cursor_factory is not None:
132 conn.cursor_factory = cursor_factory```

Ejemplo de inferencia en twitter para producción

Bienvenido al curso

¿Cómo activar los subtítulos para este curso?

Bienvenido al curso profesional de Data Science

Llevar tus cosas a Producción

Llevar tus cosas a producción

Bases de datos: SQL o NoSQL

ETL

Mostrar tus datos mediante dashboards

Repaso por Jupyter Notebook