Recolectando y limpiando nuestros datos

Clase 18 de 35 • Curso Profesional de Data Science 2016

Contenido del curso

Bienvenido al curso

Llevar tus cosas a Producción

Machine Learning

Estadística

Herramientas clave que usa un data scientist

Construyendo un equipo de data science

¿Qué sigue?

Tomar examen

Resumen

La idea es es crear un modelo de machine learning para detectar insultos en redes sociales. Entonces tenemos al favorito de todos: Donald J. Trump.

Vamos a usar machine learning para hacer esto. Este va a ser un problema de aprendizaje supervisado. Vamos a tomar datos que hemos recogido previamente, cada uno es un comentario en una red social, y tiene una etiqueta vinculada. Y por supuesto esta es una tarea de aprendizaje supervisado.

En este ejemplo utilizamos varias bibliotecas:

Re, que es la biblioteca de expresiones regulares en Python, y string.
Pandas
Sklearn.

Lo primero que hacemos es cargar nuestros datos. Para hacer esto vamos a usar la función read.csv de pandas. Como nota al pie, el módulo E/S de pandas es fenomenal. Realmente facilita consumir datos desde una variedad de fuentes, intuir el esquema de esos datos, etc.

Antes hablamos de que las relaciones en los datos en muchos casos cambiarán fundamentalmente con el tiempo. Yo no pensaría que decir algo como: "eres estúpido" sería un mayor insulto hoy de lo que habría sido hace cinco años. Y por supuesto podría estar equivocado pero ese es mi propio primer instinto.

Y seguimos por algunos casos puntuales donde podemos inferir que cierto conjunto de palabras son un insulto.

Ahora que hemos recorrido el proceso de cargar nuestros datos, limpiar nuestros datos, inspeccionar nuestros datos y visualizar nuestros datos, estamos listos para empezar a crear modelos, hacer validación cruzada de estos y averiguar qué hiper parámetros nos dan el modelo que mejor predice.

Comentarios

Luis Carlos Parra Raffán

student•

No encontré en el data set para este ejercicio, debería estar como parte de los archivos de este video.

Sergio Alexander Florez Galeano

student•

Por aquí encontre el set de datos en este repositorio:

De acuerdo contigo de que debería estar el archivo adjunto al curso.

Luis Carlos Parra Raffán

student•

Muchas gracias !

Roberto Esteves

student•

https://platzi.com/clases/datascience/concepto/llevar-tus-cosas-a-produccion/ejemplo-de-inferencia-en-twitter-para-produccion/material/ <- me da error 404

F.Javier Pedrosa Ruiz

student•

¿Donde hay que guardar el fichero ‘train.csv’ para que lo pueda leer desde jupyter?

Diego Forero

Team Platzi•

En la misma carpeta donde esta el archivo de jupyter notebook.

F.Javier Pedrosa Ruiz

student•

Sigo teniendo este error… ¿alguien me puede orientar? Gracias

---------------------------------------------------------------------------
ParserError                               Traceback (most recent call last)
<ipython-input-3-c89a767f54a7> in <module>()
----> 1 training_data = pd.read_csv('train.csv')
      2 training_data.head(7)

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, escapechar, comment, encoding, dialect, tupleize_cols, error_bad_lines, warn_bad_lines, skipfooter, skip_footer, doublequote, delim_whitespace, as_recarray, compact_ints, use_unsigned, low_memory, buffer_lines, memory_map, float_precision)
    653                     skip_blank_lines=skip_blank_lines)
    654 
--> 655         return _read(filepath_or_buffer, kwds)
    656 
    657     parser_f.__name__ = name

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
    409 
    410     try:
--> 411         data = parser.read(nrows)
    412     finally:
    413         parser.close()

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1003                 raise ValueError('skipfooter not supported for iteration')
   1004 
-> 1005         ret = self._engine.read(nrows)
   1006 
   1007         if self.options.get('as_recarray'):

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1746     def read(self, nrows=None):
   1747         try:
-> 1748             data = self._reader.read(nrows)
   1749         except StopIteration:
   1750             if self._first_chunk:

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read (pandas\_libs\parsers.c:10862)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory (pandas\_libs\parsers.c:11138)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows (pandas\_libs\parsers.c:11884)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows (pandas\_libs\parsers.c:11755)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error (pandas\_libs\parsers.c:28765)()

ParserError: Error tokenizing data. C error: Expected 1 fields in line 115, saw 3```

Daniel Morales

student•

y donde esta el requirements.txt con todos los paquetes? al igual que el kaggle del dataset deberia estar aca

Diego Forero

Team Platzi•

En este material encuentras el requirements.txt en la pestaña de archivos https://platzi.com/clases/datascience/concepto/llevar-tus-cosas-a-produccion/ejemplo-de-inferencia-en-twitter-para-produccion/material/

El data set creo que fue retirado de kaggle pero aquí lo encuentras

Daniel Morales

student•

Vale, gracias!

---------------------------------------------------------------------------
ParserError                               Traceback (most recent call last)
<ipython-input-3-c89a767f54a7> in <module>()
----> 1 training_data = pd.read_csv('train.csv')
      2 training_data.head(7)

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, escapechar, comment, encoding, dialect, tupleize_cols, error_bad_lines, warn_bad_lines, skipfooter, skip_footer, doublequote, delim_whitespace, as_recarray, compact_ints, use_unsigned, low_memory, buffer_lines, memory_map, float_precision)
    653                     skip_blank_lines=skip_blank_lines)
    654 
--> 655         return _read(filepath_or_buffer, kwds)
    656 
    657     parser_f.__name__ = name

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
    409 
    410     try:
--> 411         data = parser.read(nrows)
    412     finally:
    413         parser.close()

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1003                 raise ValueError('skipfooter not supported for iteration')
   1004 
-> 1005         ret = self._engine.read(nrows)
   1006 
   1007         if self.options.get('as_recarray'):

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1746     def read(self, nrows=None):
   1747         try:
-> 1748             data = self._reader.read(nrows)
   1749         except StopIteration:
   1750             if self._first_chunk:

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read (pandas\_libs\parsers.c:10862)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory (pandas\_libs\parsers.c:11138)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows (pandas\_libs\parsers.c:11884)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows (pandas\_libs\parsers.c:11755)()

pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error (pandas\_libs\parsers.c:28765)()

ParserError: Error tokenizing data. C error: Expected 1 fields in line 115, saw 3```

Recolectando y limpiando nuestros datos

Bienvenido al curso

¿Cómo activar los subtítulos para este curso?

Bienvenido al curso profesional de Data Science

Llevar tus cosas a Producción

Llevar tus cosas a producción

Bases de datos: SQL o NoSQL

ETL

Mostrar tus datos mediante dashboards

Repaso por Jupyter Notebook

Ejemplo de inferencia en twitter para producción

Creando nuestro modelo matematico

Automatización

Llevar tus cosas a producción

Machine Learning

Un poco de contexto sobre machine learning

Entrenando un modelo de Machine Learning

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Modelos canónicos y para que los usamos

Más modelos canonicos

Itera rápido o muere lento