Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Data wrangling con Pandas

25/38
Recursos

Data wrangling es una de las actividades más importantes de todos los profesionales de datos. Simplemente es limpiar, transformar y enriquecer el dataset para objetivos posteriores.

Pandas es una de las herramientas más poderosas para realizar este ““domado”” de datos. Recordemos que Pandas trae muchas de sus abstracciones del lenguaje R, pero nos otorga lo mejor de ambos mundos, por eso es tan popular.

Nos permite:

  • generar transformaciones con gran facilidad.
  • trabajar rápidamente con datasets grandes
  • detectar y reemplazar faltantes
  • agrupar y resumir nuestros datos
  • visualizar nuestros resultados.

Aportes 40

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Pandas es lo máximo pero tiene sus limites, cuando el dataset es demasiado grande (millones de registros) es mejor usar otra herramienta llamada Pyspark que es una librería de py para trabajar con Apache Spark, la ventaja de esta es que permite un procesamiento distribuido y rápido (trabaja en memoria). Esta herramienta es muy común cuando trabajas con un Clúster y no tienes tantas limitaciones de recursos para tus procesos (Memoria y CPU).

panseme el csv please

Les dejo el link de lo que puedes hacer con urllib.parse aqui

Me esta encantando este curso ❤️

Explicacion y ejemplo de lambda ?

cuando un articulo está escrito por parrafos encerrados en <p> el body queda lleno de esos p, hay alguna forma eficiente de quitarlos? o debo hacer un slicing?

Para conocer un poco más sobre la función apply.

Hola buenos dias a todos, alquien podria por favor darme alguna explicacion complementaria acerca de la funcionalidad y uso de lambda , y un ejemplo adicional.

Gusto de antemano por su colaboracion.

pandas es el paquete de referencia para trabajar con grandes conjuntos de datos en Python. Está hecho para trabajar con conjuntos de datos generalmente por debajo o alrededor de 1 GB de tamaño, pero en realidad este límite varía según las limitaciones de memoria del dispositivo en el que lo ejecuta. Una buena regla general es tener al menos de cinco a diez veces la cantidad de memoria en el dispositivo que su conjunto de datos.



Muy buen contenido

Agregar la url al dataset de las clases anteriores

Alguien podría pasarme el .csv? Tuve problemas con el mio, y no lo encuentro en el repositorio. Gracias.

Quiero el datatset que estamos trabajando es que el que tengo tienes unos incovenientes

Se me presenta un error con el codigo

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-17-ac7db547dc42> in <module>()
      1 import pandas as pd
      2 import seaborn as sns
----> 3 from urllib.parse import urlparse

ImportError: No module named parse```

y lo estoy importando así 



from urllib.parse import urlparse```

excelente clase

Al momento de correr la modificación para agregar la url al archivo csv me aparecía el siguiente error:

File "http://main.py", line 50, in _save_articles
    writer.writerow(row)
UnicodeEncodeError: 'ascii' codec can't encode character '\xed' in position 5: ordinal not in range(128)

El profesor me indicó que debía modificar la función open con algo como: "`with open(‘some.csv’, encoding=‘utf-8’)"
Hice la corrección y funcionó. Aquí el vínculo a la documentación:
https://docs.python.org/3/howto/unicode.html#reading-and-writing-unicode-data

Muy buena clase…

Me acaba de surgir una duda:

Alguien sabe cual es la diferencia entre utilizar “el_universal[‘host’]” y “el_universal.host”?

Excelente clase!!!

El momento más épico del curso :D

muy interesante!

Excelente clase, vamos por mas

el_universal['host'].value_counts()

www.eluniversal.com.mx         98
www.viveusa.mx                 13
de10.com.mx                     7
www.elgrafico.mx                6
www.eluniversalqueretaro.mx     5
                               ..
www.unionpuebla.mx              3
www.unionyucatan.mx             2
www.clubeluniversal.mx          1
eluniversal.com.mx              1
www.unioncdmx.mx                1
Name: host, Length: 15, dtype: int64

Para semana:
www.semana.com 69
www.dinero.com 1
Para el tiempo:
www.eltiempo.com 83
www.portafolio.co 1

Vamos entendiendo mucho mejor.

Ya empezamos a ver el poder de Pandas

Nunca vamos a encontrar una DataSet limpio, siempre vamos a tener que domarlos.

Vamo a limpiar!

Vamos bien, un poco mas claro todo

Pandas de los mejores temas hasta el momento.

El resultado que obtuve del la revista semana, solo un host de otra sitio web.

Super el tema… y las instrucciones son geniales, pero veo solo la practica dara excelentes resultados… adelante…

Me gusto mucho la introducción a Pandas. A seguir!

En mi caso tuve el siguiente resultado:

www.eluniversal.com.mx    25
Name: host, dtype: int64

Muy buena clase para un tema muy importante.

Con pandas yo pude trabajar con un dataset de aproximadamente 20 millones de registros. Claro que para ello, no lo pude trabajar de manera local, sino con el uso de: los KERNELS DE KAGGLE. Estos kernels son una herramienta muy poderosa y te brinda 16 GB netas para el procesamiento de tus datos.

Adjunto enlace: kaggle notebooks.

Para ello solo hacen click en New Notebook y ya generaran su entorno de trabajo. Saludos

Quería procesar 268643 tuplas y me salió el siguiente error:

C:\Users\Usuario\AppData\Roaming\Python\Python38\site-packages\IPython\core\interactiveshell.py:3145: DtypeWarning: Columns (3,6) have mixed types.Specify dtype option on import or set low_memory=False.
  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,```

Al parecer Pandas tiene una cierta limitante.
Es por ello que Pyspark sería una buena opción ante tanta data a mostrar.