A煤n no tienes acceso a esta clase

Crea una cuenta y contin煤a viendo este curso

Data wrangling con Pandas

25/38
Recursos

Data wrangling es una de las actividades m谩s importantes de todos los profesionales de datos. Simplemente es limpiar, transformar y enriquecer el dataset para objetivos posteriores.

Pandas es una de las herramientas m谩s poderosas para realizar este 鈥溾domado鈥濃 de datos. Recordemos que Pandas trae muchas de sus abstracciones del lenguaje R, pero nos otorga lo mejor de ambos mundos, por eso es tan popular.

Nos permite:

  • generar transformaciones con gran facilidad.
  • trabajar r谩pidamente con datasets grandes
  • detectar y reemplazar faltantes
  • agrupar y resumir nuestros datos
  • visualizar nuestros resultados.

Aportes 40

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

Pandas es lo m谩ximo pero tiene sus limites, cuando el dataset es demasiado grande (millones de registros) es mejor usar otra herramienta llamada Pyspark que es una librer铆a de py para trabajar con Apache Spark, la ventaja de esta es que permite un procesamiento distribuido y r谩pido (trabaja en memoria). Esta herramienta es muy com煤n cuando trabajas con un Cl煤ster y no tienes tantas limitaciones de recursos para tus procesos (Memoria y CPU).

panseme el csv please

Les dejo el link de lo que puedes hacer con urllib.parse aqui

Me esta encantando este curso 鉂わ笍

Explicacion y ejemplo de lambda ?

cuando un articulo est谩 escrito por parrafos encerrados en <p> el body queda lleno de esos p, hay alguna forma eficiente de quitarlos? o debo hacer un slicing?

Para conocer un poco m谩s sobre la funci贸n apply.

Hola buenos dias a todos, alquien podria por favor darme alguna explicacion complementaria acerca de la funcionalidad y uso de lambda , y un ejemplo adicional.

Gusto de antemano por su colaboracion.

pandas es el paquete de referencia para trabajar con grandes conjuntos de datos en Python. Est谩 hecho para trabajar con conjuntos de datos generalmente por debajo o alrededor de 1 GB de tama帽o, pero en realidad este l铆mite var铆a seg煤n las limitaciones de memoria del dispositivo en el que lo ejecuta. Una buena regla general es tener al menos de cinco a diez veces la cantidad de memoria en el dispositivo que su conjunto de datos.



Muy buen contenido

Agregar la url al dataset de las clases anteriores

Alguien podr铆a pasarme el .csv? Tuve problemas con el mio, y no lo encuentro en el repositorio. Gracias.

Quiero el datatset que estamos trabajando es que el que tengo tienes unos incovenientes

Se me presenta un error con el codigo

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-17-ac7db547dc42> in <module>()
      1 import pandas as pd
      2 import seaborn as sns
----> 3 from urllib.parse import urlparse

ImportError: No module named parse```

y lo estoy importando as铆 



from urllib.parse import urlparse```

excelente clase

Al momento de correr la modificaci贸n para agregar la url al archivo csv me aparec铆a el siguiente error:

File "http://main.py", line 50, in _save_articles
    writer.writerow(row)
UnicodeEncodeError: 'ascii' codec can't encode character '\xed' in position 5: ordinal not in range(128)

El profesor me indic贸 que deb铆a modificar la funci贸n open con algo como: "`with open(鈥榮ome.csv鈥, encoding=鈥榰tf-8鈥)"
Hice la correcci贸n y funcion贸. Aqu铆 el v铆nculo a la documentaci贸n:
https://docs.python.org/3/howto/unicode.html#reading-and-writing-unicode-data

Muy buena clase鈥

Me acaba de surgir una duda:

Alguien sabe cual es la diferencia entre utilizar 鈥渆l_universal[鈥榟ost鈥橾鈥 y 鈥渆l_universal.host鈥?

Excelente clase!!!

El momento m谩s 茅pico del curso :D

muy interesante!

Excelente clase, vamos por mas

el_universal['host'].value_counts()

www.eluniversal.com.mx         98
www.viveusa.mx                 13
de10.com.mx                     7
www.elgrafico.mx                6
www.eluniversalqueretaro.mx     5
                               ..
www.unionpuebla.mx              3
www.unionyucatan.mx             2
www.clubeluniversal.mx          1
eluniversal.com.mx              1
www.unioncdmx.mx                1
Name: host, Length: 15, dtype: int64

Para semana:
www.semana.com 69
www.dinero.com 1
Para el tiempo:
www.eltiempo.com 83
www.portafolio.co 1

Vamos entendiendo mucho mejor.

Ya empezamos a ver el poder de Pandas

Nunca vamos a encontrar una DataSet limpio, siempre vamos a tener que domarlos.

Vamo a limpiar!

Vamos bien, un poco mas claro todo

Pandas de los mejores temas hasta el momento.

El resultado que obtuve del la revista semana, solo un host de otra sitio web.

Super el tema鈥 y las instrucciones son geniales, pero veo solo la practica dara excelentes resultados鈥 adelante鈥

Me gusto mucho la introducci贸n a Pandas. A seguir!

En mi caso tuve el siguiente resultado:

www.eluniversal.com.mx    25
Name: host, dtype: int64

Muy buena clase para un tema muy importante.

Con pandas yo pude trabajar con un dataset de aproximadamente 20 millones de registros. Claro que para ello, no lo pude trabajar de manera local, sino con el uso de: los KERNELS DE KAGGLE. Estos kernels son una herramienta muy poderosa y te brinda 16 GB netas para el procesamiento de tus datos.

Adjunto enlace: kaggle notebooks.

Para ello solo hacen click en New Notebook y ya generaran su entorno de trabajo. Saludos

Quer铆a procesar 268643 tuplas y me sali贸 el siguiente error:

C:\Users\Usuario\AppData\Roaming\Python\Python38\site-packages\IPython\core\interactiveshell.py:3145: DtypeWarning: Columns (3,6) have mixed types.Specify dtype option on import or set low_memory=False.
  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,```

Al parecer Pandas tiene una cierta limitante.
Es por ello que Pyspark ser铆a una buena opci贸n ante tanta data a mostrar.