Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Visualización de datos

34/38
Recursos

Aportes 32

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Este es de los mejores cursos de platzi 💚

Amigos se le sale este tipo de error

ParserError: Error tokenizing data. C error: Expected 44 fields in line 4, saw 64

Solo agregen el sep=";"

clean_eluniversal = pd.read_csv('web_scrapper_curso_data_eng/eluniversal_clean.csv',sep=";")
clean_elpais = pd.read_csv('web_scrapper_curso_data_eng/elpais_clean.csv',sep=";")

Buenas noches compañeros.

Al correr la el codigo para el pais, me sale este error, alguno sabe solucionarlo?

<  File "D:\anaconda3\lib\site-packages\pandas\core\frame.py", line 6942, in infer
    return lib.map_infer(x.astype(object).values, func)
  File "pandas\_libs\lib.pyx", line 2329, in pandas._libs.lib.map_infer
  File "newspaper_receipe.py", line 69, in <lambda>
    .applymap(lambda title: title.split('-'))
AttributeError: 'float' object has no attribute 'split'>

Hola compañeros. Me pasa algo curioso: cuando ejecuto nuevamente el código ‘news_scraper.py’ para sacar el web scrapper de El País me aparece este error (abajo). Pero cuando lo ejecuto para El Universal o El Washington Post se ejecuta correctamente. ¿A qué se deberá ésto?

INFO:root:Beginning scraper for https://elpais.com/
INFO:root:Finding links in homepage...
Traceback (most recent call last):
  File"news_scraper.py", line 91, in <module>
    _news_scraper(args.news_site)
  File"news_scraper.py", line 37, in _news_scraper
    _save_articles(news_site_uid, articles)
  File"news_scraper.py", line 68, in _save_articles
    filter(lambda property: not property.startswith('_'), dir(articles[0])))
IndexError: list index out of range

que se puede hacer con un web scrapper? he estado pensando en posibles aplicaciones y solo se me ocurre por ejemplo buscar catalogos de productos en internet y extraer información relevante (precio, descripción, calificación si existe, etc) y hacerles un web scraper para extraerla, pero no se me ocurre otra aplicación.

Increíble que año y medio después de que fue grabado este vídeo, obtenga la misma dispersión de datos.
Tokens Title

Comparto apuntes teoricos y del proyecto

https://github.com/francomanca93/ingenieria-de-datos

les comparto el analisis del unversal y el tiempo

https://ibb.co/yhBwzHr

Vuelvo a Platzi despues de unos meses de ser contratado cómo Data Engineer, no han sido más que 04 meses desde que me agregaron a un proyecto y vaya que el curso conversa mucho con las labores que realizo, en mi caso con Spark. 5 estrellas para el curso!

df.describe(include='all')

Nos da un análisis inicial incluyendo todas las variables, no solo numéricas.

Buena explicación.

genial simplemente genial lo que se puede lograr con lo aprendido en este curso. 😮 me sigue sorprendiendo.

Esta clase me genero mas dudas que nunca Jajaja

entiendo que el eje y corresponde a la cantidad de tokens pero no entiendo a que se refier el eje x

Excelente clase, listos para darle al proyecto

Excelente clase.-

el eje x en las gráficas es el indice del articulo?

muy interesante!

Excelente clase, el flujo de trabajo empleado hasta el momento me parecio excelente

para los que les salio el error al leer al archivo pueden agregar esto y les carga bien en Jupyter

clean_eltiempo = pd.read_csv('clean_eltiempo_2020_05_04_articles.csv',encoding='ISO-8859–1')```

When inplace=True is passed, the data is renamed in place (it returns nothing), so you’d use:

df.an_operation(inplace=True)

When inplace=False is passed (this is the default value, so isn’t necessary), performs the operation and returns a copy of the object, so you’d use:

df = df.an_operation(inplace=False) 

aqui mi primer linea de codigo

clean_eluniversal.describe()

	n_tokens_title	n_tokens_body

count 102.000000 102.000000
mean 5.725490 328.617647
std 1.919967 277.124237
min 1.000000 61.000000
25% 5.000000 158.750000
50% 6.000000 237.000000
75% 7.000000 380.500000
max 11.000000 1310.000000

Sobre que lectura se habla?

Buenas tardes, si alguien me puede ayudar, veo en mi archivo limpio que en el texto no se reconocen las tildes, las ‘ñ’, aparecen caracteres como:

El líder opositor venezolano, Juan Guaidó.FE…
“Cuando era una niña, en las clases de nata…
El 1 de septiembre de 1996, después de un dis…
En las últimas semanas, los habitantes de Go…

Gracias por su colaboración.

aqui el resultado de tabular y graficar… solo tengo un csv…

aqui el resultado por body

Bueno, yo no soy un experto en este tema de análisis de datos aún, pero para las gráficas que se obtuvieron creo que es importante tomar estos tokens y dividirlo entre la longitud (en número de palabras) del artículo como tal, ya que se presta para una conclusión un poco sesgada a mi parecer. Un artículo corto siempre va a tener menos tokens que uno extenso, y si se hace la división se puede tener una mejor visión de cuál editorial ingresa mayor contenido a sus artículos

tengo el siguiente error AttributeError: ‘function’ object has no attribute ‘to_csv’, que no me reconoce el df como un dataframe de pandas

Gracias profe, por tus grandes explicaciones

Es muy probable que tus graficas no sean iguales a las del profesor, para esto se necesita tener el csv que el uso, en mi caso el scraper descargó una cantidad menor de articulos en ambos periodicos y esto imagino (ya que no soy experto en html y css) que es porque habran cambiado clases o la estructura de los periodicos o incluso el numero de articulos que tienen el dia que se descargo la info, por lo que es muy probable que las graficas difieran enormemente.

Muy buenas aplicaciones para los datasets realizados durante las clases anteriores.

excelente curso