No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Scrapy

Curso de Scrapy

Facundo García Martoni

Facundo García Martoni

Bonus: automatizar procesos con la API

25/27
Recursos

Aportes 10

Preguntas 0

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Estos profesores de Platzi son unos Rock Stars 😄

Excelente bonus

URLs usadas en este Bonus:

curl -u 64ac5088d7794ca990bccb3e88da891f https://app.scrapinghub.com/api/run.json -d project=475018 -d spider=cia
curl -u 64ac5088d7794ca990bccb3e88da891f https://storage.scrapinghub.com/items/475018/1/2

Para terminar este gran curso.
He estado desarrollando un proyecto donde he aprendido mucho
sobre scrapy. Entre las cuales está:

  • usar repsonse.follow es la más ineficiente para usar scrapy
    porque no envía todas las request al engine, haciéndolo más lento
  • Para solucionar esto, se usa el método start_requests para
    enviar todas requests y sean asíncronas (de lo contrario no
    lo son)
  • Si vamos a extraer o hacer crawling a través del response
    follow, usemos Rules y LinkExtractor para capturar todos
    los links desde el método correcto.
  • En cuanto custom_settings, ya no se usan las formas
    mostradas en el curso de acuerdo con la documentación
    ahora es, por ejemplo:

Solo tomen en cuenta settings. Lo demás es para correr el spider
desde un módulo normal a través de if “name” == “main”

process = CrawlerProcess(settings = {
        'FEEDS': {
            'sectors.json':{
                'format':'json',
                'encoding':'utf-8',
                'indent': 4
            }
        }
    })
    process.crawl(SectorsSpider)
    process.start()

saludos y espero les interese esta área que a mí encanto
Gracias platzi por ayudarme a encontrar lo que me gusta

curl verificara si esta revocado el certificado por este motivo puede dar error para evitarle se le agrega la bandera

--ssl-no-revoke

quedando asi:

 curl -u KEY: https://app.scrapinghub.com/api/run.json -d project=PROJECT-d spider=cia --ssl-no-revoke

La automatización consiste en usar la tecnología para realizar tareas casi sin necesidad de las personas.

Excelente, gracias

Genial para uso remoto.

muy interesante