COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Para el uso de proxies de enmascaramiento, una vez se ha iniciado el proyecto se debe:

  1. Tener una lista servidores proxy a ser utilizados, se pueden usar varias fuentes, eje: https://free-proxy-list.net/ o https://socks-proxy.net/, etc. El formato para que los servidores sean validos es: LIST_OF_PROXIES = [ ‘http://IP:Pto’, ‘https://IP:Pto’ , ‘socks4://IP:Pto’]

  2. Dentro del archivo middlewares.py se debe añadir el siguiente código a los métodos creados por scrapy

import random

LIST_OF_PROXIES = [
    'https://...:..',
    'https://...:8080',
    'https://...:53281', ...
]

#dentro de la clase Downloader
class NombrespiderDownloaderMiddleware(object):
	    
	...
    
	def process_request(self, request, spider):
		proxy = random.choice(LIST_OF_PROXIES)
	        request.meta["proxy"] = proxy
        	return None	
      
       	...
  1. Luego en el archivo settings.py, se debe activar el DOWNLOADER_MIDDLEWARES
DOWNLOADER_MIDDLEWARES = {
    'nombrespider.middlewares.NombrespiderDownloaderMiddleware': 543,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 593,  
}

Muchas gracias

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

0 Comentarios

para escribir tu comentario