Para el uso de proxies de enmascaramiento, una vez se ha iniciado el proyecto se debe:
-
Tener una lista servidores proxy a ser utilizados, se pueden usar varias fuentes, eje: https://free-proxy-list.net/ o https://socks-proxy.net/, etc. El formato para que los servidores sean validos es: LIST_OF_PROXIES = [ ‘http://IP:Pto’, ‘https://IP:Pto’ , ‘socks4://IP:Pto’]
-
Dentro del archivo middlewares.py se debe añadir el siguiente código a los métodos creados por scrapy
import random
LIST_OF_PROXIES = [
'https://...:..',
'https://...:8080',
'https://...:53281', ...
]
#dentro de la clase Downloader
class NombrespiderDownloaderMiddleware(object):
...
def process_request(self, request, spider):
proxy = random.choice(LIST_OF_PROXIES)
request.meta["proxy"] = proxy
return None
...
- Luego en el archivo settings.py, se debe activar el DOWNLOADER_MIDDLEWARES
DOWNLOADER_MIDDLEWARES = {
'nombrespider.middlewares.NombrespiderDownloaderMiddleware': 543,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 593,
}
Muchas gracias
Curso de Scrapy
0 Comentarios
para escribir tu comentario