Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

Brayan Alejandro

Pregunta

student•hace 5 años

Moisés Manuel Morín Hevia

student•hace 4 años

https://www.instagram.com/robots.txt Instagram tiene justo como dices, ve la última línea.

Moisés Manuel Morín Hevia

student•hace 4 años

No va a pasar porque todos queremos que google nos encuentre. Puede que sí pase frecuentemente en la deepweb.

Luis Mario Rivas Hernández

student•hace 5 años

Instagram tiene esa configuración que dices

Israel Yance

student•hace 5 años

Acá más info: https://platzi.com/tutoriales/1751-webscraping/4980-web-scraping-en-python/

Israel Yance

student•hace 5 años

Error mío. Pensé que solo eran esas dos líneas que pusiste. Que en los casos que mencionas se configuran al último justo después de dar permiso o configurar el acceso a ciertos bots.

En sí de poder scrapear una web por más que tenga eso, se puede. Pero como se menciona, se puede estar cometiendo un delito y no es recomendable hacerlo.

O sea, se puede pero no se debería.

Brayan Alejandro

student•hace 5 años

También se encuentra en la parte inferior de https://www.facebook.com/robots.txt.

Brayan Alejandro

student•hace 5 años

Lo encontré en https://www.fincaraiz.com.co/robots.txt.

Israel Yance

student•hace 5 años

No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.

Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

Curso de Web Scraping con Python y Xpath

Curso de Web Scraping con Python y Xpath