Brayan Alejandro
PreguntaSi encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?
Israel Yance
No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.
Brayan Alejandro
Lo encontré en https://www.fincaraiz.com.co/robots.txt.
Brayan Alejandro
También se encuentra en la parte inferior de https://www.facebook.com/robots.txt.
Israel Yance
Error mío. Pensé que solo eran esas dos líneas que pusiste. Que en los casos que mencionas se configuran al último justo después de dar permiso o configurar el acceso a ciertos bots.
En sí de poder scrapear una web por más que tenga eso, se puede. Pero como se menciona, se puede estar cometiendo un delito y no es recomendable hacerlo.
O sea, se puede pero no se debería.
Israel Yance
Luis Mario Rivas Hernández
Instagram tiene esa configuración que dices
Moisés Manuel Morín Hevia
No va a pasar porque todos queremos que google nos encuentre. Puede que sí pase frecuentemente en la deepweb.
Moisés Manuel Morín Hevia
https://www.instagram.com/robots.txt Instagram tiene justo como dices, ve la última línea.
