
Brayan Alejandro
PreguntaSi encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

Moisés Manuel Morín Hevia
https://www.instagram.com/robots.txt Instagram tiene justo como dices, ve la última línea.

Moisés Manuel Morín Hevia
No va a pasar porque todos queremos que google nos encuentre. Puede que sí pase frecuentemente en la deepweb.

Luis Mario Rivas Hernández
Instagram tiene esa configuración que dices

Israel Yance

Israel Yance
Error mío. Pensé que solo eran esas dos líneas que pusiste. Que en los casos que mencionas se configuran al último justo después de dar permiso o configurar el acceso a ciertos bots.
En sí de poder scrapear una web por más que tenga eso, se puede. Pero como se menciona, se puede estar cometiendo un delito y no es recomendable hacerlo.
O sea, se puede pero no se debería.

Brayan Alejandro
También se encuentra en la parte inferior de https://www.facebook.com/robots.txt.

Brayan Alejandro
Lo encontré en https://www.fincaraiz.com.co/robots.txt.

Israel Yance
No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.