Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

Brayan Alejandro

Brayan Alejandro

Pregunta
studenthace 5 años

Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

8 respuestas
para escribir tu comentario
    Moisés Manuel Morín Hevia

    Moisés Manuel Morín Hevia

    studenthace 4 años

    No va a pasar porque todos queremos que google nos encuentre. Puede que sí pase frecuentemente en la deepweb.

    Luis Mario Rivas Hernández

    Luis Mario Rivas Hernández

    studenthace 5 años

    Instagram tiene esa configuración que dices

    Israel Yance

    Israel Yance

    studenthace 5 años

    Error mío. Pensé que solo eran esas dos líneas que pusiste. Que en los casos que mencionas se configuran al último justo después de dar permiso o configurar el acceso a ciertos bots.

    En sí de poder scrapear una web por más que tenga eso, se puede. Pero como se menciona, se puede estar cometiendo un delito y no es recomendable hacerlo.

    O sea, se puede pero no se debería.

    Israel Yance

    Israel Yance

    studenthace 5 años

    No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.

Curso de Web Scraping con Python y Xpath

Curso de Web Scraping con Python y Xpath

Aprende las bases de la extracción de datos en Internet y descubre cómo funciona una aplicación de Web Scraping internamente. Desarrolla scripts a través de herramientas como Python y las DevTools del navegador y consigue tu siguiente trabajo en cualquier empresa de tecnología.

Curso de Web Scraping con Python y Xpath
Curso de Web Scraping con Python y Xpath

Curso de Web Scraping con Python y Xpath

Aprende las bases de la extracción de datos en Internet y descubre cómo funciona una aplicación de Web Scraping internamente. Desarrolla scripts a través de herramientas como Python y las DevTools del navegador y consigue tu siguiente trabajo en cualquier empresa de tecnología.