CursosEmpresasBlogLiveConfPrecios

Robots.txt: permisos y consideraciones al hacer web scraping

Clase 6 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Clase anteriorSiguiente clase

Contenido del curso

Introducción al web scraping

  • 1
    ¿Qué es el web scraping?

    ¿Qué es el web scraping?

    02:06 min
  • 2
    ¿Por qué aprender web scraping hoy?

    ¿Por qué aprender web scraping hoy?

    03:05 min
  • 3
    Python: el lenguaje más poderoso para extraer datos

    Python: el lenguaje más poderoso para extraer datos

    03:21 min

Fundamentos de la web

  • 4
    Entender HTTP

    Entender HTTP

    07:02 min
  • 5
    ¿Qué es HTML?

    ¿Qué es HTML?

    08:08 min
  • 6
    Robots.txt: permisos y consideraciones al hacer web scraping

    Robots.txt: permisos y consideraciones al hacer web scraping

    Viendo ahora

XML Path Language

  • 7
    XML Path Language

    XML Path Language

    03:35 min
  • 8
    Tipos de nodos en XPath

    Tipos de nodos en XPath

    05:18 min
  • 9
    Expresiones en XPath

    Expresiones en XPath

    08:18 min
  • 10
    Predicados en Xpath

    Predicados en Xpath

    05:34 min
  • 11
    Operadores en Xpath

    Operadores en Xpath

    05:51 min
  • 12
    Wildcards en Xpath

    Wildcards en Xpath

    06:11 min
  • 13
    In-text search en Xpath

    In-text search en Xpath

    08:21 min
  • 14
    XPath Axes

    XPath Axes

    05:16 min
  • 15

    Resumen de XPath

    00:01 min
  • 16
    Aplicando lo aprendido

    Aplicando lo aprendido

    08:52 min

Proyecto: scraper de noticias

  • 17
    Un proyecto para tu portafolio: scraper de noticias

    Un proyecto para tu portafolio: scraper de noticias

    10:08 min
  • 18
    Construcción de las expresiones de XPath

    Construcción de las expresiones de XPath

    10:29 min
  • 19
    Obteniendo los links de los artículos con Python

    Obteniendo los links de los artículos con Python

    10:56 min
  • 20
    Guardando las noticias en archivos de texto

    Guardando las noticias en archivos de texto

    14:53 min

Conclusiones

  • 21
    Cómo continuar tu ruta de aprendizaje

    Cómo continuar tu ruta de aprendizaje

    02:13 min
Tomar examen

Escuelas

  • Desarrollo Web
    • Fundamentos del Desarrollo Web Profesional
    • Diseño y Desarrollo Frontend
    • Desarrollo Frontend con JavaScript
    • Desarrollo Frontend con Vue.js
    • Desarrollo Frontend con Angular
    • Desarrollo Frontend con React.js
    • Desarrollo Backend con Node.js
    • Desarrollo Backend con Python
    • Desarrollo Backend con Java
    • Desarrollo Backend con PHP
    • Desarrollo Backend con Ruby
    • Bases de Datos para Web
    • Seguridad Web & API
    • Testing Automatizado y QA para Web
    • Arquitecturas Web Modernas y Escalabilidad
    • DevOps y Cloud para Desarrolladores Web
  • English Academy
    • Inglés Básico A1
    • Inglés Básico A2
    • Inglés Intermedio B1
    • Inglés Intermedio Alto B2
    • Inglés Avanzado C1
    • Inglés para Propósitos Específicos
    • Inglés de Negocios
  • Marketing Digital
    • Fundamentos de Marketing Digital
    • Marketing de Contenidos y Redacción Persuasiva
    • SEO y Posicionamiento Web
    • Social Media Marketing y Community Management
    • Publicidad Digital y Paid Media
    • Analítica Digital y Optimización (CRO)
    • Estrategia de Marketing y Growth
    • Marketing de Marca y Comunicación Estratégica
    • Marketing para E-commerce
    • Marketing B2B
    • Inteligencia Artificial Aplicada al Marketing
    • Automatización del Marketing
    • Marca Personal y Marketing Freelance
    • Ventas y Experiencia del Cliente
    • Creación de Contenido para Redes Sociales
  • Inteligencia Artificial y Data Science
    • Fundamentos de Data Science y AI
    • Análisis y Visualización de Datos
    • Machine Learning y Deep Learning
    • Data Engineer
    • Inteligencia Artificial para la Productividad
    • Desarrollo de Aplicaciones con IA
    • AI Software Engineer
  • Ciberseguridad
    • Fundamentos de Ciberseguridad
    • Hacking Ético y Pentesting (Red Team)
    • Análisis de Malware e Ingeniería Forense
    • Seguridad Defensiva y Cumplimiento (Blue Team)
    • Ciberseguridad Estratégica
  • Liderazgo y Habilidades Blandas
    • Fundamentos de Habilidades Profesionales
    • Liderazgo y Gestión de Equipos
    • Comunicación Avanzada y Oratoria
    • Negociación y Resolución de Conflictos
    • Inteligencia Emocional y Autogestión
    • Productividad y Herramientas Digitales
    • Gestión de Proyectos y Metodologías Ágiles
    • Desarrollo de Carrera y Marca Personal
    • Diversidad, Inclusión y Entorno Laboral Saludable
    • Filosofía y Estrategia para Líderes
  • Diseño de Producto y UX
    • Fundamentos de Diseño UX/UI
    • Investigación de Usuarios (UX Research)
    • Arquitectura de Información y Usabilidad
    • Diseño de Interfaces y Prototipado (UI Design)
    • Sistemas de Diseño y DesignOps
    • Redacción UX (UX Writing)
    • Creatividad e Innovación en Diseño
    • Diseño Accesible e Inclusivo
    • Diseño Asistido por Inteligencia Artificial
    • Gestión de Producto y Liderazgo en Diseño
    • Diseño de Interacciones Emergentes (VUI/VR)
    • Desarrollo Web para Diseñadores
    • Diseño y Prototipado No-Code
  • Contenido Audiovisual
    • Fundamentos de Producción Audiovisual
    • Producción de Video para Plataformas Digitales
    • Producción de Audio y Podcast
    • Fotografía y Diseño Gráfico para Contenido Digital
    • Motion Graphics y Animación
    • Contenido Interactivo y Realidad Aumentada
    • Estrategia, Marketing y Monetización de Contenidos
  • Desarrollo Móvil
    • Fundamentos de Desarrollo Móvil
    • Desarrollo Nativo Android con Kotlin
    • Desarrollo Nativo iOS con Swift
    • Desarrollo Multiplataforma con React Native
    • Desarrollo Multiplataforma con Flutter
    • Arquitectura y Patrones de Diseño Móvil
    • Integración de APIs y Persistencia Móvil
    • Testing y Despliegue en Móvil
    • Diseño UX/UI para Móviles
  • Diseño Gráfico y Arte Digital
    • Fundamentos del Diseño Gráfico y Digital
    • Diseño de Identidad Visual y Branding
    • Ilustración Digital y Arte Conceptual
    • Diseño Editorial y de Empaques
    • Motion Graphics y Animación 3D
    • Diseño Gráfico Asistido por Inteligencia Artificial
    • Creatividad e Innovación en Diseño
  • Programación
    • Fundamentos de Programación e Ingeniería de Software
    • Herramientas de IA para el trabajo
    • Matemáticas para Programación
    • Programación con Python
    • Programación con JavaScript
    • Programación con TypeScript
    • Programación Orientada a Objetos con Java
    • Desarrollo con C# y .NET
    • Programación con PHP
    • Programación con Go y Rust
    • Programación Móvil con Swift y Kotlin
    • Programación con C y C++
    • Administración Básica de Servidores Linux
  • Negocios
    • Fundamentos de Negocios y Emprendimiento
    • Estrategia y Crecimiento Empresarial
    • Finanzas Personales y Corporativas
    • Inversión en Mercados Financieros
    • Ventas, CRM y Experiencia del Cliente
    • Operaciones, Logística y E-commerce
    • Gestión de Proyectos y Metodologías Ágiles
    • Aspectos Legales y Cumplimiento
    • Habilidades Directivas y Crecimiento Profesional
    • Diversidad e Inclusión en el Entorno Laboral
    • Herramientas Digitales y Automatización para Negocios
  • Blockchain y Web3
    • Fundamentos de Blockchain y Web3
    • Desarrollo de Smart Contracts y dApps
    • Finanzas Descentralizadas (DeFi)
    • NFTs y Economía de Creadores
    • Seguridad Blockchain
    • Ecosistemas Blockchain Alternativos (No-EVM)
    • Producto, Marketing y Legal en Web3
  • Recursos Humanos
    • Fundamentos y Cultura Organizacional en RRHH
    • Atracción y Selección de Talento
    • Cultura y Employee Experience
    • Gestión y Desarrollo de Talento
    • Desarrollo y Evaluación de Liderazgo
    • Diversidad, Equidad e Inclusión
    • AI y Automatización en Recursos Humanos
    • Tecnología y Automatización en RRHH
  • Finanzas e Inversiones
    • Fundamentos de Finanzas Personales y Corporativas
    • Análisis y Valoración Financiera
    • Inversión y Mercados de Capitales
    • Finanzas Descentralizadas (DeFi) y Criptoactivos
    • Finanzas y Estrategia para Startups
    • Inteligencia Artificial Aplicada a Finanzas
    • Domina Excel
    • Financial Analyst
    • Conseguir trabajo en Finanzas e Inversiones
  • Startups
    • Fundamentos y Validación de Ideas
    • Estrategia de Negocio y Product-Market Fit
    • Desarrollo de Producto y Operaciones Lean
    • Finanzas, Legal y Fundraising
    • Marketing, Ventas y Growth para Startups
    • Cultura, Talento y Liderazgo
    • Finanzas y Operaciones en Ecommerce
    • Startups Web3 y Blockchain
    • Startups con Impacto Social
    • Expansión y Ecosistema Startup
  • Cloud Computing y DevOps
    • Fundamentos de Cloud y DevOps
    • Administración de Servidores Linux
    • Contenerización y Orquestación
    • Infraestructura como Código (IaC) y CI/CD
    • Amazon Web Services
    • Microsoft Azure
    • Serverless y Observabilidad
    • Certificaciones Cloud (Preparación)
    • Plataforma Cloud GCP

Platzi y comunidad

  • Platzi Business
  • Live Classes
  • Lanzamientos
  • Executive Program
  • Trabaja con nosotros
  • Podcast

Recursos

  • Manual de Marca

Soporte

  • Preguntas Frecuentes
  • Contáctanos

Legal

  • Términos y Condiciones
  • Privacidad
  • Tyc promociones
Reconocimientos
Reconocimientos
Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
Logo reconocimientoPrimera Startup EdTech · 2018
Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
Logo reconocimientoCEO Mejor Emprendedor del año · 2024
De LATAM conpara el mundo
YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads
        José Tuzinkievicz

        José Tuzinkievicz

        student•
        hace 6 años

        Directrices básicas

          Juan Ignacio Echenique Olsina

          Juan Ignacio Echenique Olsina

          student•
          hace 6 años

          Increible aporte, muchisimas gracias!!

          Wilson Delgado

          Wilson Delgado

          student•
          hace 5 años

          genial!

        Alejandro Giraldo Londoño

        Alejandro Giraldo Londoño

        student•
        hace 5 años

        RESUMEN: Robots.txt

        ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

        Los archivos exiten como una forma de administrar una página web. proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.


        Robots.txt Contiene entre otros elementos:

        USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

        DIRECTIVAS

        ALLOW: Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otro modo no estaría permitido DISALLOW: Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica


        Ejemplo:

        url/robots.txt Pro ejemplo: # Robots.txt file from http://www.nasa.gov # # All robots will spider the domain User-agent: * Disallow: /worldbook/ Disallow: /offices/oce/llis/

        Para conocer más información de .

          Francisco Garcia [C6]

          Francisco Garcia [C6]

          student•
          hace 5 años

          Gracias por el aporte

          Juan R. Vergara M.

          Juan R. Vergara M.

          student•
          hace 3 años

          👍

        Cristian Nicolás Pereira

        Cristian Nicolás Pereira

        student•
        hace 6 años

        robots.txt de facebook tiene una lista grande, incluso dice que está prohibido colectar datos.

        Notice: Collection of data on Facebook through automated means is

        prohibited unless you have express written permission from Facebook

        and may only be conducted for the limited purpose contained in said

        permission.

        See: http://www.facebook.com/apps/site_scraping_tos_terms.php

        User-agent: Applebot Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

        User-agent: Discordbot Disallow: / Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

          Javier Daza

          Javier Daza

          student•
          hace 5 años

          Bastante curioso que por cada user-agent tiene un conjunto de reglas diferentes https://www.facebook.com/robots.txt

          jaime linares

          jaime linares

          student•
          hace 5 años

          Gracias, Es muy interesante

        Jorge David Duque Agudelo

        Jorge David Duque Agudelo

        student•
        hace 6 años

        ¿Cómo se aplica la restricción especificada en el robots.txt al momento de utilizar este archivo en nuestro servidor? ¿Hay que configurar algo en nuestro apache/nginx o solo con tener el archivo esto restringe el acceso?

          David Esteban Solorzano Taborda

          David Esteban Solorzano Taborda

          student•
          hace 6 años

          Solo con tener el archivo en la raiz del sitio, no hay que realizar ninguna configuracion

          Abraham Manuel Munguia Coronado

          Abraham Manuel Munguia Coronado

          student•
          hace 5 años

          es solo orientativa no es que no te dejen hacerlo pero pueden darse cuenta que lo haces por medio de algun script en el servidor y banear tu ip para no volver a acceder u otras penalizaciones

        Gustavo Esquivel Sosa

        Gustavo Esquivel Sosa

        student•
        hace 4 años

        Cuando veo a alguien scrapeando mi web.

        cuando-scrapendomiweb (7).jpg
          Juan R. Vergara M.

          Juan R. Vergara M.

          student•
          hace 3 años

          😂😅

        Olger Torres

        Olger Torres

        student•
        hace 6 años

        El robots.txt así mismo como muestra sus directivas de "no indexación" de ciertos path del sitio, el mismo también puede servir precisamente para identificar tecnologías. Disallow: /wp-admin/ (wordpress) Disallow: /core/ (drupal) Disallow: /customer/ (magento) A lo que se refiere con no scrappear otros path de las URL es porque directamente al tener muchas peticiones hacia ciertas URL que no existen causa consumo de recursos en los servidores, en muchos casos porque no toda la web está cacheada en los CDN (cloudflre) o en los balanceadores de carga (nginx, HA proxy)

        Noe Mikhael Huaccharaque Ruiz

        Noe Mikhael Huaccharaque Ruiz

        student•
        hace 5 años

        el contenido scrapeado que infringa Robots.txt es penalizado, si lo hago publico ? y si no lo hago publico es solo para mi uso personal? no lo entiendo si el las paginas html son publicas....

          Noe Mikhael Huaccharaque Ruiz

          Noe Mikhael Huaccharaque Ruiz

          student•
          hace 5 años

          ++Respuesta++: este archivo es solo para los motores de busqueda ( como google) para que no lo indexe esa pagina ( es decir al buscarlo en google no te aparesca esa pagina ahi ) esto no restringe a un scraper y no te van a meter preso por hacerlo ... gracias

          Gustavo Esquivel Sosa

          Gustavo Esquivel Sosa

          student•
          hace 4 años

          Cada sitio web tiene sus reglas para los scrapers, por diferentes motivos, por ejemplo facebook es estricto con estas prácticas por el escándalo del 2016. Aunque por lo que investigado otros lo hacen para evitar saturar su sitio web de peticiones automáticas. . Dato curioso: Las empresas que más recolectan datos de NOSOTROS son las más estrictas en recolectar datos PUBLICOS de ellas.

          noestupadre.jpg
        Luis Arturo Cruz Cruz

        Luis Arturo Cruz Cruz

        student•
        hace 6 años

        Hola, buenas tardes. Supongo que es una buena práctica que cada sitio contenga, en su directorio raíz, el archivo robots.txt. Pero siempre puede existir la posibilidad de que no se encuentre ese archivo en el directorio raíz. En esos casos ¿Cómo puedo saber dónde está ese archivo (en el caso de que exista)?

        JUAN SEBASTIAN ZAPATA AVENDAÑO

        JUAN SEBASTIAN ZAPATA AVENDAÑO

        student•
        hace 6 años

        El archivo robots.txt se deja en la raíz de la página y sirve para bloquear paginas con información sensible.

        Daniel  Augusto Lopez Riascos

        Daniel Augusto Lopez Riascos

        student•
        hace 5 años

        Si una web no tiene el archivo robots.txt se puede o definitivamente no se puede o se debe acceder?

          Korpi delfin

          Korpi delfin

          student•
          hace 5 años

          Hola, sí se puede acceder a la página.

          Moisés Manuel Morín Hevia

          Moisés Manuel Morín Hevia

          student•
          hace 5 años

          Si no lo tiene le puedes meter todo el scraping del mundo.

        Brayan Alejandro

        Brayan Alejandro

        student•
        hace 6 años

        Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

          Israel Yance

          Israel Yance

          student•
          hace 6 años

          No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.

          Brayan Alejandro

          Brayan Alejandro

          student•
          hace 6 años

          Lo encontré en https://www.fincaraiz.com.co/robots.txt.

        Joel Eduardo Gaspar

        Joel Eduardo Gaspar

        student•
        hace 5 años

        Robots.txt nos bloquea el acceso o ya queda a nuestra ética si hacemos o no caso?

        Ariel Alava

        Ariel Alava

        student•
        hace 4 años

        Si no hay ningun Allow, y solo hay varios Disallow, se asume que que todo lo que no esté en disallow está allow?

        Carlos Javier Guevara Contreras

        Carlos Javier Guevara Contreras

        student•
        hace 5 años

        Robots.txt Son archivos utilizados para favorecer la navegación de un algoritmo de búsqueda en un sitio web, orientando cuáles páginas deben ser indexadas en los buscadores y controlando las páginas a las que el robot del motor de búsqueda no debe acceder.

          Diego Jurado

          Diego Jurado

          student•
          hace 3 años

          Permite entonces que se limite el acceso a hacer webscrapping?

        Fabricio González Guasque

        Fabricio González Guasque

        student•
        hace 5 años

        Creo que en este momento lo que quiso decir Facundo es enlenteciendo, de hacer mas lento algo.

        https://platzi.com/clases/1908-web-scraping/28531-robotstxt-permisos-y-consideraciones-al-hacer-web-/?time=36

        Juan Fernando Moyano Ramírez

        Juan Fernando Moyano Ramírez

        student•
        hace 5 años

        Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

        <h2>Robots.txt: permisos y consideraciones al hacer web scraping</h2>

        Robots.txt es un documento que se encuentra en la raiz de un sitio e indica a que partes de el pueden acceder y a que partes no pueden acceder los rastreadores de motores de busuqueda. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

        Este archivo contiene algunos elementos como:

        • USER-AGENT: Identifica quien puede acceder al sitio web

        • Directivas: Las direstivas son: allow, este directorio se usa para permitir a los motores de busqueda rastrear un subdirectorio o una pagina. Por otro lado disallow se utiliza para idicar que archivos y paginas no se esta permitido acceder.

        Carlos Javier Guevara Contreras

        Carlos Javier Guevara Contreras

        student•
        hace 5 años

        Muy interesante

        daniel kant

        daniel kant

        student•
        hace 5 años

        robots.txt

        Miguel Angel Paz Gonzalez

        Miguel Angel Paz Gonzalez

        student•
        hace 6 años

        User-agent: * Disallow: /calendar/ Disallow: /junk/

        Permite el acceso desde cualquier dispositivo pero no permite el acceso a las carpetas (ni archivos que contienen) calendar ni junk del sitio.

        Martin DAVILA

        Martin DAVILA

        student•
        hace 5 años

        robots.txt file for YouTube

        Created in the distant future (the year 2000) after

        the robotic uprising of the mid 90's which wiped out all humans.

        User-agent: Mediapartners-Google* Disallow:

        User-agent: * Disallow: /channel//community Disallow: /comment Disallow: /get_video Disallow: /get_video_info Disallow: /live_chat Disallow: /login Disallow: /results Disallow: /signup Disallow: /t/terms Disallow: /timedtext_video Disallow: /user//community Disallow: /verify_age Disallow: /watch_ajax Disallow: /watch_fragments_ajax Disallow: /watch_popup Disallow: /watch_queue_ajax

        Sitemap: https://www.youtube.com/sitemaps/sitemap.xml