CursosEmpresasBlogLiveConfPrecios

Robots.txt: permisos y consideraciones al hacer web scraping

Clase 6 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Clase anteriorSiguiente clase

Contenido del curso

Introducción al web scraping

  • 1
    ¿Qué es el web scraping?

    ¿Qué es el web scraping?

    02:06 min
  • 2
    ¿Por qué aprender web scraping hoy?

    ¿Por qué aprender web scraping hoy?

    03:05 min
  • 3
    Python: el lenguaje más poderoso para extraer datos

    Python: el lenguaje más poderoso para extraer datos

    03:21 min

Fundamentos de la web

  • 4
    Entender HTTP

    Entender HTTP

    07:02 min
  • 5
    ¿Qué es HTML?

    ¿Qué es HTML?

    08:08 min
  • 6
    Robots.txt: permisos y consideraciones al hacer web scraping

    Robots.txt: permisos y consideraciones al hacer web scraping

    Viendo ahora

XML Path Language

  • 7
    XML Path Language

    XML Path Language

    03:35 min
  • 8
    Tipos de nodos en XPath

    Tipos de nodos en XPath

    05:18 min
  • 9
    Expresiones en XPath

    Expresiones en XPath

    08:18 min
  • 10
    Predicados en Xpath

    Predicados en Xpath

    05:34 min
  • 11
    Operadores en Xpath

    Operadores en Xpath

    05:51 min
  • 12
    Wildcards en Xpath

    Wildcards en Xpath

    06:11 min
  • 13
    In-text search en Xpath

    In-text search en Xpath

    08:21 min
  • 14
    XPath Axes

    XPath Axes

    05:16 min
  • 15

    Resumen de XPath

    00:01 min
  • 16
    Aplicando lo aprendido

    Aplicando lo aprendido

    08:52 min

Proyecto: scraper de noticias

  • 17
    Un proyecto para tu portafolio: scraper de noticias

    Un proyecto para tu portafolio: scraper de noticias

    10:08 min
  • 18
    Construcción de las expresiones de XPath

    Construcción de las expresiones de XPath

    10:29 min
  • 19
    Obteniendo los links de los artículos con Python

    Obteniendo los links de los artículos con Python

    10:56 min
  • 20
    Guardando las noticias en archivos de texto

    Guardando las noticias en archivos de texto

    14:53 min

Conclusiones

  • 21
    Cómo continuar tu ruta de aprendizaje

    Cómo continuar tu ruta de aprendizaje

    02:13 min
  • Tomar el examen del curso
    • José Tuzinkievicz

      José Tuzinkievicz

      student•
      hace 6 años

      Directrices básicas

        Juan Ignacio Echenique Olsina

        Juan Ignacio Echenique Olsina

        student•
        hace 5 años

        Increible aporte, muchisimas gracias!!

        Wilson Delgado

        Wilson Delgado

        student•
        hace 5 años

        genial!

      Alejandro Giraldo Londoño

      Alejandro Giraldo Londoño

      student•
      hace 5 años

      RESUMEN: Robots.txt

      ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

      Los archivos robots.txt exiten como una forma de administrar una página web. proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.


      Robots.txt Contiene entre otros elementos:

      USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

      DIRECTIVAS

      ALLOW: Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otro modo no estaría permitido DISALLOW: Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica


      Ejemplo:

      url/robots.txt Pro ejemplo: # Robots.txt file from http://www.nasa.gov # # All robots will spider the domain User-agent: * Disallow: /worldbook/ Disallow: /offices/oce/llis/

      Para conocer más información de robots.txt.

        Francisco Garcia [C6]

        Francisco Garcia [C6]

        student•
        hace 5 años

        Gracias por el aporte

        Juan R. Vergara M.

        Juan R. Vergara M.

        student•
        hace 3 años

        👍

      Cristian Nicolás Pereira

      Cristian Nicolás Pereira

      student•
      hace 6 años

      robots.txt de facebook tiene una lista grande, incluso dice que está prohibido colectar datos.

      Notice: Collection of data on Facebook through automated means is

      prohibited unless you have express written permission from Facebook

      and may only be conducted for the limited purpose contained in said

      permission.

      See: http://www.facebook.com/apps/site_scraping_tos_terms.php

      User-agent: Applebot Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

      User-agent: Discordbot Disallow: / Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

        Javier Daza

        Javier Daza

        student•
        hace 5 años

        Bastante curioso que por cada user-agent tiene un conjunto de reglas diferentes https://www.facebook.com/robots.txt

        jaime linares

        jaime linares

        student•
        hace 5 años

        Gracias, Es muy interesante

      Jorge David Duque Agudelo

      Jorge David Duque Agudelo

      student•
      hace 6 años

      ¿Cómo se aplica la restricción especificada en el robots.txt al momento de utilizar este archivo en nuestro servidor? ¿Hay que configurar algo en nuestro apache/nginx o solo con tener el archivo esto restringe el acceso?

        David Esteban Solorzano Taborda

        David Esteban Solorzano Taborda

        student•
        hace 6 años

        Solo con tener el archivo en la raiz del sitio, no hay que realizar ninguna configuracion

        Abraham Manuel Munguia Coronado

        Abraham Manuel Munguia Coronado

        student•
        hace 5 años

        es solo orientativa no es que no te dejen hacerlo pero pueden darse cuenta que lo haces por medio de algun script en el servidor y banear tu ip para no volver a acceder u otras penalizaciones

      Gustavo Esquivel Sosa

      Gustavo Esquivel Sosa

      student•
      hace 4 años

      Cuando veo a alguien scrapeando mi web.

      cuando-scrapendomiweb (7).jpg
        Juan R. Vergara M.

        Juan R. Vergara M.

        student•
        hace 3 años

        😂😅

      Olger Torres

      Olger Torres

      student•
      hace 5 años

      El robots.txt así mismo como muestra sus directivas de "no indexación" de ciertos path del sitio, el mismo también puede servir precisamente para identificar tecnologías. Disallow: /wp-admin/ (wordpress) Disallow: /core/ (drupal) Disallow: /customer/ (magento) A lo que se refiere con no scrappear otros path de las URL es porque directamente al tener muchas peticiones hacia ciertas URL que no existen causa consumo de recursos en los servidores, en muchos casos porque no toda la web está cacheada en los CDN (cloudflre) o en los balanceadores de carga (nginx, HA proxy)

      Noe Mikhael Huaccharaque Ruiz

      Noe Mikhael Huaccharaque Ruiz

      student•
      hace 5 años

      el contenido scrapeado que infringa Robots.txt es penalizado, si lo hago publico ? y si no lo hago publico es solo para mi uso personal? no lo entiendo si el las paginas html son publicas....

        Noe Mikhael Huaccharaque Ruiz

        Noe Mikhael Huaccharaque Ruiz

        student•
        hace 5 años

        ++Respuesta++: este archivo es solo para los motores de busqueda ( como google) para que no lo indexe esa pagina ( es decir al buscarlo en google no te aparesca esa pagina ahi ) esto no restringe a un scraper y no te van a meter preso por hacerlo ... gracias

        Gustavo Esquivel Sosa

        Gustavo Esquivel Sosa

        student•
        hace 4 años

        Cada sitio web tiene sus reglas para los scrapers, por diferentes motivos, por ejemplo facebook es estricto con estas prácticas por el escándalo del 2016. Aunque por lo que investigado otros lo hacen para evitar saturar su sitio web de peticiones automáticas. . Dato curioso: Las empresas que más recolectan datos de NOSOTROS son las más estrictas en recolectar datos PUBLICOS de ellas.

        noestupadre.jpg
      Luis Arturo Cruz Cruz

      Luis Arturo Cruz Cruz

      student•
      hace 5 años

      Hola, buenas tardes. Supongo que es una buena práctica que cada sitio contenga, en su directorio raíz, el archivo robots.txt. Pero siempre puede existir la posibilidad de que no se encuentre ese archivo en el directorio raíz. En esos casos ¿Cómo puedo saber dónde está ese archivo (en el caso de que exista)?

      JUAN SEBASTIAN ZAPATA AVENDAÑO

      JUAN SEBASTIAN ZAPATA AVENDAÑO

      student•
      hace 6 años

      El archivo robots.txt se deja en la raíz de la página y sirve para bloquear paginas con información sensible.

      Daniel  Augusto Lopez Riascos

      Daniel Augusto Lopez Riascos

      student•
      hace 5 años

      Si una web no tiene el archivo robots.txt se puede o definitivamente no se puede o se debe acceder?

        Korpi delfin

        Korpi delfin

        student•
        hace 5 años

        Hola, sí se puede acceder a la página.

        Moisés Manuel Morín Hevia

        Moisés Manuel Morín Hevia

        student•
        hace 5 años

        Si no lo tiene le puedes meter todo el scraping del mundo.

      Brayan Alejandro

      Brayan Alejandro

      student•
      hace 5 años

      Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

        Israel Yance

        Israel Yance

        student•
        hace 5 años

        No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.

        Brayan Alejandro

        Brayan Alejandro

        student•
        hace 5 años

        Lo encontré en https://www.fincaraiz.com.co/robots.txt.

      Joel Eduardo Gaspar

      Joel Eduardo Gaspar

      student•
      hace 5 años

      Robots.txt nos bloquea el acceso o ya queda a nuestra ética si hacemos o no caso?

      Ariel Alava

      Ariel Alava

      student•
      hace 4 años

      Si no hay ningun Allow, y solo hay varios Disallow, se asume que que todo lo que no esté en disallow está allow?

      Carlos Javier Guevara Contreras

      Carlos Javier Guevara Contreras

      student•
      hace 5 años

      Robots.txt Son archivos utilizados para favorecer la navegación de un algoritmo de búsqueda en un sitio web, orientando cuáles páginas deben ser indexadas en los buscadores y controlando las páginas a las que el robot del motor de búsqueda no debe acceder.

        Diego Jurado

        Diego Jurado

        student•
        hace 3 años

        Permite entonces que se limite el acceso a hacer webscrapping?

      Fabricio González Guasque

      Fabricio González Guasque

      student•
      hace 4 años

      Creo que en este momento lo que quiso decir Facundo es enlenteciendo, de hacer mas lento algo.

      https://platzi.com/clases/1908-web-scraping/28531-robotstxt-permisos-y-consideraciones-al-hacer-web-/?time=36

      Juan Fernando Moyano Ramírez

      Juan Fernando Moyano Ramírez

      student•
      hace 5 años

      Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

      <h2>Robots.txt: permisos y consideraciones al hacer web scraping</h2>

      Robots.txt es un documento que se encuentra en la raiz de un sitio e indica a que partes de el pueden acceder y a que partes no pueden acceder los rastreadores de motores de busuqueda. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

      Este archivo contiene algunos elementos como:

      • USER-AGENT: Identifica quien puede acceder al sitio web

      • Directivas: Las direstivas son: allow, este directorio se usa para permitir a los motores de busqueda rastrear un subdirectorio o una pagina. Por otro lado disallow se utiliza para idicar que archivos y paginas no se esta permitido acceder.

      Carlos Javier Guevara Contreras

      Carlos Javier Guevara Contreras

      student•
      hace 5 años

      Muy interesante

      daniel kant

      daniel kant

      student•
      hace 5 años

      robots.txt

      Miguel Angel Paz Gonzalez

      Miguel Angel Paz Gonzalez

      student•
      hace 5 años

      User-agent: * Disallow: /calendar/ Disallow: /junk/

      Permite el acceso desde cualquier dispositivo pero no permite el acceso a las carpetas (ni archivos que contienen) calendar ni junk del sitio.

      Martin DAVILA

      Martin DAVILA

      student•
      hace 5 años

      robots.txt file for YouTube

      Created in the distant future (the year 2000) after

      the robotic uprising of the mid 90's which wiped out all humans.

      User-agent: Mediapartners-Google* Disallow:

      User-agent: * Disallow: /channel//community Disallow: /comment Disallow: /get_video Disallow: /get_video_info Disallow: /live_chat Disallow: /login Disallow: /results Disallow: /signup Disallow: /t/terms Disallow: /timedtext_video Disallow: /user//community Disallow: /verify_age Disallow: /watch_ajax Disallow: /watch_fragments_ajax Disallow: /watch_popup Disallow: /watch_queue_ajax

      Sitemap: https://www.youtube.com/sitemaps/sitemap.xml

    Escuelas

    • Desarrollo Web
      • Fundamentos del Desarrollo Web Profesional
      • Diseño y Desarrollo Frontend
      • Desarrollo Frontend con JavaScript
      • Desarrollo Frontend con Vue.js
      • Desarrollo Frontend con Angular
      • Desarrollo Frontend con React.js
      • Desarrollo Backend con Node.js
      • Desarrollo Backend con Python
      • Desarrollo Backend con Java
      • Desarrollo Backend con PHP
      • Desarrollo Backend con Ruby
      • Bases de Datos para Web
      • Seguridad Web & API
      • Testing Automatizado y QA para Web
      • Arquitecturas Web Modernas y Escalabilidad
      • DevOps y Cloud para Desarrolladores Web
    • English Academy
      • Inglés Básico A1
      • Inglés Básico A2
      • Inglés Intermedio B1
      • Inglés Intermedio Alto B2
      • Inglés Avanzado C1
      • Inglés para Propósitos Específicos
      • Inglés de Negocios
    • Marketing Digital
      • Fundamentos de Marketing Digital
      • Marketing de Contenidos y Redacción Persuasiva
      • SEO y Posicionamiento Web
      • Social Media Marketing y Community Management
      • Publicidad Digital y Paid Media
      • Analítica Digital y Optimización (CRO)
      • Estrategia de Marketing y Growth
      • Marketing de Marca y Comunicación Estratégica
      • Marketing para E-commerce
      • Marketing B2B
      • Inteligencia Artificial Aplicada al Marketing
      • Automatización del Marketing
      • Marca Personal y Marketing Freelance
      • Ventas y Experiencia del Cliente
      • Creación de Contenido para Redes Sociales
    • Inteligencia Artificial y Data Science
      • Fundamentos de Data Science y AI
      • Análisis y Visualización de Datos
      • Machine Learning y Deep Learning
      • Data Engineer
      • Inteligencia Artificial para la Productividad
      • Desarrollo de Aplicaciones con IA
      • AI Software Engineer
    • Ciberseguridad
      • Fundamentos de Ciberseguridad
      • Hacking Ético y Pentesting (Red Team)
      • Análisis de Malware e Ingeniería Forense
      • Seguridad Defensiva y Cumplimiento (Blue Team)
      • Ciberseguridad Estratégica
    • Liderazgo y Habilidades Blandas
      • Fundamentos de Habilidades Profesionales
      • Liderazgo y Gestión de Equipos
      • Comunicación Avanzada y Oratoria
      • Negociación y Resolución de Conflictos
      • Inteligencia Emocional y Autogestión
      • Productividad y Herramientas Digitales
      • Gestión de Proyectos y Metodologías Ágiles
      • Desarrollo de Carrera y Marca Personal
      • Diversidad, Inclusión y Entorno Laboral Saludable
      • Filosofía y Estrategia para Líderes
    • Diseño de Producto y UX
      • Fundamentos de Diseño UX/UI
      • Investigación de Usuarios (UX Research)
      • Arquitectura de Información y Usabilidad
      • Diseño de Interfaces y Prototipado (UI Design)
      • Sistemas de Diseño y DesignOps
      • Redacción UX (UX Writing)
      • Creatividad e Innovación en Diseño
      • Diseño Accesible e Inclusivo
      • Diseño Asistido por Inteligencia Artificial
      • Gestión de Producto y Liderazgo en Diseño
      • Diseño de Interacciones Emergentes (VUI/VR)
      • Desarrollo Web para Diseñadores
      • Diseño y Prototipado No-Code
    • Contenido Audiovisual
      • Fundamentos de Producción Audiovisual
      • Producción de Video para Plataformas Digitales
      • Producción de Audio y Podcast
      • Fotografía y Diseño Gráfico para Contenido Digital
      • Motion Graphics y Animación
      • Contenido Interactivo y Realidad Aumentada
      • Estrategia, Marketing y Monetización de Contenidos
    • Desarrollo Móvil
      • Fundamentos de Desarrollo Móvil
      • Desarrollo Nativo Android con Kotlin
      • Desarrollo Nativo iOS con Swift
      • Desarrollo Multiplataforma con React Native
      • Desarrollo Multiplataforma con Flutter
      • Arquitectura y Patrones de Diseño Móvil
      • Integración de APIs y Persistencia Móvil
      • Testing y Despliegue en Móvil
      • Diseño UX/UI para Móviles
    • Diseño Gráfico y Arte Digital
      • Fundamentos del Diseño Gráfico y Digital
      • Diseño de Identidad Visual y Branding
      • Ilustración Digital y Arte Conceptual
      • Diseño Editorial y de Empaques
      • Motion Graphics y Animación 3D
      • Diseño Gráfico Asistido por Inteligencia Artificial
      • Creatividad e Innovación en Diseño
    • Programación
      • Fundamentos de Programación e Ingeniería de Software
      • Herramientas de IA para el trabajo
      • Matemáticas para Programación
      • Programación con Python
      • Programación con JavaScript
      • Programación con TypeScript
      • Programación Orientada a Objetos con Java
      • Desarrollo con C# y .NET
      • Programación con PHP
      • Programación con Go y Rust
      • Programación Móvil con Swift y Kotlin
      • Programación con C y C++
      • Administración Básica de Servidores Linux
    • Negocios
      • Fundamentos de Negocios y Emprendimiento
      • Estrategia y Crecimiento Empresarial
      • Finanzas Personales y Corporativas
      • Inversión en Mercados Financieros
      • Ventas, CRM y Experiencia del Cliente
      • Operaciones, Logística y E-commerce
      • Gestión de Proyectos y Metodologías Ágiles
      • Aspectos Legales y Cumplimiento
      • Habilidades Directivas y Crecimiento Profesional
      • Diversidad e Inclusión en el Entorno Laboral
      • Herramientas Digitales y Automatización para Negocios
    • Blockchain y Web3
      • Fundamentos de Blockchain y Web3
      • Desarrollo de Smart Contracts y dApps
      • Finanzas Descentralizadas (DeFi)
      • NFTs y Economía de Creadores
      • Seguridad Blockchain
      • Ecosistemas Blockchain Alternativos (No-EVM)
      • Producto, Marketing y Legal en Web3
    • Recursos Humanos
      • Fundamentos y Cultura Organizacional en RRHH
      • Atracción y Selección de Talento
      • Cultura y Employee Experience
      • Gestión y Desarrollo de Talento
      • Desarrollo y Evaluación de Liderazgo
      • Diversidad, Equidad e Inclusión
      • AI y Automatización en Recursos Humanos
      • Tecnología y Automatización en RRHH
    • Finanzas e Inversiones
      • Fundamentos de Finanzas Personales y Corporativas
      • Análisis y Valoración Financiera
      • Inversión y Mercados de Capitales
      • Finanzas Descentralizadas (DeFi) y Criptoactivos
      • Finanzas y Estrategia para Startups
      • Inteligencia Artificial Aplicada a Finanzas
      • Domina Excel
      • Financial Analyst
      • Conseguir trabajo en Finanzas e Inversiones
    • Startups
      • Fundamentos y Validación de Ideas
      • Estrategia de Negocio y Product-Market Fit
      • Desarrollo de Producto y Operaciones Lean
      • Finanzas, Legal y Fundraising
      • Marketing, Ventas y Growth para Startups
      • Cultura, Talento y Liderazgo
      • Finanzas y Operaciones en Ecommerce
      • Startups Web3 y Blockchain
      • Startups con Impacto Social
      • Expansión y Ecosistema Startup
    • Cloud Computing y DevOps
      • Fundamentos de Cloud y DevOps
      • Administración de Servidores Linux
      • Contenerización y Orquestación
      • Infraestructura como Código (IaC) y CI/CD
      • Amazon Web Services
      • Microsoft Azure
      • Serverless y Observabilidad
      • Certificaciones Cloud (Preparación)
      • Plataforma Cloud GCP

    Platzi y comunidad

    • Platzi Business
    • Live Classes
    • Lanzamientos
    • Executive Program
    • Trabaja con nosotros
    • Podcast

    Recursos

    • Manual de Marca

    Soporte

    • Preguntas Frecuentes
    • Contáctanos

    Legal

    • Términos y Condiciones
    • Privacidad
    • Tyc promociones
    Reconocimientos
    Reconocimientos
    Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
    Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
    Logo reconocimientoPrimera Startup EdTech · 2018
    Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
    Logo reconocimientoCEO Mejor Emprendedor del año · 2024
    De LATAM conpara el mundo
    YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads