CursosEmpresasBlogLiveConfPrecios

Robots.txt: permisos y consideraciones al hacer web scraping

Clase 6 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Clase anteriorSiguiente clase

Contenido del curso

Introducción al web scraping
  • 1
    ¿Qué es el web scraping?

    ¿Qué es el web scraping?

    02:06
  • 2
    ¿Por qué aprender web scraping hoy?

    ¿Por qué aprender web scraping hoy?

    03:05
  • 3
    Python: el lenguaje más poderoso para extraer datos

    Python: el lenguaje más poderoso para extraer datos

    03:21
Fundamentos de la web
  • 4
    Entender HTTP

    Entender HTTP

    07:02
  • 5
    ¿Qué es HTML?

    ¿Qué es HTML?

    08:08
  • 6
    Robots.txt: permisos y consideraciones al hacer web scraping

    Robots.txt: permisos y consideraciones al hacer web scraping

    05:41
XML Path Language
  • 7
    XML Path Language

    XML Path Language

    03:35
  • 8
    Tipos de nodos en XPath

    Tipos de nodos en XPath

    05:18
  • 9
    Expresiones en XPath

    Expresiones en XPath

    08:18
  • 10
    Predicados en Xpath

    Predicados en Xpath

    05:34
  • 11
    Operadores en Xpath

    Operadores en Xpath

    05:51
  • 12
    Wildcards en Xpath

    Wildcards en Xpath

    06:11
  • 13
    In-text search en Xpath

    In-text search en Xpath

    08:21
  • 14
    XPath Axes

    XPath Axes

    05:16
  • 15

    Resumen de XPath

    00:01
  • 16
    Aplicando lo aprendido

    Aplicando lo aprendido

    08:52
Proyecto: scraper de noticias
  • 17
    Un proyecto para tu portafolio: scraper de noticias

    Un proyecto para tu portafolio: scraper de noticias

    10:08
  • 18
    Construcción de las expresiones de XPath

    Construcción de las expresiones de XPath

    10:29
  • 19
    Obteniendo los links de los artículos con Python

    Obteniendo los links de los artículos con Python

    10:56
  • 20
    Guardando las noticias en archivos de texto

    Guardando las noticias en archivos de texto

    14:53
Conclusiones
  • 21
    Cómo continuar tu ruta de aprendizaje

    Cómo continuar tu ruta de aprendizaje

    02:13
    José Tuzinkievicz

    José Tuzinkievicz

    student•
    hace 5 años

    Directrices básicas

      Juan Ignacio Echenique Olsina

      Juan Ignacio Echenique Olsina

      student•
      hace 5 años

      Increible aporte, muchisimas gracias!!

      Wilson Delgado

      Wilson Delgado

      student•
      hace 5 años

      genial!

    Alejandro Giraldo Londoño

    Alejandro Giraldo Londoño

    student•
    hace 5 años

    RESUMEN: Robots.txt

    ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

    Los archivos robots.txt exiten como una forma de administrar una página web. proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.


    Robots.txt Contiene entre otros elementos:

    USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

    DIRECTIVAS

    ALLOW: Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otro modo no estaría permitido DISALLOW: Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica


    Ejemplo:

    url/robots.txt Pro ejemplo: # Robots.txt file from http://www.nasa.gov # # All robots will spider the domain User-agent: * Disallow: /worldbook/ Disallow: /offices/oce/llis/

    Para conocer más información de robots.txt.

      Francisco Garcia [C6]

      Francisco Garcia [C6]

      student•
      hace 5 años

      Gracias por el aporte

      Juan R. Vergara M.

      Juan R. Vergara M.

      student•
      hace 3 años

      👍

    Cristian Nicolás Pereira

    Cristian Nicolás Pereira

    student•
    hace 5 años

    robots.txt de facebook tiene una lista grande, incluso dice que está prohibido colectar datos.

    Notice: Collection of data on Facebook through automated means is

    prohibited unless you have express written permission from Facebook

    and may only be conducted for the limited purpose contained in said

    permission.

    See: http://www.facebook.com/apps/site_scraping_tos_terms.php

    User-agent: Applebot Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

    User-agent: Discordbot Disallow: / Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

      Javier Daza

      Javier Daza

      student•
      hace 5 años

      Bastante curioso que por cada user-agent tiene un conjunto de reglas diferentes https://www.facebook.com/robots.txt

      jaime linares

      jaime linares

      student•
      hace 4 años

      Gracias, Es muy interesante

    Jorge David Duque Agudelo

    Jorge David Duque Agudelo

    student•
    hace 5 años

    ¿Cómo se aplica la restricción especificada en el robots.txt al momento de utilizar este archivo en nuestro servidor? ¿Hay que configurar algo en nuestro apache/nginx o solo con tener el archivo esto restringe el acceso?

      David Esteban Solorzano Taborda

      David Esteban Solorzano Taborda

      student•
      hace 5 años

      Solo con tener el archivo en la raiz del sitio, no hay que realizar ninguna configuracion

      Abraham Manuel Munguia Coronado

      Abraham Manuel Munguia Coronado

      student•
      hace 5 años

      es solo orientativa no es que no te dejen hacerlo pero pueden darse cuenta que lo haces por medio de algun script en el servidor y banear tu ip para no volver a acceder u otras penalizaciones

    Gustavo Esquivel Sosa

    Gustavo Esquivel Sosa

    student•
    hace 4 años

    Cuando veo a alguien scrapeando mi web.

    cuando-scrapendomiweb (7).jpg
      Juan R. Vergara M.

      Juan R. Vergara M.

      student•
      hace 3 años

      😂😅

    Olger Torres

    Olger Torres

    student•
    hace 5 años

    El robots.txt así mismo como muestra sus directivas de "no indexación" de ciertos path del sitio, el mismo también puede servir precisamente para identificar tecnologías. Disallow: /wp-admin/ (wordpress) Disallow: /core/ (drupal) Disallow: /customer/ (magento) A lo que se refiere con no scrappear otros path de las URL es porque directamente al tener muchas peticiones hacia ciertas URL que no existen causa consumo de recursos en los servidores, en muchos casos porque no toda la web está cacheada en los CDN (cloudflre) o en los balanceadores de carga (nginx, HA proxy)

    Noe Mikhael Huaccharaque Ruiz

    Noe Mikhael Huaccharaque Ruiz

    student•
    hace 5 años

    el contenido scrapeado que infringa Robots.txt es penalizado, si lo hago publico ? y si no lo hago publico es solo para mi uso personal? no lo entiendo si el las paginas html son publicas....

      Noe Mikhael Huaccharaque Ruiz

      Noe Mikhael Huaccharaque Ruiz

      student•
      hace 5 años

      ++Respuesta++: este archivo es solo para los motores de busqueda ( como google) para que no lo indexe esa pagina ( es decir al buscarlo en google no te aparesca esa pagina ahi ) esto no restringe a un scraper y no te van a meter preso por hacerlo ... gracias

      Gustavo Esquivel Sosa

      Gustavo Esquivel Sosa

      student•
      hace 4 años

      Cada sitio web tiene sus reglas para los scrapers, por diferentes motivos, por ejemplo facebook es estricto con estas prácticas por el escándalo del 2016. Aunque por lo que investigado otros lo hacen para evitar saturar su sitio web de peticiones automáticas. . Dato curioso: Las empresas que más recolectan datos de NOSOTROS son las más estrictas en recolectar datos PUBLICOS de ellas.

      noestupadre.jpg
    Luis Arturo Cruz Cruz

    Luis Arturo Cruz Cruz

    student•
    hace 5 años

    Hola, buenas tardes. Supongo que es una buena práctica que cada sitio contenga, en su directorio raíz, el archivo robots.txt. Pero siempre puede existir la posibilidad de que no se encuentre ese archivo en el directorio raíz. En esos casos ¿Cómo puedo saber dónde está ese archivo (en el caso de que exista)?

    JUAN SEBASTIAN ZAPATA AVENDAÑO

    JUAN SEBASTIAN ZAPATA AVENDAÑO

    student•
    hace 5 años

    El archivo robots.txt se deja en la raíz de la página y sirve para bloquear paginas con información sensible.

    Daniel  Augusto Lopez Riascos

    Daniel Augusto Lopez Riascos

    student•
    hace 5 años

    Si una web no tiene el archivo robots.txt se puede o definitivamente no se puede o se debe acceder?

      Korpi delfin

      Korpi delfin

      student•
      hace 5 años

      Hola, sí se puede acceder a la página.

      Moisés Manuel Morín Hevia

      Moisés Manuel Morín Hevia

      student•
      hace 5 años

      Si no lo tiene le puedes meter todo el scraping del mundo.

    Brayan Alejandro

    Brayan Alejandro

    student•
    hace 5 años

    Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

      Israel Yance

      Israel Yance

      student•
      hace 5 años

      No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.

      Brayan Alejandro

      Brayan Alejandro

      student•
      hace 5 años

      Lo encontré en https://www.fincaraiz.com.co/robots.txt.

    Joel Eduardo Gaspar

    Joel Eduardo Gaspar

    student•
    hace 5 años

    Robots.txt nos bloquea el acceso o ya queda a nuestra ética si hacemos o no caso?

    Ariel Alava

    Ariel Alava

    student•
    hace 4 años

    Si no hay ningun Allow, y solo hay varios Disallow, se asume que que todo lo que no esté en disallow está allow?

    Carlos Javier Guevara Contreras

    Carlos Javier Guevara Contreras

    student•
    hace 5 años

    Robots.txt Son archivos utilizados para favorecer la navegación de un algoritmo de búsqueda en un sitio web, orientando cuáles páginas deben ser indexadas en los buscadores y controlando las páginas a las que el robot del motor de búsqueda no debe acceder.

      Diego Jurado

      Diego Jurado

      student•
      hace 3 años

      Permite entonces que se limite el acceso a hacer webscrapping?

    Fabricio González Guasque

    Fabricio González Guasque

    student•
    hace 4 años

    Creo que en este momento lo que quiso decir Facundo es enlenteciendo, de hacer mas lento algo.

    https://platzi.com/clases/1908-web-scraping/28531-robotstxt-permisos-y-consideraciones-al-hacer-web-/?time=36

    Juan Fernando Moyano Ramírez

    Juan Fernando Moyano Ramírez

    student•
    hace 5 años

    Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

    <h2>Robots.txt: permisos y consideraciones al hacer web scraping</h2>

    Robots.txt es un documento que se encuentra en la raiz de un sitio e indica a que partes de el pueden acceder y a que partes no pueden acceder los rastreadores de motores de busuqueda. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

    Este archivo contiene algunos elementos como:

    • USER-AGENT: Identifica quien puede acceder al sitio web

    • Directivas: Las direstivas son: allow, este directorio se usa para permitir a los motores de busqueda rastrear un subdirectorio o una pagina. Por otro lado disallow se utiliza para idicar que archivos y paginas no se esta permitido acceder.

    Carlos Javier Guevara Contreras

    Carlos Javier Guevara Contreras

    student•
    hace 5 años

    Muy interesante

    daniel kant

    daniel kant

    student•
    hace 5 años

    robots.txt

    Miguel Angel Paz Gonzalez

    Miguel Angel Paz Gonzalez

    student•
    hace 5 años

    User-agent: * Disallow: /calendar/ Disallow: /junk/

    Permite el acceso desde cualquier dispositivo pero no permite el acceso a las carpetas (ni archivos que contienen) calendar ni junk del sitio.

    Martin DAVILA

    Martin DAVILA

    student•
    hace 5 años

    robots.txt file for YouTube

    Created in the distant future (the year 2000) after

    the robotic uprising of the mid 90's which wiped out all humans.

    User-agent: Mediapartners-Google* Disallow:

    User-agent: * Disallow: /channel//community Disallow: /comment Disallow: /get_video Disallow: /get_video_info Disallow: /live_chat Disallow: /login Disallow: /results Disallow: /signup Disallow: /t/terms Disallow: /timedtext_video Disallow: /user//community Disallow: /verify_age Disallow: /watch_ajax Disallow: /watch_fragments_ajax Disallow: /watch_popup Disallow: /watch_queue_ajax

    Sitemap: https://www.youtube.com/sitemaps/sitemap.xml

Escuelas

  • Desarrollo Web
    • Fundamentos del Desarrollo Web Profesional
    • Diseño y Desarrollo Frontend
    • Desarrollo Frontend con JavaScript
    • Desarrollo Frontend con Vue.js
    • Desarrollo Frontend con Angular
    • Desarrollo Frontend con React.js
    • Desarrollo Backend con Node.js
    • Desarrollo Backend con Python
    • Desarrollo Backend con Java
    • Desarrollo Backend con PHP
    • Desarrollo Backend con Ruby
    • Bases de Datos para Web
    • Seguridad Web & API
    • Testing Automatizado y QA para Web
    • Arquitecturas Web Modernas y Escalabilidad
    • DevOps y Cloud para Desarrolladores Web
  • English Academy
    • Inglés Básico A1
    • Inglés Básico A2
    • Inglés Intermedio B1
    • Inglés Intermedio Alto B2
    • Inglés Avanzado C1
    • Inglés para Propósitos Específicos
    • Inglés de Negocios
  • Marketing Digital
    • Fundamentos de Marketing Digital
    • Marketing de Contenidos y Redacción Persuasiva
    • SEO y Posicionamiento Web
    • Social Media Marketing y Community Management
    • Publicidad Digital y Paid Media
    • Analítica Digital y Optimización (CRO)
    • Estrategia de Marketing y Growth
    • Marketing de Marca y Comunicación Estratégica
    • Marketing para E-commerce
    • Marketing B2B
    • Inteligencia Artificial Aplicada al Marketing
    • Automatización del Marketing
    • Marca Personal y Marketing Freelance
    • Ventas y Experiencia del Cliente
    • Creación de Contenido para Redes Sociales
  • Inteligencia Artificial y Data Science
    • Fundamentos de Data Science y AI
    • Análisis y Visualización de Datos
    • Machine Learning y Deep Learning
    • Data Engineer
    • Inteligencia Artificial para la Productividad
    • Desarrollo de Aplicaciones con IA
    • AI Software Engineer
  • Ciberseguridad
    • Fundamentos de Ciberseguridad
    • Hacking Ético y Pentesting (Red Team)
    • Análisis de Malware e Ingeniería Forense
    • Seguridad Defensiva y Cumplimiento (Blue Team)
    • Ciberseguridad Estratégica
  • Liderazgo y Habilidades Blandas
    • Fundamentos de Habilidades Profesionales
    • Liderazgo y Gestión de Equipos
    • Comunicación Avanzada y Oratoria
    • Negociación y Resolución de Conflictos
    • Inteligencia Emocional y Autogestión
    • Productividad y Herramientas Digitales
    • Gestión de Proyectos y Metodologías Ágiles
    • Desarrollo de Carrera y Marca Personal
    • Diversidad, Inclusión y Entorno Laboral Saludable
    • Filosofía y Estrategia para Líderes
  • Diseño de Producto y UX
    • Fundamentos de Diseño UX/UI
    • Investigación de Usuarios (UX Research)
    • Arquitectura de Información y Usabilidad
    • Diseño de Interfaces y Prototipado (UI Design)
    • Sistemas de Diseño y DesignOps
    • Redacción UX (UX Writing)
    • Creatividad e Innovación en Diseño
    • Diseño Accesible e Inclusivo
    • Diseño Asistido por Inteligencia Artificial
    • Gestión de Producto y Liderazgo en Diseño
    • Diseño de Interacciones Emergentes (VUI/VR)
    • Desarrollo Web para Diseñadores
    • Diseño y Prototipado No-Code
  • Contenido Audiovisual
    • Fundamentos de Producción Audiovisual
    • Producción de Video para Plataformas Digitales
    • Producción de Audio y Podcast
    • Fotografía y Diseño Gráfico para Contenido Digital
    • Motion Graphics y Animación
    • Contenido Interactivo y Realidad Aumentada
    • Estrategia, Marketing y Monetización de Contenidos
  • Desarrollo Móvil
    • Fundamentos de Desarrollo Móvil
    • Desarrollo Nativo Android con Kotlin
    • Desarrollo Nativo iOS con Swift
    • Desarrollo Multiplataforma con React Native
    • Desarrollo Multiplataforma con Flutter
    • Arquitectura y Patrones de Diseño Móvil
    • Integración de APIs y Persistencia Móvil
    • Testing y Despliegue en Móvil
    • Diseño UX/UI para Móviles
  • Diseño Gráfico y Arte Digital
    • Fundamentos del Diseño Gráfico y Digital
    • Diseño de Identidad Visual y Branding
    • Ilustración Digital y Arte Conceptual
    • Diseño Editorial y de Empaques
    • Motion Graphics y Animación 3D
    • Diseño Gráfico Asistido por Inteligencia Artificial
    • Creatividad e Innovación en Diseño
  • Programación
    • Fundamentos de Programación e Ingeniería de Software
    • Herramientas de IA para el trabajo
    • Matemáticas para Programación
    • Programación con Python
    • Programación con JavaScript
    • Programación con TypeScript
    • Programación Orientada a Objetos con Java
    • Desarrollo con C# y .NET
    • Programación con PHP
    • Programación con Go y Rust
    • Programación Móvil con Swift y Kotlin
    • Programación con C y C++
    • Administración Básica de Servidores Linux
  • Negocios
    • Fundamentos de Negocios y Emprendimiento
    • Estrategia y Crecimiento Empresarial
    • Finanzas Personales y Corporativas
    • Inversión en Mercados Financieros
    • Ventas, CRM y Experiencia del Cliente
    • Operaciones, Logística y E-commerce
    • Gestión de Proyectos y Metodologías Ágiles
    • Aspectos Legales y Cumplimiento
    • Habilidades Directivas y Crecimiento Profesional
    • Diversidad e Inclusión en el Entorno Laboral
    • Herramientas Digitales y Automatización para Negocios
  • Blockchain y Web3
    • Fundamentos de Blockchain y Web3
    • Desarrollo de Smart Contracts y dApps
    • Finanzas Descentralizadas (DeFi)
    • NFTs y Economía de Creadores
    • Seguridad Blockchain
    • Ecosistemas Blockchain Alternativos (No-EVM)
    • Producto, Marketing y Legal en Web3
  • Recursos Humanos
    • Fundamentos y Cultura Organizacional en RRHH
    • Atracción y Selección de Talento
    • Cultura y Employee Experience
    • Gestión y Desarrollo de Talento
    • Desarrollo y Evaluación de Liderazgo
    • Diversidad, Equidad e Inclusión
    • AI y Automatización en Recursos Humanos
    • Tecnología y Automatización en RRHH
  • Finanzas e Inversiones
    • Fundamentos de Finanzas Personales y Corporativas
    • Análisis y Valoración Financiera
    • Inversión y Mercados de Capitales
    • Finanzas Descentralizadas (DeFi) y Criptoactivos
    • Finanzas y Estrategia para Startups
    • Inteligencia Artificial Aplicada a Finanzas
    • Domina Excel
    • Financial Analyst
    • Conseguir trabajo en Finanzas e Inversiones
  • Startups
    • Fundamentos y Validación de Ideas
    • Estrategia de Negocio y Product-Market Fit
    • Desarrollo de Producto y Operaciones Lean
    • Finanzas, Legal y Fundraising
    • Marketing, Ventas y Growth para Startups
    • Cultura, Talento y Liderazgo
    • Finanzas y Operaciones en Ecommerce
    • Startups Web3 y Blockchain
    • Startups con Impacto Social
    • Expansión y Ecosistema Startup
  • Cloud Computing y DevOps
    • Fundamentos de Cloud y DevOps
    • Administración de Servidores Linux
    • Contenerización y Orquestación
    • Infraestructura como Código (IaC) y CI/CD
    • Amazon Web Services
    • Microsoft Azure
    • Serverless y Observabilidad
    • Certificaciones Cloud (Preparación)
    • Plataforma Cloud GCP

Platzi y comunidad

  • Platzi Business
  • Live Classes
  • Lanzamientos
  • Executive Program
  • Trabaja con nosotros
  • Podcast

Recursos

  • Manual de Marca

Soporte

  • Preguntas Frecuentes
  • Contáctanos

Legal

  • Términos y Condiciones
  • Privacidad
  • Tyc promociones
Reconocimientos
Reconocimientos
Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
Logo reconocimientoPrimera Startup EdTech · 2018
Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
Logo reconocimientoCEO Mejor Emprendedor del año · 2024
De LATAM conpara el mundo
YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads