Robots.txt: permisos y consideraciones al hacer web scraping

Clase 6 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Clase anteriorSiguiente clase

José Tuzinkievicz

student•

Directrices básicas

Juan Ignacio Echenique Olsina

student•

Increible aporte, muchisimas gracias!!

Wilson Delgado

student•

genial!

Alejandro Giraldo Londoño

student•

RESUMEN: Robots.txt

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

Los archivos robots.txt exiten como una forma de administrar una página web. proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

Robots.txt Contiene entre otros elementos:

USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

DIRECTIVAS

ALLOW: Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otro modo no estaría permitido DISALLOW: Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica

Ejemplo:

url/robots.txt
Pro ejemplo:

# Robots.txt file from http://www.nasa.gov
#
# All robots will spider the domain

User-agent: *
Disallow: /worldbook/
Disallow: /offices/oce/llis/

Para conocer más información de robots.txt.

Francisco Garcia [C6]

student•

Gracias por el aporte

Juan R. Vergara M.

student•

👍

Cristian Nicolás Pereira

student•

robots.txt de facebook tiene una lista grande, incluso dice que está prohibido colectar datos.

Notice: Collection of data on Facebook through automated means is

prohibited unless you have express written permission from Facebook

and may only be conducted for the limited purpose contained in said

permission.

See: http://www.facebook.com/apps/site_scraping_tos_terms.php

User-agent: Applebot Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

User-agent: Discordbot Disallow: / Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/

Javier Daza

student•

Bastante curioso que por cada user-agent tiene un conjunto de reglas diferentes https://www.facebook.com/robots.txt

jaime linares

student•

Gracias, Es muy interesante

Jorge David Duque Agudelo

student•

¿Cómo se aplica la restricción especificada en el robots.txt al momento de utilizar este archivo en nuestro servidor? ¿Hay que configurar algo en nuestro apache/nginx o solo con tener el archivo esto restringe el acceso?

David Esteban Solorzano Taborda

student•

Solo con tener el archivo en la raiz del sitio, no hay que realizar ninguna configuracion

Abraham Manuel Munguia Coronado

student•

es solo orientativa no es que no te dejen hacerlo pero pueden darse cuenta que lo haces por medio de algun script en el servidor y banear tu ip para no volver a acceder u otras penalizaciones

Gustavo Esquivel Sosa

student•

Cuando veo a alguien scrapeando mi web.

Juan R. Vergara M.

student•

😂😅

Olger Torres

student•

El robots.txt así mismo como muestra sus directivas de "no indexación" de ciertos path del sitio, el mismo también puede servir precisamente para identificar tecnologías. Disallow: /wp-admin/ (wordpress) Disallow: /core/ (drupal) Disallow: /customer/ (magento) A lo que se refiere con no scrappear otros path de las URL es porque directamente al tener muchas peticiones hacia ciertas URL que no existen causa consumo de recursos en los servidores, en muchos casos porque no toda la web está cacheada en los CDN (cloudflre) o en los balanceadores de carga (nginx, HA proxy)

Noe Mikhael Huaccharaque Ruiz

student•

el contenido scrapeado que infringa Robots.txt es penalizado, si lo hago publico ? y si no lo hago publico es solo para mi uso personal? no lo entiendo si el las paginas html son publicas....

Noe Mikhael Huaccharaque Ruiz

student•

++Respuesta++: este archivo es solo para los motores de busqueda ( como google) para que no lo indexe esa pagina ( es decir al buscarlo en google no te aparesca esa pagina ahi ) esto no restringe a un scraper y no te van a meter preso por hacerlo ... gracias

Gustavo Esquivel Sosa

student•

Cada sitio web tiene sus reglas para los scrapers, por diferentes motivos, por ejemplo facebook es estricto con estas prácticas por el escándalo del 2016. Aunque por lo que investigado otros lo hacen para evitar saturar su sitio web de peticiones automáticas. . Dato curioso: Las empresas que más recolectan datos de NOSOTROS son las más estrictas en recolectar datos PUBLICOS de ellas.

Luis Arturo Cruz Cruz

student•

Hola, buenas tardes. Supongo que es una buena práctica que cada sitio contenga, en su directorio raíz, el archivo robots.txt. Pero siempre puede existir la posibilidad de que no se encuentre ese archivo en el directorio raíz. En esos casos ¿Cómo puedo saber dónde está ese archivo (en el caso de que exista)?

JUAN SEBASTIAN ZAPATA AVENDAÑO

student•

El archivo robots.txt se deja en la raíz de la página y sirve para bloquear paginas con información sensible.

Daniel Augusto Lopez Riascos

student•

Si una web no tiene el archivo robots.txt se puede o definitivamente no se puede o se debe acceder?

Korpi delfin

student•

Hola, sí se puede acceder a la página.

Moisés Manuel Morín Hevia

student•

Si no lo tiene le puedes meter todo el scraping del mundo.

Brayan Alejandro

student•

Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?

Israel Yance

student•

No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.

Brayan Alejandro

student•

Lo encontré en https://www.fincaraiz.com.co/robots.txt.

Joel Eduardo Gaspar

student•

Robots.txt nos bloquea el acceso o ya queda a nuestra ética si hacemos o no caso?

Ariel Alava

student•

Si no hay ningun Allow, y solo hay varios Disallow, se asume que que todo lo que no esté en disallow está allow?

Carlos Javier Guevara Contreras

student•

Robots.txt Son archivos utilizados para favorecer la navegación de un algoritmo de búsqueda en un sitio web, orientando cuáles páginas deben ser indexadas en los buscadores y controlando las páginas a las que el robot del motor de búsqueda no debe acceder.

Diego Jurado

student•

Permite entonces que se limite el acceso a hacer webscrapping?

Fabricio González Guasque

student•

Creo que en este momento lo que quiso decir Facundo es enlenteciendo, de hacer mas lento algo.

https://platzi.com/clases/1908-web-scraping/28531-robotstxt-permisos-y-consideraciones-al-hacer-web-/?time=36

Juan Fernando Moyano Ramírez

student•

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h2>Robots.txt: permisos y consideraciones al hacer web scraping</h2>

Robots.txt es un documento que se encuentra en la raiz de un sitio e indica a que partes de el pueden acceder y a que partes no pueden acceder los rastreadores de motores de busuqueda. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

Este archivo contiene algunos elementos como:

USER-AGENT: Identifica quien puede acceder al sitio web
Directivas: Las direstivas son: allow, este directorio se usa para permitir a los motores de busqueda rastrear un subdirectorio o una pagina. Por otro lado disallow se utiliza para idicar que archivos y paginas no se esta permitido acceder.

Carlos Javier Guevara Contreras

student•

Muy interesante

daniel kant

student•

robots.txt

Miguel Angel Paz Gonzalez

student•

User-agent: * Disallow: /calendar/ Disallow: /junk/

Permite el acceso desde cualquier dispositivo pero no permite el acceso a las carpetas (ni archivos que contienen) calendar ni junk del sitio.

Martin DAVILA

student•

robots.txt file for YouTube

Created in the distant future (the year 2000) after

the robotic uprising of the mid 90's which wiped out all humans.

User-agent: Mediapartners-Google* Disallow:

User-agent: * Disallow: /channel//community Disallow: /comment Disallow: /get_video Disallow: /get_video_info Disallow: /live_chat Disallow: /login Disallow: /results Disallow: /signup Disallow: /t/terms Disallow: /timedtext_video Disallow: /user//community Disallow: /verify_age Disallow: /watch_ajax Disallow: /watch_fragments_ajax Disallow: /watch_popup Disallow: /watch_queue_ajax

Sitemap: https://www.youtube.com/sitemaps/sitemap.xml