Robots.txt: permisos y consideraciones al hacer web scraping
Clase 6 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath
Contenido del curso
Clase 6 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath
Contenido del curso
José Tuzinkievicz
Juan Ignacio Echenique Olsina
Wilson Delgado
Alejandro Giraldo Londoño
Francisco Garcia [C6]
Juan R. Vergara M.
Cristian Nicolás Pereira
Javier Daza
jaime linares
Jorge David Duque Agudelo
David Esteban Solorzano Taborda
Abraham Manuel Munguia Coronado
Gustavo Esquivel Sosa
Juan R. Vergara M.
Olger Torres
Noe Mikhael Huaccharaque Ruiz
Noe Mikhael Huaccharaque Ruiz
Gustavo Esquivel Sosa
Luis Arturo Cruz Cruz
JUAN SEBASTIAN ZAPATA AVENDAÑO
Daniel Augusto Lopez Riascos
Korpi delfin
Moisés Manuel Morín Hevia
Brayan Alejandro
Israel Yance
Brayan Alejandro
Joel Eduardo Gaspar
Ariel Alava
Carlos Javier Guevara Contreras
Diego Jurado
Fabricio González Guasque
Juan Fernando Moyano Ramírez
Carlos Javier Guevara Contreras
daniel kant
Miguel Angel Paz Gonzalez
Martin DAVILA
Directrices básicas
Increible aporte, muchisimas gracias!!
genial!
RESUMEN: Robots.txt
■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■
Los archivos exiten como una forma de administrar una página web. proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.
Robots.txt Contiene entre otros elementos:
USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.
DIRECTIVAS
ALLOW: Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otro modo no estaría permitido DISALLOW: Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica
Ejemplo:
url/robots.txt Pro ejemplo: # Robots.txt file from http://www.nasa.gov # # All robots will spider the domain User-agent: * Disallow: /worldbook/ Disallow: /offices/oce/llis/
Para conocer más información de .
Gracias por el aporte
👍
robots.txt de facebook tiene una lista grande, incluso dice que está prohibido colectar datos.
Notice: Collection of data on Facebook through automated means is
prohibited unless you have express written permission from Facebook
and may only be conducted for the limited purpose contained in said
permission.
See: http://www.facebook.com/apps/site_scraping_tos_terms.php
User-agent: Applebot Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/
User-agent: Discordbot Disallow: / Disallow: /ajax/ Disallow: /album.php Disallow: /checkpoint/ Disallow: /contact_importer/ Disallow: /dialog/ Disallow: /fbml/ajax/dialog/ Disallow: /feeds/ Disallow: /file_download.php Disallow: /hashtag/ Disallow: /l.php Disallow: /moments_app/ Disallow: /p.php Disallow: /photo.php Disallow: /photos.php Disallow: /share.php Disallow: /share/ Disallow: /sharer.php Disallow: /sharer/
Bastante curioso que por cada user-agent tiene un conjunto de reglas diferentes https://www.facebook.com/robots.txt
Gracias, Es muy interesante
¿Cómo se aplica la restricción especificada en el robots.txt al momento de utilizar este archivo en nuestro servidor? ¿Hay que configurar algo en nuestro apache/nginx o solo con tener el archivo esto restringe el acceso?
Solo con tener el archivo en la raiz del sitio, no hay que realizar ninguna configuracion
es solo orientativa no es que no te dejen hacerlo pero pueden darse cuenta que lo haces por medio de algun script en el servidor y banear tu ip para no volver a acceder u otras penalizaciones
Cuando veo a alguien scrapeando mi web.
😂😅
El robots.txt así mismo como muestra sus directivas de "no indexación" de ciertos path del sitio, el mismo también puede servir precisamente para identificar tecnologías. Disallow: /wp-admin/ (wordpress) Disallow: /core/ (drupal) Disallow: /customer/ (magento) A lo que se refiere con no scrappear otros path de las URL es porque directamente al tener muchas peticiones hacia ciertas URL que no existen causa consumo de recursos en los servidores, en muchos casos porque no toda la web está cacheada en los CDN (cloudflre) o en los balanceadores de carga (nginx, HA proxy)
el contenido scrapeado que infringa Robots.txt es penalizado, si lo hago publico ? y si no lo hago publico es solo para mi uso personal? no lo entiendo si el las paginas html son publicas....
++Respuesta++: este archivo es solo para los motores de busqueda ( como google) para que no lo indexe esa pagina ( es decir al buscarlo en google no te aparesca esa pagina ahi ) esto no restringe a un scraper y no te van a meter preso por hacerlo ... gracias
Cada sitio web tiene sus reglas para los scrapers, por diferentes motivos, por ejemplo facebook es estricto con estas prácticas por el escándalo del 2016. Aunque por lo que investigado otros lo hacen para evitar saturar su sitio web de peticiones automáticas. . Dato curioso: Las empresas que más recolectan datos de NOSOTROS son las más estrictas en recolectar datos PUBLICOS de ellas.
Hola, buenas tardes. Supongo que es una buena práctica que cada sitio contenga, en su directorio raíz, el archivo robots.txt. Pero siempre puede existir la posibilidad de que no se encuentre ese archivo en el directorio raíz. En esos casos ¿Cómo puedo saber dónde está ese archivo (en el caso de que exista)?
El archivo robots.txt se deja en la raíz de la página y sirve para bloquear paginas con información sensible.
Si una web no tiene el archivo robots.txt se puede o definitivamente no se puede o se debe acceder?
Hola, sí se puede acceder a la página.
Si no lo tiene le puedes meter todo el scraping del mundo.
Si encuentro esto en un archivo robots.txt : User-agent: * Disallow: / ¿significa que no puedo extraer información del sitio web ?
No creo que una web tenga esa configuración. Diferentes robots, como de buscadores no entrarían y no indexarian ninguna de sus urls para mostrarlos en resultados de búsqueda.
Lo encontré en https://www.fincaraiz.com.co/robots.txt.
Robots.txt nos bloquea el acceso o ya queda a nuestra ética si hacemos o no caso?
Si no hay ningun Allow, y solo hay varios Disallow, se asume que que todo lo que no esté en disallow está allow?
Robots.txt Son archivos utilizados para favorecer la navegación de un algoritmo de búsqueda en un sitio web, orientando cuáles páginas deben ser indexadas en los buscadores y controlando las páginas a las que el robot del motor de búsqueda no debe acceder.
Permite entonces que se limite el acceso a hacer webscrapping?
Creo que en este momento lo que quiso decir Facundo es enlenteciendo, de hacer mas lento algo.
Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping
<h2>Robots.txt: permisos y consideraciones al hacer web scraping</h2>Robots.txt es un documento que se encuentra en la raiz de un sitio e indica a que partes de el pueden acceder y a que partes no pueden acceder los rastreadores de motores de busuqueda. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes. En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violación de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.
Este archivo contiene algunos elementos como:
USER-AGENT: Identifica quien puede acceder al sitio web
Directivas: Las direstivas son: allow, este directorio se usa para permitir a los motores de busqueda rastrear un subdirectorio o una pagina. Por otro lado disallow se utiliza para idicar que archivos y paginas no se esta permitido acceder.
Muy interesante
robots.txt
User-agent: * Disallow: /calendar/ Disallow: /junk/
Permite el acceso desde cualquier dispositivo pero no permite el acceso a las carpetas (ni archivos que contienen) calendar ni junk del sitio.
robots.txt file for YouTube
Created in the distant future (the year 2000) after
the robotic uprising of the mid 90's which wiped out all humans.
User-agent: Mediapartners-Google* Disallow:
User-agent: * Disallow: /channel//community Disallow: /comment Disallow: /get_video Disallow: /get_video_info Disallow: /live_chat Disallow: /login Disallow: /results Disallow: /signup Disallow: /t/terms Disallow: /timedtext_video Disallow: /user//community Disallow: /verify_age Disallow: /watch_ajax Disallow: /watch_fragments_ajax Disallow: /watch_popup Disallow: /watch_queue_ajax