No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Aprende Ingl茅s, Programaci贸n, AI, Ciberseguridad y mucho m谩s.

Antes: $249

Currency
$209
Suscr铆bete

Termina en:

5 D铆as
3 Hrs
48 Min
57 Seg

Robots.txt: permisos y consideraciones al hacer web scraping

6/21
Recursos

Aportes 31

Preguntas 10

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

RESUMEN: Robots.txt

鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲

Los archivos robots.txt exiten como una forma de administrar una p谩gina web.
proporciona informaci贸n a los rastreadores de los buscadores sobre las p谩ginas o los archivos que pueden solicitar o no de tu sitio web.
Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes.
En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violaci贸n
de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.


Robots.txt
Contiene entre otros elementos:

USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

DIRECTIVAS

ALLOW: Utiliza esta directiva para permitir a los motores de b煤squeda rastrear un subdirectorio o una p谩gina, incluso en un directorio que de otro modo no estar铆a permitido
DISALLOW: Utiliza esta directiva para indicar a los motores de b煤squeda que no accedan a archivos y p谩ginas que se encuentren bajo una ruta espec铆fica


Ejemplo:

url/robots.txt
Pro ejemplo:

# Robots.txt file from http://www.nasa.gov
#
# All robots will spider the domain

User-agent: *
Disallow: /worldbook/
Disallow: /offices/oce/llis/


Para conocer m谩s informaci贸n de robots.txt.

robots.txt de facebook tiene una lista grande, incluso dice que est谩 prohibido colectar datos.

<h1>Notice: Collection of data on Facebook through automated means is</h1> <h1>prohibited unless you have express written permission from Facebook</h1> <h1>and may only be conducted for the limited purpose contained in said</h1> <h1>permission.</h1> <h1>See: http://www.facebook.com/apps/site_scraping_tos_terms.php</h1>

User-agent: Applebot
Disallow: /ajax/
Disallow: /album.php
Disallow: /checkpoint/
Disallow: /contact_importer/
Disallow: /dialog/
Disallow: /fbml/ajax/dialog/
Disallow: /feeds/
Disallow: /file_download.php
Disallow: /hashtag/
Disallow: /l.php
Disallow: /moments_app/
Disallow: /p.php
Disallow: /photo.php
Disallow: /photos.php
Disallow: /share.php
Disallow: /share/
Disallow: /sharer.php
Disallow: /sharer/

User-agent: Discordbot
Disallow: /
Disallow: /ajax/
Disallow: /album.php
Disallow: /checkpoint/
Disallow: /contact_importer/
Disallow: /dialog/
Disallow: /fbml/ajax/dialog/
Disallow: /feeds/
Disallow: /file_download.php
Disallow: /hashtag/
Disallow: /l.php
Disallow: /moments_app/
Disallow: /p.php
Disallow: /photo.php
Disallow: /photos.php
Disallow: /share.php
Disallow: /share/
Disallow: /sharer.php
Disallow: /sharer/

驴C贸mo se aplica la restricci贸n especificada en el robots.txt al momento de utilizar este archivo en nuestro servidor?
驴Hay que configurar algo en nuestro apache/nginx o solo con tener el archivo esto restringe el acceso?

Cuando veo a alguien scrapeando mi web.

El robots.txt as铆 mismo como muestra sus directivas de 鈥渘o indexaci贸n鈥 de ciertos path del sitio, el mismo tambi茅n puede servir precisamente para identificar tecnolog铆as.
Disallow: /wp-admin/ (wordpress)
Disallow: /core/ (drupal)
Disallow: /customer/ (magento)
A lo que se refiere con no scrappear otros path de las URL es porque directamente al tener muchas peticiones hacia ciertas URL que no existen causa consumo de recursos en los servidores, en muchos casos porque no toda la web est谩 cacheada en los CDN (cloudflre) o en los balanceadores de carga (nginx, HA proxy)

el contenido scrapeado que infringa Robots.txt es penalizado, si lo hago publico ? y si no lo hago publico es solo para mi uso personal? no lo entiendo si el las paginas html son publicas鈥

Hola, buenas tardes. Supongo que es una buena pr谩ctica que cada sitio contenga, en su directorio ra铆z, el archivo robots.txt. Pero siempre puede existir la posibilidad de que no se encuentre ese archivo en el directorio ra铆z. En esos casos 驴C贸mo puedo saber d贸nde est谩 ese archivo (en el caso de que exista)?

El archivo robots.txt se deja en la ra铆z de la p谩gina y sirve para bloquear paginas con informaci贸n sensible.

Robots.txt nos bloquea el acceso o ya queda a nuestra 茅tica si hacemos o no caso?

Robots.txt
Son archivos utilizados para favorecer la navegaci贸n de un algoritmo de b煤squeda en un sitio web, orientando cu谩les p谩ginas deben ser indexadas en los buscadores y controlando las p谩ginas a las que el robot del motor de b煤squeda no debe acceder.

Creo que en este momento lo que quiso decir Facundo es enlenteciendo, de hacer mas lento algo.

https://platzi.com/clases/1908-web-scraping/28531-robotstxt-permisos-y-consideraciones-al-hacer-web-/?time=36

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h1>Robots.txt: permisos y consideraciones al hacer web scraping</h1>

Robots.txt es un documento que se encuentra en la raiz de un sitio e indica a que partes de el pueden acceder y a que partes no pueden acceder los rastreadores de motores de busuqueda. Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes.
En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violaci贸n
de estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

Este archivo contiene algunos elementos como:

  • USER-AGENT: Identifica quien puede acceder al sitio web

  • Directivas: Las direstivas son: allow, este directorio se usa para permitir a los motores de busqueda rastrear un subdirectorio o una pagina. Por otro lado disallow se utiliza para idicar que archivos y paginas no se esta permitido acceder.

Muy interesante

robots.txt

User-agent: *
Disallow: /calendar/
Disallow: /junk/

Permite el acceso desde cualquier dispositivo pero no permite el acceso a las carpetas (ni archivos que contienen) calendar ni junk del sitio.

<h1>robots.txt file for YouTube</h1> <h1>Created in the distant future (the year 2000) after</h1> <h1>the robotic uprising of the mid 90鈥檚 which wiped out all humans.</h1>

User-agent: Mediapartners-Google*
Disallow:

User-agent: *
Disallow: /channel//community
Disallow: /comment
Disallow: /get_video
Disallow: /get_video_info
Disallow: /live_chat
Disallow: /login
Disallow: /results
Disallow: /signup
Disallow: /t/terms
Disallow: /timedtext_video
Disallow: /user/
/community
Disallow: /verify_age
Disallow: /watch_ajax
Disallow: /watch_fragments_ajax
Disallow: /watch_popup
Disallow: /watch_queue_ajax

Sitemap: https://www.youtube.com/sitemaps/sitemap.xml

Los archivos robots.txt exiten como una forma de administrar una p谩gina web.
proporciona informaci贸n a los rastreadores de los buscadores sobre las p谩ginas o los archivos que pueden solicitar o no de tu sitio web.

Interesante, siempre hab铆a visto los archivos robots.txt pero no sab铆a cu谩l era su funci贸n.

D贸nde encontrar el robots.txt

robots.txt

  • 驴Para qu茅 sirve este archivo?: sirve para definir limites en cuanto al web scraping de determinado dominio
  • 驴D贸nde est谩 ubicado este archivo?: en la raiz de un sitio
  • Disallow: deniega permisos para entrar a ciertas rutas, adem谩s de decirle a google que no quiere que esas rutas se vean en el SEO

Ac谩 dejo un tutorial de c贸mo configurar un Robots.txt

The Robot.txt of youtube (2022):

QUE APRENDIMOS, en esta clase?
.
1- En donde se ubica el archivo robots.txt y como encontrarlo?
2- Que es user-Agent y user-Agent: *?
3- Que define Allow: /?
4- Para que sirve la especificacion Disallow?
Como crear un archivo robots.txt?

Muy buena explicaci贸n.

Es interesante, supongo que con lo sucedido no permiten a cualquiera scrapear a facebook.

De su robots.txt

User-agent: *
Disallow: /

<Presuntamente el robots.txt no es vinculante, por lo que este archivo no te impide hacer web scraping a un sitio web, pero aun as铆 te puedes meter en problemas si lo haces.
como el caso hiQ Labs vs Linkedin.
Es cuestion de ver las leyes de cada pais y tratar los datos con etica.

https://platzi.com/clases/1751-webscraping/24790-etica-y-legalidad/
Lo que encontr茅 acerca de facebook.
https://www.octoparse.es/blog/5-cosas-que-saber-antes-de-scraping-de-facebook

Mirando el archivo robots.txt de un periodico de colombia El colombiano me he dado cuenta que lo que est谩 鈥渄esactivado鈥 son noticias que ya no aparecen en el sitio o sea que han bajado de la pagina

Un archivo robots.txt debe estar en la ra铆z de la p谩gina, sirve para limitar las acciones de web scraping, como entrar a datos sensibles, es informaci贸n que no queremos que se acceda, es considerado como buena practica respetarlo para evitarnos problemas legales.

robots.txt
Encontrado en la ra铆z del sitio que impide el scraping que realentiza la web(o simplemente no se quiere).

Esta clase ha sido super reveladora para m铆, yo realizo web scraping con Javascript, llevo haci茅ndolo casi un a帽o, definitivamente Platzi es el camino m谩s corto, es un hack a la educaci贸n.