No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Archivo robots.txt

6/35
Recursos

Aportes 43

Preguntas 81

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Una de las causas principales por las que un sitio web no aparece en google es porque está siendo bloqueado a través del archivo robots.txt.

El archivo robots.txt, es un archivo de texto que se utiliza para comunicarnos con Google y especificar los directorios a los que no queremos que entre (porque puede ser un folder con información privada).
Puede pasar que por error o desconocimiento, bloqueemos el acceso a todo el sitio web.

Para encontrar el archivo del robots.txt, colocar después del dominio/robots.txt

Se encontrarán algunas opciones:

  • Allow= Permitir

  • Disallow= Bloquear

  • Se bloquean las páginas que no son importantes para que las personas las puedan ver en el buscador: no queremos que Google entre ahí.

OJO: la opción Disallow: / BLOQUEA todo nuestro sitio.

  • Otras opciones:
    Disallow: /imagenes/ (le dice a Google, no entres a la carpeta imágenes)

La opción Allow sirve para crear una excepción; por ejemplo:

  • Disallow: /imágenes/ (No entres a carpeta imágenes)

  • Allow: /imágenes/2020/ (Puedes entrar sólo a la subcarpeta 2020 que está dentro de la carpeta imágenes). Sirve para bloquear años anteriores.

Ten cuidado con la opción Noindex: porque a partir del 2020 Google dice que no aceptará esta opción dentro del robots.txt. Esto significa no indexar.

Registrar información para la auditoría en nuestro Checklist de SEO técnico:
¿Está bloqueando alguna ruta importante?
¿Se necesita bloquear alguna ruta?

  • En este ejemplo, todo lo que está bloqueado son cosas que genera por defecto el sistema de e-commerce y no son relevantes.

Proceso para actualizar tu archivo robots.txt
Una vez hemos actualizado o modificado nuestro archivo robots.txt debemos actualizar el archivo, el proceso mas fácil desde mi punto de vista sería el siguiente:

  1. Abrimos nuestro archivo robots.txt con el nombre de nuestro dominio /robots.txt

  2. Al abrirse la pestaña en el navegador seleccionamos el texto que tenemos, lo copiamos y lo pegamos en un archivo Word

  3. En el archivo Word realizamos los ajustes que necesitamos sea habilitando o bloqueando, al estar con los ajustes guardamos como “robots.txt” verificando que el formato sea txt

  4. Luego abrimos nuestra cuenta en el hosting donde esta nuestro sitio web y ubicamos el administrador de archivos

  1. Al ingresar a nuestro administrador de archivos nos encontramos en el cpanel y allí ubicamos la carpeta de public y cargamos el archivo que creamos
  1. Verificamos que el archivo aparezca en el listado de archivos de la carpeta public o confirmamos volviendo a ingresar a la ruta con el nombre de nuestro sitio web / robots.txt ejemplo:
  1. Revisamos que el contenido corresponda a los ajustes que realizamos.

Un muy valioso aporte de mi parte, para los platzinautas.

Primero que nada el archivo robots.txt tiene una documentacion hecha por google, algo ironico . https://developers.google.com/search/docs/advanced/robots/robots_txt. En esta pagina veran las principals reglas que se usan para implementar este archivo en su pagina.
Como dato extra

  1. Siempre que vean algo nuevo en la clase googenlo con su documentacion ej : robots.txt documentation.
  2. El que se queda con una duda, pierde. Nunca te quedes con la duda.
  3. Sean profesionales en lo que hagan.
  4. “Un buen dia y que se cumpla lo que tanto quieres”.

Amo, amo este curso. ♥

En caso de no contar con el archivo robots.txt en nuestra web, ya sea error 404 o que aparezca en blanco, debemos de crear uno.
Nos dirigimos a nuestro editor de texto o podemos usar el bloc de notas, creamos un archivo llamado:

 robots.txt 

Para agregar información a robots.txt debemos de modificarlo con:

User-agent: *

Por ultimo otorgamos los permisos, esto depende de los archivos que tengas en la raíz de tu carpeta donde esta alojada tu pagina web.
Por ejemplo: en la carpeta raíz donde esta tu pagina web hay dos carpetas con imágenes llamadas Fotos1 y Fotos2, para decir que los rastreadores no tengan acceso a estas dos carpetas colocamos:

Disallow: /Fotos1/*
Disallow: /Fotos2/*

El codigo completo de tu archivo robots.txt debe ser:

User-agent: *

Disallow: /Fotos1/*
Disallow: /Fotos2/*

Lo guardamos y ahora nos dirigimos a la carpeta raíz donde se encuentra nuestro index, subimos el archivo robots.txt y si buscamos nuestra pagina con el archivo nos aparecerá el contenido de nuestro txt.

Pagina-web/robots.txt

*Extra
user-agent: identifica al rastreador al que se aplican las reglas.
allow: ruta de URL que se puede rastrear.
disallow: ruta de URL que no se puede rastrear.
sitemap: URL completa de un sitemap

Yo estoy haciendo la auditoria para mi sitio web porque tengo muchas cosas que debo mejorar

https://smallpockettrip.com/robots.txt

Solo esta bloqueando el log in y esta habilitando el AJAX, el cual es una tecnología que nos permite recuperar datos del backend y refrescar la vista sin necesitad de recargar la página, mejorando así la interactividad, velocidad y usabilidad del sitio.

¿Qué pasa cuando solo aparece uno o dos?
User-Agent: *
Disallow:

En una página solo me aparece User-Agent:* y en la segunda, así como está arriba?

En el caso de que no exista el archivo robots.txt, solo se crea el archivo robots.txt y se guarda en la carpeta donde se encuentra mi index.html?

La url del error 404 personalizado, vale la pena indexarlo?

Este es el archivo robots.txt de mi e-commerce, esta bien?

<h1>we use Shopify as our ecommerce platform</h1>

User-agent: *
Disallow: /a/downloads/-/*
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /40019329189/checkouts
Disallow: /40019329189/orders
Disallow: /carts
Disallow: /account
Disallow: /collections/sort_bysort_by*
Disallow: /collections/+
Disallow: /collections/%2B
Disallow: /collections/%2b
Disallow: //collections/+*
Disallow: //collections/%2B*
Disallow: //collections/%2b*
Disallow: /blogs/+
Disallow: /blogs/%2B
Disallow: /blogs/%2b
Disallow: //blogs/+*
Disallow: //blogs/%2B*
Disallow: //blogs/%2b*
Disallow: /design_theme_id
Disallow: /preview_theme_id
Disallow: /preview_script_id
Disallow: /policies/
Disallow: /search
Disallow: /apple-app-site-association
Sitemap: https://todoveganoarg.com/sitemap.xml

<h1>Google adsbot ignores robots.txt unless specifically named!</h1>

User-agent: adsbot-google
Disallow: /checkout
Disallow: /carts
Disallow: /orders
Disallow: /40019329189/checkouts
Disallow: /40019329189/orders
Disallow: /design_theme_id
Disallow: /preview_theme_id
Disallow: /preview_script_id

User-agent: Nutch
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 10
Disallow: /a/downloads/-/*
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /40019329189/checkouts
Disallow: /40019329189/orders
Disallow: /carts
Disallow: /account
Disallow: /collections/sort_bysort_by*
Disallow: /collections/+
Disallow: /collections/%2B
Disallow: /collections/%2b
Disallow: //collections/+*
Disallow: //collections/%2B*
Disallow: //collections/%2b*
Disallow: /blogs/+
Disallow: /blogs/%2B
Disallow: /blogs/%2b
Disallow: //blogs/+*
Disallow: //blogs/%2B*
Disallow: //blogs/%2b*
Disallow: /design_theme_id
Disallow: /preview_theme_id
Disallow: /preview_script_id
Disallow: /policies/
Disallow: /search
Disallow: /apple-app-site-association
Sitemap: https://todoveganoarg.com/sitemap.xml

User-agent: AhrefsSiteAudit
Crawl-delay: 10
Disallow: /a/downloads/-/*
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /40019329189/checkouts
Disallow: /40019329189/orders
Disallow: /carts
Disallow: /account
Disallow: /collections/sort_bysort_by*
Disallow: /collections/+
Disallow: /collections/%2B
Disallow: /collections/%2b
Disallow: //collections/+*
Disallow: //collections/%2B*
Disallow: //collections/%2b*
Disallow: /blogs/+
Disallow: /blogs/%2B
Disallow: /blogs/%2b
Disallow: //blogs/+*
Disallow: //blogs/%2B*
Disallow: //blogs/%2b*
Disallow: /design_theme_id
Disallow: /preview_theme_id
Disallow: /preview_script_id
Disallow: /policies/
Disallow: /search
Disallow: /apple-app-site-association
Sitemap: https://todoveganoarg.com/sitemap.xml

User-agent: MJ12bot
Crawl-Delay: 10

User-agent: Pinterest
Crawl-delay: 1

En mi blog me sale esto, pero en el site map solo mi página de inicio está indexada, como hago para que las pajunas de mis entradas salgan indexadas en Google?

START YOAST BLOCK

---------------------------

User-agent: *
Disallow:

Sitemap: https://observoluegoexisto.online/sitemap_index.xml

---------------------------

END YOAST BLOCK

¿Y como haría con los subdominios? Por ejemplo, si tengo private dot example dot com y no quiero que esto sea indexado ¿como pongo eso en el robots.txt?

Mi sitio web está indexado pero no me aparece ese archivo cuando ejecuto el comando.

las paginas que se ven indexadas de imageners no tienen una ruta comun, toca que modifcarlas o anadirlas una a una en el archivo de robots?

tener el archivo de robots.txt en una ruta tan visible no es contraproducente para la seguridad de mi sitio?
Hola, ¿ Que hacer en caso de que el sitio no tenga o no aparezca ese archivo robots.txt, me sale error 404 no found, ¿Cómo se crea el archivo y cómo en dónde se agrega? Gracias
Hay algo que no me queda del todo claro. Tal vez sea porque estoy practicando con la página de un comercio aleatorio, pero ¿Cómo identificaría cuales si deberían estar en "Allow" y cuales en "Disallow". Si fuera mi página. ¿Qué elementos si debería dejar en "Allow" y cuáles en "Disallow"?. Para una tienda en la que trabajo, deseo hacerle esta auditoría. Es una tienda de bebidas gaseosas durante el verano y bebidas calientes durante el invierno, a la vez, el lugar se adecúa para eventos. Si la página tiene lo siguientes items en su menú. ¿Son estos los que deben estar en "Allow"? *Corríjanme si me equivoco.* * Soda * Hot Drinks * Events. * About us.

Hola
Digite esta pagina https://grupomilagros.com.co/robots.txt y evidencio otra informacion.

Qué debo hacer en este caso ?

En espera de su respuesta

hola me aparece lo siguiente

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://olayaautomotriz.com.co/wp-sitemap.xml

en mi caso aparece esto
Allow: /wp-admin/admin-ajax.php

Si el propósito de robot.txt es bloquear el crawleo, cuándo es necesario usar “Allow: / /” ?

Me aparece esto.
Cannot GET /robots.txt

Qué implicaciones tiene que la página que estoy auditando, que es mi propio e-commerce, no tiene ninguna información en el robots.txt.
Sale un mensaje: “No se han encontrado resultados para tu búsqueda”

Espero su ayuda, por que debería de no indexar el login si el usuario busca de forma directa para login y pusimos robot.txt no le aparecerá y como lo hago eso en mi página de WordPress gracias

o sea que el archivo robots.txt es únicamente leído por Google? y entonces, cómo tengo que indicar lo que indico en este archivo, pero para otros buscadores?

Yo no quiero que mis Landing page que corren por campañas pagadas se indexen , en donde se lleva a otras paginas como gracias o chekout, las debo dejar como No index? si es asi, podria crear una categoria de Ejemplo como “LANDING” y colocar ahy todas mis landing de ads y bloquearlas por el Robots.txt con DISALLOW
Asi : DISALLOW / LANDING/ ?? Gracias

Que profesor tan agradable y claro.

Sería posible crear este archivo desde la consola de google?
O ya es tarea del programador incluirlo en el código fuente?

Ahora tengo un problema y es que google no me deja indexar la página ya que el archivo robots.txt esta bloqueando el rastreo, sin embargo mi archivo de robots.txt tiene este contenido:
User-Agent: *
Allow: /
Disallow: /login
Disallow: /images

No se que pueda estar pasando 😦

Si al buscar el enlace me aparece un error de Not Found ¿Significa que la pagina no tiene archivo de robots.txt?

Estoy realizando esta practica con un sitio que también tiene un blog en un subdiminio, algo como blog.midominio.com, entro otros subdominios, y estos resultados me salen en la búsqueda de site:midominio.com, me parece que esto esta ensuciando mi búsqueda, hay alguna forma de omitir los subdominios? intente con site:www.midominio.com pero me salen muy pocos resultados, como 5 paginas nada mas cuando el sitio tiene alrededor de 30, no se si esta búsqueda con www es confiable, ademas en la búsqueda original con site:midominio.com me salieron algunos resultados con www2, es esto correcto?

¿Que puede estar sucediendo con una web, que al momento de consultar el archivo robots.txt la respuesta sea que no consigue ese archivo dentro de la pagina?. Sin embargo al consultar la url simple con google esta en el primer resultado.

Datos a considerar: estoy accediendo a la web en cuestion desde un browser diferente al de mi uso frecuente, suelo visitar este sitio con cierta frecuencia desde el navegador predeterminado desde mi dispositivo personal.

¿Cómo subir el robots.txt en mi sitio si estoy haciéndolo con HTML? y ¿cómo subir y editar el mismo archivo si lo estoy haciendo con WordPress?

Esta pregunta es de un clieente, que me llama la atencion en caso de yo tener una pagina de comparacion de precios, yo debo acceder a bases de datos ( el ejemplo es para un cliente que queria hacer un modulo para comparar predcios de articulos del hogar y groceries de paginas de supermercados en Colombia)
MI pregunta es si hay que hacer un aviso legal a esas paginas web , por que finalmente si los crawlers de google hacen esto de analizar paginas completas por que haciendo scraping de textos de paginas publicas.
MI pregunta es tendriamos que dar a viso legal, o como google acceder a los que ya es de por si publico.

Esto me salio en mi sitio, qué significa y qué debo hacer?
![](

¿cómo bloqueo desde robots.txt?

Esto es lo único que me aparece:
User-agent: *

Al bloquear rutas con Disallow, es una forma de decirle a alguien que quiera vulnerar la seguridad que ahí está lo que nos importa?

❤️

Súper bueno. A mí se me pasó quitar la etiqueta noindex cuando terminé mi página y google se tardó meses en indexarla. Les recomiendo checarlo súper bien!

Que significa cuando aparece 404 Not Found?

Hola, desde que parte puedo editar mi robots.txt si mi sitio esta en wordpress?