Optimización de robots.txt para SEO técnico en sitios web

Clase 12 de 19 • Curso de Técnicas SEO para E-Commerce

Resumen

¿Cómo usar efectivamente el archivo robots.txt para la optimización SEO?

El archivo robots.txt es una herramienta poderosa y sencilla que permite controlar el acceso de los robots de los motores de búsqueda a las diferentes secciones de un sitio web. Este archivo, en formato de texto plano y alojado en el servidor web, es fundamental para guiar a los robots sobre qué áreas deben explorar y cuáles no. Entender cómo optimizar este archivo es vital para cualquier estrategia de SEO. A continuación, desglosamos los aspectos clave para su correcto uso.

¿Cómo se configura el archivo robots.txt?

Para comenzar, el archivo robots.txt se configura estableciendo reglas simples en formato de texto. Aquí te dejamos los pasos esenciales:

User-agent: Especifica a qué robots se destinan las instrucciones. Puede dirigirse a todos los bots o a uno específico, como Googlebot o Bingbot.
Disallow: Permite indicar al robot que no acceda a ciertos directorios o páginas. Esto es útil para proteger áreas privadas o irrelevantes, como el área administrativa o páginas que generan contenido duplicado.
Allow: Esta instrucción se utiliza para hacer excepciones dentro de los directorios restringidos.

El archivo debe estar situado en la raíz del dominio de tu sitio para ser efectivo.

¿Cuáles son las prácticas recomendadas para un e-commerce?

En el contexto de un comercio electrónico, es crucial bloquear ciertas rutas para evitar problemas como contenido duplicado. Estas son algunas directrices específicas:

Bloquear la carpeta del administrador: Impide que el motor de búsqueda indexe las páginas administrativas.
Proteger elementos privados: Como páginas de pago, carritos de compra y pruebas de aterrizaje que no deben aparecer en los resultados de búsqueda.
Evitar el indexado de búsquedas internas: Esto previene que las URLs generadas por búsquedas internas se indexen y desorganicen la estructura del sitio.

¿Qué errores comunes se deben evitar al usar robots.txt?

Aunque robots.txt es útil, existen errores comunes que pueden perjudicar tu SEO:

No bloquear páginas ya indexadas: No se debe usar robots.txt para eliminar páginas ya indexadas, ya que esto podría confundir a los robots.
Confundir noindex y disallow: La etiqueta noindex se usa para evitar que páginas se indexen, mientras que disallow limita el acceso del robot; no se deben mezclar.
Confiar exclusivamente en robots.txt: Los robots pueden ignorar este archivo si lo consideran necesario. Siempre complementa con prácticas adicionales como etiquetas meta noindex.

¿Cuál es el impacto del sitemap en robots.txt?

El archivo robots.txt no solo restringe acceso, sino que también puede indicar a los robots dónde encontrar el sitemap del sitio en formato XML. Esto ayuda a que el algoritmo indexe de manera más efectiva todas las URL relevantes del sitio web.

Por ejemplo, insertar la línea Sitemap: http://www.tusitio.com/sitemap.xml en el archivo robots.txt facilita a los motores de búsqueda la localización del sitemap completo, mejorando la cobertura y exactitud de la indexación.

¿Qué herramientas y recursos adicionales pueden ayudar?

Para los que usan plataformas como WordPress, existen plugins que facilitan la edición del archivo robots.txt. Además, se recomienda consultar la documentación técnica proporcionada por herramientas de gestión de contenido y motores de búsqueda. Google, por ejemplo, ofrece guías extensas y actualizadas sobre cómo tratar correctamente este archivo.

Conocer y aplicar efectivamente las configuraciones de robots.txt podría potenciar la eficiencia del rastreo por parte de los motores de búsqueda, optimizando así tu sitio web de manera confiable y precisa. Continúa explorando y aprendiendo sobre este y otros aspectos técnicos del SEO para llevar tu optimización al siguiente nivel.

Laura Gomez

teacher•

Faltaría el user agent y por supuesto los allow: User-agent: Googlebot Disallow: /nogooglebot/

User-agent: * Allow: /

Sitemap:

Claudio Othón Ortiz Mata

student•

El archivo robots.txt es una herramienta que podemos usar para controlar el acceso de los motores de búsqueda a nuestro sitio web. Se encuentra en la raíz de nuestro sitio y contiene instrucciones para los robots o rastreadores de los motores de búsqueda sobre qué páginas deben indexar y cuáles deben ignorar.

El formato es sencillo y consiste en un conjunto de líneas de instrucciones que se dividen en dos partes: User-Agent y Disallow. User-Agent nos permite especificar para qué motor de búsqueda están destinadas las instrucciones siguientes. Por ejemplo, si ponemos "User-Agent: Googlebot", estamos diciendo que las instrucciones siguientes son para el robot de Google.

En cuanto a Disallow, nos permite especificar las páginas que el robot debe ignorar. Por ejemplo, si ponemos "Disallow: /pagina-secreta", estamos diciendo que el robot debe ignorar la página "/pagina-secreta".

Es importante tener en cuenta que los motores de búsqueda no están obligados a respetar las instrucciones del archivo robots.txt, por lo que es posible que algunas páginas sean indexadas a pesar de haber sido excluidas. Por esta razón, es crucial que asegurémonos de no bloquear páginas importantes que deben ser indexadas, ya que esto puede afectar negativamente nuestro SEO.

En conclusión, el archivo robots.txt es una herramienta valiosa que nos permite controlar el acceso de los motores de búsqueda a nuestro sitio web. Sin embargo, es importante utilizarlo de manera adecuada y tener en cuenta sus limitaciones.

Jeferson Manuel Martínez Marroquín

student•

Para los que usan woocommerce este robots txt es ideal para no tener tanto problemas con el index: Disallow: /wp-content/uploads/wpo-plugins-tables-list.json Disallow: *page Disallow: *cart Disallow: *my-account Disallow: *account/ Disallow: *?remove_item Disallow: *search

cristian david palomino porras

student•

falta el user-agent, en mi pagina lo tengo habilitado a todos los robots con "user-agent: *"

Juan Carlos Esquivias Otazu

student•

user-agent: identifies which crawler the rules apply to.

Juan Sebastian Calderon

student•

¿Cual es la diferencia de no indexar una página con robots.txt o con la etiqueta no index?

Claudio Othón Ortiz Mata

student•

La principal diferencia entre no indexar una página con robots.txt y con la etiqueta "noindex" es que la primera es una instrucción dirigida a los robots de los motores de búsqueda, mientras que la segunda es una indicación que se encuentra directamente en la página en cuestión.

El archivo robots.txt es un archivo que se encuentra en la raíz de un sitio web y que contiene instrucciones para los robots sobre qué páginas deben indexar y cuáles deben ignorar. Sin embargo, no todos los motores de búsqueda respetan necesariamente las instrucciones incluidas en el archivo robots.txt.

Por otro lado, la etiqueta "noindex" es una etiqueta HTML que se incluye en la cabecera de una página y que indica a los motores de búsqueda que no deben indexar esa página. Esta etiqueta es más efectiva que el archivo robots.txt, ya que los motores de búsqueda suelen respetarla de manera más estricta.

En resumen, si queremos evitar que una página sea indexada por los motores de búsqueda, es recomendable utilizar la etiqueta "noindex" en lugar de incluir instrucciones en el archivo robots.txt. De esta forma, podemos asegurarnos de que la página en cuestión no será indexada, lo que puede ser especialmente útil si queremos evitar que información confidencial o páginas sin importancia sean visibles en los resultados de búsqueda.

Jason Arias

student•

Elementos que es prudente no permiter leer por los Robots son:

MARTHA PAOLA GÓMEZ CARRIZOSA

student•

https://forms.gle/bbgaKqA2LhUhai2F6

Colombia Virginia Ayala Vargas

student•

hola, alguien me podría ayudar para saber cómo está organizada la estructura del sitemap de platzi?

https://platzi.com/sitemap.xml

Claudio Othón Ortiz Mata

student•

Por lo general, los sitemaps suelen estar organizados en un formato XML que incluye información sobre las páginas o contenido incluido en un sitio web. Esta información incluye la URL de cada página, la fecha de la última modificación, la frecuencia con la que se actualiza la página y la importancia de la página en relación con otras páginas del sitio.

Mario Andres Duque Gonzalez

student•

y si estamos usando shopify??

Bernar Serrano Rubiano

student•

en una tienda shopify, como funciona esto del robot?

Arlen Aguilar

student•

¿Qué pasa con un ecommerce que tiene una cantidad significativa de productos? ejemplo más de 20 mil productos en promedio tienen inventario en un mes y el catálogo cuenta con 50 mil códigos y la disponibilidad cambia mientras pasa el tiempo, productos se quedan sin inventario y productos que no tenían en días anteriores llegan a tener que es lo recomendable hacen en esta situación???