robots.txt para ecommerce: qué bloquear

Resumen

El archivo robots.txt es la pieza técnica que decide qué partes de tu ecommerce pueden rastrear los buscadores y cuáles no. Si vendes en línea con Shopify, WordPress o cualquier otra plataforma, configurarlo bien evita que Google gaste recursos en zonas privadas y mejora la indexación de lo que sí importa: tus productos.

Qué es el archivo robots.txt y dónde se ubica

Es un archivo de texto plano, igual que los que creas con el bloc de notas, alojado en la raíz del servidor donde vive tu sitio. Desde ahí le hablas a los robots de búsqueda y les das instrucciones de acceso.

¿Qué es robots.txt? Es un archivo de texto ubicado en la raíz de tu sitio que indica a los robots de buscadores qué URLs pueden rastrear y cuáles deben ignorar.

Si usas Shopify, revisa la documentación oficial para saber si necesitas un plugin específico. En WordPress puedes editarlo vía FTP, consola del servidor o con plugins SEO si no manejas código.

Cómo le hablas a los robots con user agent, disallow y allow

Las instrucciones del archivo se construyen con tres comandos básicos que funcionan como un diálogo directo con cada crawler.

Cómo identificar al robot con user agent

La línea user agent define a quién le estás hablando. Puedes dirigirte a todos los robots con un asterisco, solo al de Google, al de Yahoo, o incluso a versiones específicas como Googlebot Smartphone o Googlebot Mobile [03:30]. La documentación oficial de Google lista cada uno.

Cuándo usar disallow y allow

Después del user agent viene la instrucción disallow, que bloquea el acceso a una carpeta o ruta. Si necesitas una excepción dentro de esa carpeta bloqueada, usas allow.

Ejemplo práctico: bloqueas toda la carpeta /multimedia/ con disallow, pero permites /multimedia/2022/ con allow para que el robot sí entre a esa subcarpeta específica [04:30].

Por qué declarar tu sitemap dentro del robots.txt

El archivo también sirve para indicarle al algoritmo dónde está tu sitemap en formato XML. Ese mapa de sitio es la lista organizada de todas las URLs de tu ecommerce, y declararlo aquí acelera el rastreo.

Qué URLs deberías bloquear en un ecommerce

No todo tu sitio merece estar en Google. Hay rutas que solo gastan presupuesto de rastreo o generan problemas de contenido duplicado.

  • Zonas de administración, como /wp-admin/ en WordPress, que ya viene bloqueada por defecto.
  • Landing pages privadas usadas para social media o pauta paga que no quieres mostrar en búsquedas orgánicas.
  • Páginas con contenido pobre que existen por razones operativas pero no aportan valor SEO.
  • Subcarpeta /search/, que genera resultados internos de búsqueda y suele crear contenido duplicado.
  • Página de checkout, irrelevante para la indexación.
  • Carrito de compras, que no debe aparecer en resultados de búsqueda.

¿Por qué bloquear el checkout y el carrito? Porque son páginas transaccionales sin valor de búsqueda. Indexarlas desperdicia crawl budget y puede generar contenido duplicado o de baja calidad.

El error más común: bloquear páginas que ya están indexadas

Aquí viene el detalle que casi nadie explica bien. Si una URL ya fue rastreada y aparece en Google, no la bloquees directamente con disallow para sacarla de los resultados. Si lo haces, el robot pierde contexto y, en muchos casos, ignora la instrucción.

Cuál es el flujo correcto para desindexar

El orden importa y va así:

  1. Aplica la etiqueta noindex en la página que quieres sacar de Google.
  2. Espera a que el robot la rastree y la desindexe, o solicita la remoción desde Google Search Console.
  3. Una vez desindexada, ahí sí bloquea la URL en el robots.txt para que no la vuelva a rastrear.

Si inviertes el orden, Google puede saltarse tu disallow porque ya tiene la URL registrada desde antes [09:00]. El robot no siempre obedece al pie de la letra, y este es uno de los casos donde decide ignorar la instrucción.

Ejemplo de estructura básica de robots.txt para ecommerce

Un archivo bien armado para una tienda en línea suele incluir:

  • User-agent: * para hablarle a todos los robots.
  • Disallow: /search/ para bloquear búsquedas internas.
  • Disallow: /admin/ para proteger la administración.
  • Disallow: /checkout/ para excluir el proceso de pago.
  • Disallow: /cart/ para excluir el carrito.
  • La declaración del sitemap con la URL completa del XML.

Antes de cerrar, vale recordar que el robots.txt es solo una pieza del rompecabezas técnico. Una auditoría completa de SEO técnico revisa también velocidad, Core Web Vitals, estructura de URLs y datos estructurados.

¿Qué línea crees que le falta a un robots.txt típico para estar completo? Comparte tu hallazgo en los comentarios después de revisar la documentación oficial.