Controlar qué partes de tu tienda en línea pueden ver los motores de búsqueda es una de las decisiones técnicas más relevantes para cualquier estrategia SEO. El archivo robots.txt es la herramienta que lo hace posible, y entender cómo funciona te permitirá evitar problemas de contenido duplicado, proteger zonas privadas y facilitar el rastreo eficiente de tus páginas.
¿Qué es el archivo robots.txt y dónde se encuentra?
El robots.txt es un archivo de texto plano —tan simple como los que se crean con el bloc de notas— que se ubica en la raíz del servidor donde está alojado tu sitio web [0:40]. Su función principal es comunicarle a los robots de los buscadores a qué secciones pueden acceder y a cuáles no.
Si utilizas plataformas como Shopify u otros servicios para crear tiendas en línea, es probable que necesites consultar su documentación o instalar un plugin para modificarlo [1:08]. En el caso de WordPress, existen plugins que permiten editarlo sin necesidad de conectarte por FTP o acceder a la consola del servidor. WordPress, además, ya trae optimizaciones por defecto, como el bloqueo automático de la ruta WP-admin [3:50].
¿Cuáles son las instrucciones principales del robots.txt?
El archivo se compone de líneas de texto con instrucciones específicas que los robots interpretan al visitar tu sitio.
¿Qué significa User-Agent?
La directiva User-Agent indica a qué robot le estás dando la instrucción [1:40]. Puedes dirigirte a un robot en particular —como el de Google Smartphone o Google Mobile— o usar un asterisco para hablarle a todos los robots a la vez. Google cuenta con documentación oficial donde puedes consultar todos sus user agents disponibles [2:10].
¿Cómo funcionan Disallow y Allow?
Con la instrucción Disallow seguida de dos puntos y la ruta, le indicas al robot que no acceda a una carpeta o URL específica [2:25]. Por ejemplo, puedes bloquear una carpeta de multimedia completa. Sin embargo, si dentro de esa carpeta hay una subcarpeta que sí necesitas que sea rastreada, utilizas la instrucción Allow para crear una excepción [2:45].
Otra función clave del archivo es señalar la ubicación de tu Sitemap XML [3:00]. Este mapa de sitio le dice al algoritmo dónde encontrar todas las URL de tu tienda, facilitando un rastreo más rápido y completo.
¿Qué URLs se deben bloquear en un eCommerce?
No todas las páginas de una tienda en línea deben aparecer en los resultados de búsqueda. Estas son las rutas más comunes que conviene bloquear:
- Zona de administración: no aporta valor al usuario y consume recursos del robot [3:25].
- URL privadas: landing pages experimentales, páginas para campañas de social media o pautas publicitarias [4:10].
- Contenido pobre: páginas con poco valor que se usan para otros propósitos internos.
- Búsquedas internas (/search): generan URLs dinámicas que pueden provocar contenido duplicado [6:20].
- Checkout: la página de pago no necesita indexarse [7:05].
- Carrito de compras: tampoco tiene sentido que aparezca en los buscadores [7:15].
¿Se pueden sacar páginas de Google solo con robots.txt?
Este es un error muy frecuente. Si una página ya fue rastreada e indexada, bloquearla en el robots.txt no la eliminará de los resultados de búsqueda [4:50]. Lo que ocurre es que le dices al robot que no vuelva a entrar, pero la página sigue apareciendo.
El proceso correcto tiene dos pasos:
- Primero, aplicar la etiqueta no index para desindexar la página, lo cual también se puede solicitar desde Google Search Console [5:30].
- Después, una vez confirmada la desindexación, bloquear la ruta en el robots.txt para que el robot deje de rastrearla.
Es importante saber que el robot no siempre obedece las instrucciones del robots.txt [5:55]. Google aclara que, en ciertos casos, puede saltarse las directivas si ya ha encontrado esa información previamente. Aunque esto suene contradictorio, refuerza la idea de que el robots.txt es una guía, no una orden absoluta.
¿Cómo se estructura un archivo robots.txt para tu tienda?
Un ejemplo básico incluiría el bloqueo de las carpetas de búsqueda interna, administración, checkout y carrito, seguido de la declaración del Sitemap [6:15]. Cada línea de Disallow especifica la ruta con el formato Disallow: /ruta/. Sin embargo, hay un elemento que suele faltar: la línea de User-Agent que precede a las instrucciones, indicando a qué robot se dirigen las reglas.
Si quieres profundizar, revisa la documentación oficial de Google sobre robots.txt y comparte en los comentarios qué línea crees que falta en el ejemplo propuesto. Es un ejercicio práctico que te ayudará a consolidar lo aprendido.