Existe un archivo pequeño pero poderoso que puede hacer que tu sitio web completo desaparezca de los resultados de Google. Se llama robots.txt y, aunque su función es controlar qué partes de tu sitio pueden rastrear los buscadores, un error en su configuración puede provocar que todo tu contenido quede invisible. Entender cómo funciona y cómo auditarlo es una habilidad fundamental en cualquier proceso de SEO técnico.
¿Qué es el archivo robots.txt y cómo funciona?
El archivo robots.txt es un archivo de texto plano que se ubica en la raíz de tu dominio. Para acceder a él basta con escribir tu dominio seguido de /robots.txt, por ejemplo: sitio.com.co/robots.txt [0:36]. Este archivo actúa como un canal de comunicación directa con Google y otros motores de búsqueda, indicándoles a qué secciones del sitio pueden o no acceder.
Dentro del archivo encontrarás principalmente dos directivas:
- Allow: permite el acceso a una ruta específica del sitio.
- Disallow: bloquea el acceso a una ruta o directorio determinado.
Cuando ves Disallow: /imagenes, le estás diciendo a Google que no entre a la carpeta de imágenes [1:25]. Pero si combinas ambas directivas puedes crear excepciones. Por ejemplo, puedes bloquear /imagenes con Disallow y al mismo tiempo usar Allow: /imagenes/2020 para permitir el acceso únicamente a las imágenes del año 2020 [1:40]. Esto resulta útil para bloquear contenido antiguo sin afectar el más reciente.
¿Qué sucede si se bloquea todo el sitio por error?
Uno de los errores más graves ocurre cuando aparece la línea Disallow: / en el archivo. Esa simple barra diagonal después de Disallow significa bloquear todo el sitio web completo [1:15]. Esto puede pasar por desconocimiento o por una configuración accidental, y es precisamente lo que debes verificar durante una auditoría.
También es importante saber que la directiva No Index dentro del robots.txt ya no es válida. Google anunció que dejó de aceptar esta instrucción en el archivo robots.txt [1:55]. La forma correcta de no indexar páginas se maneja con otros métodos que van más allá de este archivo.
¿Cómo auditar el robots.txt con un checklist práctico?
La auditoría del robots.txt se puede dividir en dos preguntas clave que guían todo el proceso.
¿Está bloqueando alguna ruta importante?
Revisa cada línea Disallow del archivo y pregúntate si esa página o directorio debería estar visible en Google [2:30]. Una ruta importante es aquella que responde a búsquedas reales de los usuarios y que aporta valor. Si encuentras una ruta relevante bloqueada, la acción correcta es eliminar esa línea del robots.txt.
En el ejemplo analizado, las rutas bloqueadas correspondían a carpetas generadas por defecto por el sistema de eCommerce —como imágenes de cuenta, login y checkout— que no necesitan aparecer en buscadores [1:05]. En ese caso, el archivo estaba correctamente configurado.
¿Se necesita bloquear alguna ruta que hoy está visible?
Para detectar páginas que no deberían estar indexadas, utiliza el comando site:tudominio.com directamente en Google [3:40]. Este comando muestra todas las páginas que Google tiene registradas de tu sitio. La tarea consiste en revisar los títulos buscando elementos fuera de lo común:
- Páginas con nombres extraños como números sin contexto.
- Páginas de plantilla que no pertenecen al sitio, como una página Contact en un sitio en español [4:15].
- Páginas de login que no aportan valor en los resultados de búsqueda [5:05].
Cuando identificas estas páginas, tienes dos opciones: eliminar la página directamente o bloquearla desde el robots.txt añadiendo la línea correspondiente, por ejemplo Disallow: /login [5:20].
¿Cómo documentar los hallazgos en el checklist de auditoría?
Cada hallazgo debe registrarse con información clara para que el desarrollador o la persona encargada de implementar los cambios sepa exactamente qué hacer. El registro incluye:
- Estado del factor: si necesita optimización o está correcto.
- Prioridad: baja, media o alta, según la gravedad del problema.
- Acción necesaria: descripción concreta como "bloquear el login y página de contacto de plantilla desde el robots.txt" [5:45].
- Archivo adjunto: las líneas exactas que deben agregarse al archivo.
- Fecha del hallazgo: para llevar un control temporal de la auditoría.
Documentar de esta forma permite que cualquier persona del equipo ejecute las correcciones sin ambigüedades. La recomendación es crear una copia del checklist y comenzar a auditar cualquier sitio web de tu elección, practicando la revisión de cada factor a medida que se aprende. Si encuentras dudas en el proceso, compartirlas en los comentarios es la mejor forma de resolverlas.