Optimización de robots.txt para SEO técnico en sitios web

Clase 12 de 19 • Curso de Técnicas SEO para E-Commerce

Contenido del curso

Fundamentos de SEO e-commerce

Arquitectura web para un e-commerce

Factores técnicos para el contenido

Factores de SEO On-page e-commerce

Resumen

Controlar qué partes de tu tienda en línea pueden ver los motores de búsqueda es una de las decisiones técnicas más relevantes para cualquier estrategia SEO. El archivo robots.txt es la herramienta que lo hace posible, y entender cómo funciona te permitirá evitar problemas de contenido duplicado, proteger zonas privadas y facilitar el rastreo eficiente de tus páginas.

¿Qué es el archivo robots.txt y dónde se encuentra?

El robots.txt es un archivo de texto plano —tan simple como los que se crean con el bloc de notas— que se ubica en la raíz del servidor donde está alojado tu sitio web [0:40]. Su función principal es comunicarle a los robots de los buscadores a qué secciones pueden acceder y a cuáles no.

Si utilizas plataformas como Shopify u otros servicios para crear tiendas en línea, es probable que necesites consultar su documentación o instalar un plugin para modificarlo [1:08]. En el caso de WordPress, existen plugins que permiten editarlo sin necesidad de conectarte por FTP o acceder a la consola del servidor. WordPress, además, ya trae optimizaciones por defecto, como el bloqueo automático de la ruta WP-admin [3:50].

¿Cuáles son las instrucciones principales del robots.txt?

El archivo se compone de líneas de texto con instrucciones específicas que los robots interpretan al visitar tu sitio.

¿Qué significa User-Agent?

La directiva User-Agent indica a qué robot le estás dando la instrucción [1:40]. Puedes dirigirte a un robot en particular —como el de Google Smartphone o Google Mobile— o usar un asterisco para hablarle a todos los robots a la vez. Google cuenta con documentación oficial donde puedes consultar todos sus user agents disponibles [2:10].

¿Cómo funcionan Disallow y Allow?

Con la instrucción Disallow seguida de dos puntos y la ruta, le indicas al robot que no acceda a una carpeta o URL específica [2:25]. Por ejemplo, puedes bloquear una carpeta de multimedia completa. Sin embargo, si dentro de esa carpeta hay una subcarpeta que sí necesitas que sea rastreada, utilizas la instrucción Allow para crear una excepción [2:45].

Otra función clave del archivo es señalar la ubicación de tu Sitemap XML [3:00]. Este mapa de sitio le dice al algoritmo dónde encontrar todas las URL de tu tienda, facilitando un rastreo más rápido y completo.

¿Qué URLs se deben bloquear en un eCommerce?

No todas las páginas de una tienda en línea deben aparecer en los resultados de búsqueda. Estas son las rutas más comunes que conviene bloquear:

Zona de administración: no aporta valor al usuario y consume recursos del robot [3:25].
URL privadas: landing pages experimentales, páginas para campañas de social media o pautas publicitarias [4:10].
Contenido pobre: páginas con poco valor que se usan para otros propósitos internos.
Búsquedas internas (/search): generan URLs dinámicas que pueden provocar contenido duplicado [6:20].
Checkout: la página de pago no necesita indexarse [7:05].
Carrito de compras: tampoco tiene sentido que aparezca en los buscadores [7:15].

¿Se pueden sacar páginas de Google solo con robots.txt?

Este es un error muy frecuente. Si una página ya fue rastreada e indexada, bloquearla en el robots.txt no la eliminará de los resultados de búsqueda [4:50]. Lo que ocurre es que le dices al robot que no vuelva a entrar, pero la página sigue apareciendo.

El proceso correcto tiene dos pasos:

Primero, aplicar la etiqueta no index para desindexar la página, lo cual también se puede solicitar desde Google Search Console [5:30].
Después, una vez confirmada la desindexación, bloquear la ruta en el robots.txt para que el robot deje de rastrearla.

Es importante saber que el robot no siempre obedece las instrucciones del robots.txt [5:55]. Google aclara que, en ciertos casos, puede saltarse las directivas si ya ha encontrado esa información previamente. Aunque esto suene contradictorio, refuerza la idea de que el robots.txt es una guía, no una orden absoluta.

¿Cómo se estructura un archivo robots.txt para tu tienda?

Un ejemplo básico incluiría el bloqueo de las carpetas de búsqueda interna, administración, checkout y carrito, seguido de la declaración del Sitemap [6:15]. Cada línea de Disallow especifica la ruta con el formato Disallow: /ruta/. Sin embargo, hay un elemento que suele faltar: la línea de User-Agent que precede a las instrucciones, indicando a qué robot se dirigen las reglas.

Si quieres profundizar, revisa la documentación oficial de Google sobre robots.txt y comparte en los comentarios qué línea crees que falta en el ejemplo propuesto. Es un ejercicio práctico que te ayudará a consolidar lo aprendido.

Comentarios

Laura Gomez

teacher•

Faltaría el user agent y por supuesto los allow: User-agent: Googlebot Disallow: /nogooglebot/

User-agent: * Allow: /

Sitemap:

Claudio Othón Ortiz Mata

student•

El archivo robots.txt es una herramienta que podemos usar para controlar el acceso de los motores de búsqueda a nuestro sitio web. Se encuentra en la raíz de nuestro sitio y contiene instrucciones para los robots o rastreadores de los motores de búsqueda sobre qué páginas deben indexar y cuáles deben ignorar.

El formato es sencillo y consiste en un conjunto de líneas de instrucciones que se dividen en dos partes: User-Agent y Disallow. User-Agent nos permite especificar para qué motor de búsqueda están destinadas las instrucciones siguientes. Por ejemplo, si ponemos "User-Agent: Googlebot", estamos diciendo que las instrucciones siguientes son para el robot de Google.

En cuanto a Disallow, nos permite especificar las páginas que el robot debe ignorar. Por ejemplo, si ponemos "Disallow: /pagina-secreta", estamos diciendo que el robot debe ignorar la página "/pagina-secreta".

Es importante tener en cuenta que los motores de búsqueda no están obligados a respetar las instrucciones del archivo robots.txt, por lo que es posible que algunas páginas sean indexadas a pesar de haber sido excluidas. Por esta razón, es crucial que asegurémonos de no bloquear páginas importantes que deben ser indexadas, ya que esto puede afectar negativamente nuestro SEO.

En conclusión, el archivo robots.txt es una herramienta valiosa que nos permite controlar el acceso de los motores de búsqueda a nuestro sitio web. Sin embargo, es importante utilizarlo de manera adecuada y tener en cuenta sus limitaciones.

Jeferson Manuel Martínez Marroquín

student•

Para los que usan woocommerce este robots txt es ideal para no tener tanto problemas con el index: Disallow: /wp-content/uploads/wpo-plugins-tables-list.json Disallow: *page Disallow: *cart Disallow: *my-account Disallow: *account/ Disallow: *?remove_item Disallow: *search

cristian david palomino porras

student•

falta el user-agent, en mi pagina lo tengo habilitado a todos los robots con "user-agent: *"

Juan Carlos Esquivias Otazu

student•

user-agent: identifies which crawler the rules apply to.

Arlen Aguilar

student•

¿Qué pasa con un ecommerce que tiene una cantidad significativa de productos? ejemplo más de 20 mil productos en promedio tienen inventario en un mes y el catálogo cuenta con 50 mil códigos y la disponibilidad cambia mientras pasa el tiempo, productos se quedan sin inventario y productos que no tenían en días anteriores llegan a tener que es lo recomendable hacen en esta situación???

Juan Sebastian Calderon

student•

¿Cual es la diferencia de no indexar una página con robots.txt o con la etiqueta no index?

Claudio Othón Ortiz Mata

student•

La principal diferencia entre no indexar una página con robots.txt y con la etiqueta "noindex" es que la primera es una instrucción dirigida a los robots de los motores de búsqueda, mientras que la segunda es una indicación que se encuentra directamente en la página en cuestión.

El archivo robots.txt es un archivo que se encuentra en la raíz de un sitio web y que contiene instrucciones para los robots sobre qué páginas deben indexar y cuáles deben ignorar. Sin embargo, no todos los motores de búsqueda respetan necesariamente las instrucciones incluidas en el archivo robots.txt.

Por otro lado, la etiqueta "noindex" es una etiqueta HTML que se incluye en la cabecera de una página y que indica a los motores de búsqueda que no deben indexar esa página. Esta etiqueta es más efectiva que el archivo robots.txt, ya que los motores de búsqueda suelen respetarla de manera más estricta.

En resumen, si queremos evitar que una página sea indexada por los motores de búsqueda, es recomendable utilizar la etiqueta "noindex" en lugar de incluir instrucciones en el archivo robots.txt. De esta forma, podemos asegurarnos de que la página en cuestión no será indexada, lo que puede ser especialmente útil si queremos evitar que información confidencial o páginas sin importancia sean visibles en los resultados de búsqueda.

Jason Arias

student•

Elementos que es prudente no permiter leer por los Robots son:

MARTHA PAOLA GÓMEZ CARRIZOSA

student•

https://forms.gle/bbgaKqA2LhUhai2F6

Colombia Virginia Ayala Vargas

student•

hola, alguien me podría ayudar para saber cómo está organizada la estructura del sitemap de platzi?

https://platzi.com/sitemap.xml

Claudio Othón Ortiz Mata

student•

Por lo general, los sitemaps suelen estar organizados en un formato XML que incluye información sobre las páginas o contenido incluido en un sitio web. Esta información incluye la URL de cada página, la fecha de la última modificación, la frecuencia con la que se actualiza la página y la importancia de la página en relación con otras páginas del sitio.

Mario Andres Duque Gonzalez

student•

y si estamos usando shopify??

Bernar Serrano Rubiano

student•

en una tienda shopify, como funciona esto del robot?

Virginia Sanz

student•

La respuesta al reto es:

User-agent: *
Allow: /*

Samuel Boscan

student•

User-agent: * Allow: /*

Carlos Casilimas Olivar

student•

User-agent: * Allow: /*

Manuel Armas

student•

falta el user-agent, para decirle con que robot hablamos

Optimización de robots.txt para SEO técnico en sitios web

Fundamentos de SEO e-commerce

SEO para Tiendas en Línea: Fundamentos y Estrategias Avanzadas

SEO para Tiendas en Línea: Estrategias Efectivas para Aumentar Ventas

Optimización SEO para Tiendas en Línea: Estrategias y Buenas Prácticas

Optimización SEO: Intención de Búsqueda y Posicionamiento Web

Identificación de la Intención de Búsqueda en SEO

Arquitectura web para un e-commerce

Categorización Efectiva de Productos en Tiendas Online

Categorización de Palabras Clave para eCommerce en México

Mapeo de Palabras Clave para Categorías y Productos en E-commerce

Factores técnicos para el contenido

Optimización de Contenido para Tiendas en Línea

Optimización de Contenidos Duplicados en E-commerce

Gestión de Productos sin Inventario en Auditorías Técnicas SEO

Optimización de robots.txt para SEO técnico en sitios web

Optimización de URLs para SEO en Tiendas en Línea

Factores de SEO On-page e-commerce

Optimización de Títulos y Meta Descripciones para SEO

Redacción de Títulos y Meta Descripciones SEO Efectivas

Optimización de Títulos H1 para SEO en Comercio Electrónico

Optimización de Imágenes para Tiendas en Línea

Optimización de Descripciones de Productos para Tiendas Online

Optimización Continua para Tiendas en Línea: Estrategias Avanzadas