Tutorial24 de abril de 2026·8 min

Qué es robots.txt y cómo leerlo para SEO

Aprende qué es robots.txt, cómo leerlo, qué errores bloquean a Google y cómo validarlo sin tocar a ciegas tu web.

Jan Gualda

Fundador de Weaking

Pantalla con código y configuración técnica de una web en un editor

Foto de Headway en Unsplash

Qué es robots.txt y cómo leerlo para SEO

El archivo robots.txt es pequeño, pero cuando está mal configurado puede liarte una buena. No porque “destruya” el SEO por sí solo, sino porque puede impedir que Google rastree justo lo que te interesa.

La parte buena es que entenderlo no requiere ser desarrollador. Requiere saber qué instrucciones existen, qué significan y, sobre todo, qué errores se repiten más.

Qué es exactamente `robots.txt`

Es un archivo de texto que se coloca en la raíz del dominio y da instrucciones de rastreo a los bots.

Ejemplo:

https://tudominio.com/robots.txt

Su función principal es decir:

qué partes de la web pueden rastrearse,
qué partes no,
y dónde está el sitemap.

No es un sistema de seguridad. No protege contenido sensible. Solo orienta a los crawlers que deciden respetarlo.

Lo primero que debes entender: rastreo no es indexación

Aquí está la confusión más habitual.

robots.txt afecta sobre todo al rastreo. Es decir, a si Googlebot puede entrar o no a ciertas rutas. Pero eso no significa automáticamente que una URL no pueda aparecer en el índice si Google la conoce por otros medios.

Por eso conviene no mezclarlo con:

meta robots noindex,
canonicals,
o exclusiones de sitemap.

Cada cosa resuelve un problema distinto.

Sintaxis básica de `robots.txt`

Las instrucciones más comunes son estas:

User-agent: *
Disallow: /privado/
Allow: /privado/ficha-publica/
Sitemap: https://tudominio.com/sitemap.xml

`User-agent`

Indica a qué bot te diriges.

User-agent: *

El asterisco significa “todos los bots”.

`Disallow`

Marca rutas que no quieres que se rastreen.

Disallow: /checkout/

`Allow`

Se usa para permitir una subruta concreta dentro de una ruta bloqueada.

Allow: /imagenes-publicas/

`Sitemap`

Sirve para indicar dónde está tu sitemap XML.

Sitemap: https://tudominio.com/sitemap.xml

Ejemplos típicos

Robots correcto para una web simple

User-agent: *
Disallow: /admin/
Disallow: /carrito/
Disallow: /checkout/
Sitemap: https://tudominio.com/sitemap.xml

Error grave de staging llevado a producción

User-agent: *
Disallow: /

Eso bloquea todo el sitio para rastreo. Es uno de los errores más costosos y más absurdamente frecuentes.

Errores comunes que deberías revisar

1. Bloquear toda la web sin querer

Pasa mucho en lanzamientos rápidos o migraciones.

2. Bloquear carpetas importantes

Por ejemplo:

/blog/
/servicios/
/productos/

Si justo ahí está el contenido que quieres posicionar, ya sabes por qué Google no lo procesa como toca.

3. Confiar en `robots.txt` para ocultar contenido

No sirve para eso. Si algo es sensible, no debe quedar accesible y esperar que el bot “se porte bien”.

4. No referenciar el sitemap

No es obligatorio, pero sí recomendable. Facilita descubrimiento y orden.

5. Mezclarlo con `noindex`

Si quieres evitar indexación, normalmente no basta con bloquear rastreo. Hay que pensar mejor la combinación con meta robots y estado real de la URL.

Qué pasa con bots de IA como GPTBot o ClaudeBot

Cada vez es más frecuente ver reglas específicas para bots de IA o de scraping.

Ejemplo:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

Eso no afecta directamente al SEO de Google, pero conviene entender que el robots.txt moderno ya no solo habla de buscadores. También habla de modelos, scrapers y agentes automatizados.

Cuándo tiene sentido bloquear algo

No bloquees por reflejo. Bloquea cuando tienes una razón clara.

Ejemplos razonables:

áreas privadas,
checkout,
paneles internos,
parámetros inútiles,
o zonas que solo generan ruido de rastreo.

No bloquearía:

contenido que quieres posicionar,
secciones transaccionales importantes,
ni partes de la web solo por “limpiar”.

Casos donde un `robots.txt` limpio ayuda mucho

Tiendas online

Porque suelen generar URLs con filtros, parámetros y zonas que no te interesa que consuman rastreo.

Webs corporativas con áreas internas

Para mantener fuera del rastreo paneles, áreas privadas o recursos poco útiles.

Proyectos en migración

Porque es justo el momento donde más fácil es arrastrar reglas de staging o configuraciones antiguas sin darte cuenta.

Cómo validarlo sin miedo

La forma más simple es:

abrir tudominio.com/robots.txt,
revisar si hay bloqueos demasiado amplios,
comprobar si aparecen rutas estratégicas afectadas,
y luego cruzarlo con Search Console y una revisión técnica.

El website audit y el SEO Checker ayudan a detectar señales básicas de bloqueo o incoherencia sin tener que fiarte solo del ojo.

Qué comprobar después de tocarlo

Si haces cambios, revisa:

que la URL cargue correctamente,
que las rutas importantes sigan accesibles,
que Search Console no muestre anomalías nuevas,
y que no hayas bloqueado más de lo previsto.

Diferencia entre `robots.txt` y meta robots

Conviene dejarlo cristalino:

robots.txt = orienta rastreo
meta robots noindex = orienta indexación

No son intercambiables.

Si los confundes, acabas bloqueando donde querías noindexar o viceversa.

Cómo se relaciona con el sitemap

Un robots.txt bien montado y un sitemap limpio suelen trabajar juntos.

Lo normal es:

bloquear lo que no aporta valor de rastreo,
y facilitar descubrimiento de URLs importantes vía sitemap.

Si quieres entender mejor esa parte, enlaza esto con el artículo de sitemap XML y errores típicos o directamente revísalo con el analizador gratuito.

Un ejemplo práctico de error realista

Imagina una web que lanza una nueva sección comercial en /servicios/ y sigue arrastrando este bloque:

User-agent: *
Disallow: /servicios/

La web puede estar técnicamente “publicada”, pero Google no rastrea justo la carpeta que más te interesa posicionar.

Ese tipo de error explica muchas situaciones de “mi web no aparece en Google” mejor que cualquier teoría rara.

Señales de que el problema está aquí

Google no rastrea secciones que deberían aparecer.
Hay URLs importantes fuera del índice sin motivo claro.
El sitio se lanzó hace poco y arrastra configuración de staging.
Search Console muestra comportamientos incoherentes de cobertura.

Qué no haría nunca con `robots.txt`

no lo usaría como sistema de seguridad,
no bloquearía a ciegas carpetas enteras sin revisar qué contienen,
no copiaría reglas de otra web sin entenderlas,
y no lo tocaría en producción sin una validación mínima después.

Checklist rápida antes de tocarlo

Antes de editar el archivo, yo me haría estas preguntas:

¿Qué rutas quiero posicionar sí o sí?
¿Qué rutas solo generan ruido?
¿Hay una configuración antigua de staging o preproducción?
¿Está el sitemap bien referenciado?
¿Tengo claro qué diferencia hay entre bloquear rastreo y bloquear indexación?

Con esa checklist ya reduces muchos errores absurdos.

Resumen

robots.txt es un archivo de rastreo, no una barrera de seguridad.
El error más grave y más común es bloquear demasiado.
No debes confundirlo con noindex.
También puede incluir reglas para bots de IA y referencia al sitemap.
Si no estás seguro, valida antes de tocarlo en producción.

Preguntas frecuentes

¿Bloquear en `robots.txt` elimina una página de Google?

No necesariamente. Puede impedir el rastreo, pero no garantiza la desindexación si Google ya conoce la URL.

¿Dónde está el archivo?

En la raíz del dominio, normalmente en https://tudominio.com/robots.txt.

¿Hace falta tener uno siempre?

No es obligatorio en webs muy simples, pero suele ser recomendable tener uno limpio y controlado.

¿Puedo bloquear bots de IA sin afectar a Google?

Sí, si defines reglas específicas para esos user-agents y no tocas la parte de Googlebot o *.

¿Qué hago si no sé si está bien?

Revísalo con Search Console, comprueba cobertura y pasa la web por el website audit.

Sigue leyendo

Diagnóstico

Qué es robots.txt y cómo leerlo para SEO

Qué es robots.txt y cómo leerlo para SEO

Qué es exactamente robots.txt

Lo primero que debes entender: rastreo no es indexación

Sintaxis básica de robots.txt

User-agent

Disallow

Allow

Sitemap

Ejemplos típicos

Robots correcto para una web simple

Error grave de staging llevado a producción

Errores comunes que deberías revisar

1. Bloquear toda la web sin querer

2. Bloquear carpetas importantes

3. Confiar en robots.txt para ocultar contenido

4. No referenciar el sitemap

5. Mezclarlo con noindex

Qué pasa con bots de IA como GPTBot o ClaudeBot

Cuándo tiene sentido bloquear algo

Casos donde un robots.txt limpio ayuda mucho

Tiendas online

Webs corporativas con áreas internas

Proyectos en migración

Cómo validarlo sin miedo

Qué comprobar después de tocarlo

Diferencia entre robots.txt y meta robots

Cómo se relaciona con el sitemap

Un ejemplo práctico de error realista

Señales de que el problema está aquí

Qué no haría nunca con robots.txt

Checklist rápida antes de tocarlo

Resumen

Preguntas frecuentes

¿Bloquear en robots.txt elimina una página de Google?

¿Dónde está el archivo?

¿Hace falta tener uno siempre?

¿Puedo bloquear bots de IA sin afectar a Google?

¿Qué hago si no sé si está bien?

Sigue leyendo

Por qué mi web no aparece en Google: 12 razones

Sitemap XML: cuándo crearlo y errores típicos

Cómo hacer una auditoría SEO completa

Qué es exactamente `robots.txt`

Sintaxis básica de `robots.txt`

`User-agent`

`Disallow`

`Allow`

`Sitemap`

3. Confiar en `robots.txt` para ocultar contenido

5. Mezclarlo con `noindex`

Casos donde un `robots.txt` limpio ayuda mucho

Diferencia entre `robots.txt` y meta robots

Qué no haría nunca con `robots.txt`

¿Bloquear en `robots.txt` elimina una página de Google?