Qué es robots.txt y cómo leerlo para SEO
El archivo robots.txt es pequeño, pero cuando está mal configurado puede liarte una buena. No porque “destruya” el SEO por sí solo, sino porque puede impedir que Google rastree justo lo que te interesa.
La parte buena es que entenderlo no requiere ser desarrollador. Requiere saber qué instrucciones existen, qué significan y, sobre todo, qué errores se repiten más.
Qué es exactamente robots.txt
Es un archivo de texto que se coloca en la raíz del dominio y da instrucciones de rastreo a los bots.
Ejemplo:
https://tudominio.com/robots.txt
Su función principal es decir:
- qué partes de la web pueden rastrearse,
- qué partes no,
- y dónde está el sitemap.
No es un sistema de seguridad. No protege contenido sensible. Solo orienta a los crawlers que deciden respetarlo.
Lo primero que debes entender: rastreo no es indexación
Aquí está la confusión más habitual.
robots.txt afecta sobre todo al rastreo. Es decir, a si Googlebot puede entrar o no a ciertas rutas. Pero eso no significa automáticamente que una URL no pueda aparecer en el índice si Google la conoce por otros medios.
Por eso conviene no mezclarlo con:
- meta robots
noindex, - canonicals,
- o exclusiones de sitemap.
Cada cosa resuelve un problema distinto.
Sintaxis básica de robots.txt
Las instrucciones más comunes son estas:
User-agent: *
Disallow: /privado/
Allow: /privado/ficha-publica/
Sitemap: https://tudominio.com/sitemap.xml
User-agent
Indica a qué bot te diriges.
User-agent: *
El asterisco significa “todos los bots”.
Disallow
Marca rutas que no quieres que se rastreen.
Disallow: /checkout/
Allow
Se usa para permitir una subruta concreta dentro de una ruta bloqueada.
Allow: /imagenes-publicas/
Sitemap
Sirve para indicar dónde está tu sitemap XML.
Sitemap: https://tudominio.com/sitemap.xml
Ejemplos típicos
Robots correcto para una web simple
User-agent: *
Disallow: /admin/
Disallow: /carrito/
Disallow: /checkout/
Sitemap: https://tudominio.com/sitemap.xml
Error grave de staging llevado a producción
User-agent: *
Disallow: /
Eso bloquea todo el sitio para rastreo. Es uno de los errores más costosos y más absurdamente frecuentes.
Errores comunes que deberías revisar
1. Bloquear toda la web sin querer
Pasa mucho en lanzamientos rápidos o migraciones.
2. Bloquear carpetas importantes
Por ejemplo:
/blog//servicios//productos/
Si justo ahí está el contenido que quieres posicionar, ya sabes por qué Google no lo procesa como toca.
3. Confiar en robots.txt para ocultar contenido
No sirve para eso. Si algo es sensible, no debe quedar accesible y esperar que el bot “se porte bien”.
4. No referenciar el sitemap
No es obligatorio, pero sí recomendable. Facilita descubrimiento y orden.
5. Mezclarlo con noindex
Si quieres evitar indexación, normalmente no basta con bloquear rastreo. Hay que pensar mejor la combinación con meta robots y estado real de la URL.
Qué pasa con bots de IA como GPTBot o ClaudeBot
Cada vez es más frecuente ver reglas específicas para bots de IA o de scraping.
Ejemplo:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
Eso no afecta directamente al SEO de Google, pero conviene entender que el robots.txt moderno ya no solo habla de buscadores. También habla de modelos, scrapers y agentes automatizados.
Cuándo tiene sentido bloquear algo
No bloquees por reflejo. Bloquea cuando tienes una razón clara.
Ejemplos razonables:
- áreas privadas,
- checkout,
- paneles internos,
- parámetros inútiles,
- o zonas que solo generan ruido de rastreo.
No bloquearía:
- contenido que quieres posicionar,
- secciones transaccionales importantes,
- ni partes de la web solo por “limpiar”.
Casos donde un robots.txt limpio ayuda mucho
Tiendas online
Porque suelen generar URLs con filtros, parámetros y zonas que no te interesa que consuman rastreo.
Webs corporativas con áreas internas
Para mantener fuera del rastreo paneles, áreas privadas o recursos poco útiles.
Proyectos en migración
Porque es justo el momento donde más fácil es arrastrar reglas de staging o configuraciones antiguas sin darte cuenta.
Cómo validarlo sin miedo
La forma más simple es:
- abrir
tudominio.com/robots.txt, - revisar si hay bloqueos demasiado amplios,
- comprobar si aparecen rutas estratégicas afectadas,
- y luego cruzarlo con Search Console y una revisión técnica.
El website audit y el SEO Checker ayudan a detectar señales básicas de bloqueo o incoherencia sin tener que fiarte solo del ojo.
Qué comprobar después de tocarlo
Si haces cambios, revisa:
- que la URL cargue correctamente,
- que las rutas importantes sigan accesibles,
- que Search Console no muestre anomalías nuevas,
- y que no hayas bloqueado más de lo previsto.
Diferencia entre robots.txt y meta robots
Conviene dejarlo cristalino:
robots.txt= orienta rastreometa robots noindex= orienta indexación
No son intercambiables.
Si los confundes, acabas bloqueando donde querías noindexar o viceversa.
Cómo se relaciona con el sitemap
Un robots.txt bien montado y un sitemap limpio suelen trabajar juntos.
Lo normal es:
- bloquear lo que no aporta valor de rastreo,
- y facilitar descubrimiento de URLs importantes vía sitemap.
Si quieres entender mejor esa parte, enlaza esto con el artículo de sitemap XML y errores típicos o directamente revísalo con el analizador gratuito.
Un ejemplo práctico de error realista
Imagina una web que lanza una nueva sección comercial en /servicios/ y sigue arrastrando este bloque:
User-agent: *
Disallow: /servicios/
La web puede estar técnicamente “publicada”, pero Google no rastrea justo la carpeta que más te interesa posicionar.
Ese tipo de error explica muchas situaciones de “mi web no aparece en Google” mejor que cualquier teoría rara.
Señales de que el problema está aquí
- Google no rastrea secciones que deberían aparecer.
- Hay URLs importantes fuera del índice sin motivo claro.
- El sitio se lanzó hace poco y arrastra configuración de staging.
- Search Console muestra comportamientos incoherentes de cobertura.
Qué no haría nunca con robots.txt
- no lo usaría como sistema de seguridad,
- no bloquearía a ciegas carpetas enteras sin revisar qué contienen,
- no copiaría reglas de otra web sin entenderlas,
- y no lo tocaría en producción sin una validación mínima después.
Checklist rápida antes de tocarlo
Antes de editar el archivo, yo me haría estas preguntas:
- ¿Qué rutas quiero posicionar sí o sí?
- ¿Qué rutas solo generan ruido?
- ¿Hay una configuración antigua de staging o preproducción?
- ¿Está el sitemap bien referenciado?
- ¿Tengo claro qué diferencia hay entre bloquear rastreo y bloquear indexación?
Con esa checklist ya reduces muchos errores absurdos.
Resumen
robots.txtes un archivo de rastreo, no una barrera de seguridad.- El error más grave y más común es bloquear demasiado.
- No debes confundirlo con
noindex. - También puede incluir reglas para bots de IA y referencia al sitemap.
- Si no estás seguro, valida antes de tocarlo en producción.
Preguntas frecuentes
¿Bloquear en robots.txt elimina una página de Google?
No necesariamente. Puede impedir el rastreo, pero no garantiza la desindexación si Google ya conoce la URL.
¿Dónde está el archivo?
En la raíz del dominio, normalmente en https://tudominio.com/robots.txt.
¿Hace falta tener uno siempre?
No es obligatorio en webs muy simples, pero suele ser recomendable tener uno limpio y controlado.
¿Puedo bloquear bots de IA sin afectar a Google?
Sí, si defines reglas específicas para esos user-agents y no tocas la parte de Googlebot o *.
¿Qué hago si no sé si está bien?
Revísalo con Search Console, comprueba cobertura y pasa la web por el website audit.