Guía de Robots.txt: Cómo Optimizar el Rastreo de tu Web

Volver a Guías Guía de Robots.txt

Respuesta Rápida (AEO)

El robots.txt es un archivo que controla qué rastrean los buscadores. Para optimizarlo, ubícalo en la raíz de tu dominio, bloquea carpetas privadas (como /admin) e incluye siempre el enlace a tu Sitemap XML para facilitar el descubrimiento de contenido.

¿Qué es el archivo Robots.txt?

Es un archivo de texto simple (.txt) que reside en la raíz de tu servidor. Su función es gestionar el presupuesto de rastreo (Crawl Budget), evitando que los bots pierdan tiempo en secciones irrelevantes o pesadas que no deben indexarse.

Directivas Avanzadas

Crawl-delay: (Obsoleto para Google, pero usado por Bing) Indica cuántos segundos esperar entre peticiones.
Noindex: Algunas versiones antiguas de bots respetaban `Noindex` en robots.txt, pero hoy en día NO se recomienda para este fin. Usa meta tags en el HTML.
Wildcards (* y $): Usa el asterisco para patrones y el símbolo de dólar para indicar el final de una URL.

Ejemplo Completo y Seguro

User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Disallow: /*?s= (Bloquea parámetros de búsqueda)
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.tuweb.com/sitemap.xml

Herramientas de Validación Externas

Antes de subir tu archivo, valídalo con estas herramientas profesionales:

Robots.txt Tester (GSC)

La herramienta oficial dentro de Google Search Console para probar si una URL específica está bloqueada.

Probar con Google

TechnicalSEO Validator

Un validador excelente que permite probar múltiples User-agents (Googlebot, Bingbot, etc) simultáneamente.

Validar syntax

Screaming Frog

Software de escritorio que permite simular el rastreo respetando o ignorando tu archivo robots.txt.

Descargar software

Preguntas Frecuentes sobre Robots.txt

¿Qué es el archivo robots.txt?

Es un archivo de texto simple (.txt) situado en la raíz del servidor que indica a los rastreadores de los motores de búsqueda qué partes del sitio pueden o no rastrear. No es una medida de seguridad, sino una guía de protocolo que los bots bien comportados respetan voluntariamente.

¿Para qué sirve el robots.txt?

Su función principal es gestionar el presupuesto de rastreo (Crawl Budget), evitando que los bots pierdan tiempo en secciones irrelevantes como paneles de administración, resultados de búsqueda interna o páginas de paginación sin valor SEO.

¿Dónde debe ubicarse el archivo robots.txt?

Debe estar siempre en la raíz de tu dominio (por ejemplo: tuweb.com/robots.txt). Si lo colocas en cualquier otra carpeta, los buscadores no lo encontrarán automáticamente y lo ignorarán por completo.

¿El robots.txt sirve para ocultar una página de Google?

No se recomienda para ese fin. El robots.txt evita el rastreo, pero no garantiza que la URL desaparezca del índice de Google. Para impedir la indexación, la solución correcta es usar la etiqueta <meta name="robots" content="noindex"> directamente en el HTML de la página.

¿Temes haber bloqueado toda tu web por error?

Un error en el robots.txt puede desindexar tu sitio en cuestión de horas. Verificamos tu configuración en tiempo real.

Solicitar Auditoría Gratuita

Guía de Robots.txt: Controla el Rastreo de tu Sitio Web