En desarrollo

Generador de robots.txt |

Anuncio

Directivas generales

Configure el comportamiento predeterminado para todos los rastreadores antes de anular las capas.

Establecer una regla global de permiso o bloqueo para el agente de usuario: *.

Limite el rendimiento de los rastreadores si su servidor necesita espacio para respirar.

Directiva de host opcional para dominios reflejados.

Una ruta por línea. Admite comodines y barras diagonales finales.

Asegúrese de que carpetas específicas permanezcan rastreables incluso cuando se bloqueen rutas más amplias.

Proporcione una URL de mapa del sitio por línea. Añada índices de mapa del sitio adicionales si los tiene.

Rastreadores comunes

Activa o desactiva los rastreadores que quieres bloquear por completo. Permite que se basen en la regla predeterminada anterior.

Reglas personalizadas

Agregue agentes de usuario con directivas de permiso o bloqueo personalizadas, retrasos de rastreo y sugerencias de mapas del sitio.

Copie el archivo generado arriba y cárguelo en la raíz de su dominio como robots.txt.

Genere archivos robots.txt para controlar el comportamiento de rastreo de los motores de búsqueda.
Anuncio

Tabla de contenido

Robots.txt es un pequeño archivo de texto que guía a los bots de búsqueda en tu sitio. Indica a los rastreadores a qué zonas pueden acceder y qué caminos deben evitar. Esto mantiene el rastreo centrado en páginas que importan y reduce las visitas desperdiciadas en URLs de bajo valor.

Usa robots.txt para bloquear áreas como páginas de administración, carpetas de staging, URLs de prueba, páginas de filtro y rutas duplicadas. Cuando tus normas son claras, los motores de búsqueda dedican más tiempo a tus páginas importantes. Eso puede ayudar a que el contenido nuevo se descubra más rápido y siga siendo limpio y predecible.

Robots.txt forma parte del estándar de exclusión de robots. Lo colocas en:

yourdomain.com/robots.txt

Los motores de búsqueda suelen revisar este archivo con antelación porque les da instrucciones claras para rastrear. Si tu sitio es pequeño, puede que aún se indexe sin un archivo robots.txt. Pero en sitios grandes, la falta de orientación puede llevar a un rastreo desperdiciado y a un descubrimiento más lento de páginas clave.

Un punto importante:

  • Robots.txt controla el arrastre
  • No garantiza la indexación

Si quieres confirmar que una página puede aparecer en los resultados de búsqueda, utiliza una comprobación de indexabilidad. Eso te ayuda a detectar señales como noindex, recursos bloqueados u otros problemas que robots.txt no cubre.

Los motores de búsqueda no rastrean todas las páginas todos los días. Rastrean en función de límites y señales como la velocidad del sitio, la salud del servidor y la frecuencia con la que cambia tu contenido.

Si tu sitio es lento o devuelve errores, los rastreadores pueden visitar menos páginas por partida. Eso puede retrasar la indexación de nuevas publicaciones y páginas actualizadas. Robots.txt ayuda a reducir los rastreos desperdiciados, así que los bots dedican más tiempo a las páginas en las que realmente quieres que se concentren.

Para obtener mejores resultados, utiliza robots.txt con un mapa del sitio:

  • Robots.txt guía a los bots sobre qué rastrear o saltarse
  • Sitemap lista las páginas que quieres rastrear e indexar

Un archivo robots.txt utiliza unas pocas directivas sencillas. Son fáciles de leer, pero debes escribirlos con cuidado.

  • User-agent
  • Establece a qué bot se aplica la regla
  • Prohibido
  • Bloques que se arrastran para una carpeta o ruta
  • Conceder
  • Abre una ruta específica dentro de una carpeta bloqueada
  • Retardo de arrastre
  • Solicitudes más lentas para algunos bots (no todos los bots lo siguen)

Un pequeño error puede bloquear páginas importantes, incluyendo categorías clave o páginas principales de destino. Por eso usar un generador es más seguro que escribir todo manualmente.

WordPress puede crear muchas URLs que no ayudan al SEO, como páginas de búsqueda internas, algunas páginas de archivo y URLs basadas en parámetros. Bloquear áreas de bajo valor ayuda a los rastreadores a pasar más tiempo en tus páginas principales, entradas de blog y páginas de productos o servicios.

Incluso en sitios pequeños, un archivo de robots.txt limpio es una configuración inteligente. Esto mantiene tus reglas de rastreo organizadas a medida que el sitio crece.

Un mapa del sitio ayuda a los motores de búsqueda a descubrir las páginas que quieres rastrear. Robots.txt controla a dónde pueden ir los bots.

  • Mapa del sitio mejora el descubrimiento
  • Robots.txt controla el acceso rastreado

La mayoría de los sitios web se benefician de usar ambos.

Robots.txt es sencillo, pero no es indulgente. Una regla incorrecta puede bloquear páginas clave. Este generador te ayuda a construir el archivo de forma segura.

Establecer acceso predeterminado

Elige si todos los bots pueden rastrear tu sitio por defecto.

Añadir la URL de tu mapa del sitio

Incluye tu mapa del sitio para que los rastreadores puedan encontrar tus páginas importantes más rápido.

Añade cuidadosamente los caminos no autorizados

Bloquea solo lo que realmente no quieres que se arrastre. Siempre empieza con una barra hacia adelante, como:

/admin/ o /search/

Revisión antes de publicar

Verifica dos veces que no has bloqueado tu página principal, blog, páginas de categoría o páginas principales de servicio.

Robots.txt es una parte del SEO técnico. Estas herramientas apoyan el mismo objetivo y te ayudan a confirmar que todo funciona correctamente:

Documentación de la API disponible próximamente

Documentation for this tool is being prepared. Please check back later or visit our full API documentation.