Em desenvolvimento

Gerador Robots.txt |

Anúncio

Diretrizes gerais

Configure o comportamento padrão para todos os rastreadores antes de adicionar as configurações personalizadas.

Defina uma regra global de permissão ou bloqueio para User-agent: *.

Limite a velocidade dos crawlers se o seu servidor precisar de espaço para operar.

Diretiva de host opcional para domínios espelhados.

Um caminho por linha. Suporta caracteres curinga e barras invertidas no final.

Garanta que pastas específicas permaneçam rastreáveis ​​mesmo quando caminhos mais amplos estiverem bloqueados.

Forneça um URL de sitemap por linha. Adicione índices de sitemap adicionais, se os tiver.

Rastejadores comuns

Desative ou bloqueie completamente os rastreadores que deseja bloquear. Deixe-os permitidos para que continuem dependendo da regra padrão acima.

Regras personalizadas

Adicione agentes de usuário com diretivas personalizadas de permissão ou bloqueio, atrasos de rastreamento e dicas de sitemap.

Copie o arquivo gerado acima e faça o upload dele para a raiz do seu domínio como robots.txt.

Gere arquivos robots.txt para controlar o comportamento de rastreamento do mecanismo de pesquisa.
Table of Contents

Robots.txt é um pequeno arquivo de texto que orienta os robôs de pesquisa em seu site.

Use o robots.txt para bloquear áreas como páginas de administração, pastas de teste, URLs de teste, páginas de filtro e caminhos duplicados.

Robots.txt faz parte do padrão de exclusão de robôs.

seudominio.com/robots.txt

Os mecanismos de pesquisa geralmente verificam esse arquivo com antecedência porque ele fornece instruções claras de rastreamento.

Um ponto importante:

  • Robots.txt controla o rastreamento
  • Não garante a indexação

Se quiser confirmar se uma página pode aparecer nos resultados da pesquisa, use uma verificação de indexabilidade.

Os mecanismos de pesquisa não rastreiam todas as páginas todos os dias.

Se o seu site for lento ou retornar erros, os rastreadores poderão visitar menos páginas por execução.

Para obter melhores resultados, use robots.txt com um mapa do site:

  • Robots.txt orienta os bots sobre o que rastrear ou ignorar
  • O Sitemap lista as páginas que você deseja rastrear e indexar

Um arquivo robots.txt usa algumas diretivas simples.

  • User-agent
  • Define a qual bot a regra se aplica
  • Não permitir
  • Bloqueia o rastreamento de uma pasta ou caminho
  • Permitir
  • Abre um caminho específico dentro de uma pasta bloqueada
  • Atraso no rastreamento
  • Solicita rastreamento mais lento para alguns bots (nem todos os bots o seguem)

Um pequeno erro pode bloquear páginas importantes, incluindo categorias principais ou páginas de destino principais.

O WordPress pode criar muitos URLs que não ajudam o SEO, como páginas de pesquisa interna, algumas páginas de arquivo e URLs baseados em parâmetros.

Mesmo em sites menores, um arquivo robots.txt limpo é uma configuração inteligente.

Um mapa do site ajuda os mecanismos de pesquisa a descobrir as páginas que você deseja rastrear.

  • Sitemap melhora a descoberta
  • Robots.txt controla o acesso de rastreamento

A maioria dos sites se beneficia do uso de ambos.

Robots.txt é simples, mas não perdoa.

Definir acesso padrão

Escolha se todos os bots podem rastrear seu site por padrão.

Adicione o URL do seu sitemap

Inclua o mapa do site para que os rastreadores possam encontrar suas páginas importantes com mais rapidez.

Adicione caminhos não permitidos com cuidado

Bloqueie apenas o que você realmente não deseja que seja rastreado.

/admin/ ou /search/

Revisar antes de publicar

Verifique novamente se você não bloqueou sua página inicial, blog, páginas de categoria ou páginas principais de serviços.

Robots.txt é uma parte do SEO técnico.