In fase di sviluppo

Generatore Robots.txt |

Annuncio

Direttive generali

Configurare il comportamento predefinito per tutti i crawler prima che la sovrapposizione dei livelli venga ignorata.

Imposta una regola globale di autorizzazione o blocco per User-agent: *.

Limita i crawler se il tuo server ha bisogno di spazio.

Direttiva host facoltativa per domini mirror.

Un percorso per riga. Supporta caratteri jolly e barre finali.

Assicurare che cartelle specifiche rimangano esplorabili anche quando percorsi più ampi sono bloccati.

Fornisci un URL della mappa del sito per riga. Aggiungi altri indici della mappa del sito, se disponibili.

Cingolati comuni

Seleziona i crawler che vuoi bloccare completamente. Lascia che si basino sulla regola predefinita sopra indicata.

Regole personalizzate

Aggiungi user-agent con direttive personalizzate di autorizzazione o blocco, ritardi di scansione e suggerimenti sulla mappa del sito.

Copia il file generato sopra e caricalo nella radice del tuo dominio come robots.txt.

Genera file robots.txt per controllare il comportamento di scansione dei motori di ricerca.
Annuncio

Indice dei contenuti

Robots.txt è un piccolo file di testo che guida i bot di ricerca sul tuo sito. Indica ai crawler quali aree possono accedere e quali percorsi devono evitare. Questo mantiene il crawling focalizzato sulle pagine che contano e riduce le visite sprecate su URL di basso valore.

Usa robots.txt per bloccare aree come pagine amministrative, cartelle di staging, URL di test, pagine di filtro e percorsi duplicati. Quando le tue regole sono chiare, i motori di ricerca dedicano più tempo alle tue pagine importanti. Questo può aiutare i nuovi contenuti a essere scoperti più velocemente e a mantenere la pulizia e la prevedibilità di un po' più rapidi.

Robots.txt fa parte dello standard di esclusione per i robot. Lo colloci a:

yourdomain.com/robots.txt

I motori di ricerca spesso controllano questo file in anticipo perché fornisce istruzioni chiare per il crawling. Se il tuo sito è piccolo, potrebbe comunque essere indicizzato senza un file robots.txt. Ma sui siti più grandi, la mancanza di indicazioni può portare a una scansione inutile e a una scoperta più lenta delle pagine chiave.

Un punto importante:

  • Robots.txt controlla il crawling
  • Non garantisce l'indicizzazione

Se vuoi confermare che una pagina possa apparire nei risultati di ricerca, usa un controllo di indicizzabilità. Questo ti aiuta a individuare segnali come noindex, risorse bloccate o altri problemi che robots.txt non copre.

I motori di ricerca non scansionano ogni pagina ogni giorno. Scansionano in base a limiti e segnali come la velocità del sito, la salute del server e la frequenza con cui cambiano i contenuti.

Se il tuo sito è lento o restituisce errori, i crawler potrebbero visitare meno pagine per ogni run. Questo può ritardare l'indicizzazione di nuovi post e pagine aggiornate. Robots.txt aiuta riducendo i crawl sprecati, così i bot passano più tempo sulle pagine su cui vuoi davvero che si concentrino.

Per ottenere i migliori risultati, usa robots.txt con una mappa del sito:

  • Robots.txt guida i bot su cosa scansionare o saltare
  • Sitemap elenca le pagine che vuoi scansionare e indicizzare

Un file robots.txt utilizza alcune semplici direttive. Sono facili da leggere, ma devi scriverli con attenzione.

  • User-agent
  • Imposta a quale bot si applica la regola
  • Vietato
  • Blocchi che cercano una cartella o un percorso
  • Permette
  • Apre un percorso specifico all'interno di una cartella bloccata
  • Ritardo di crawl
  • Richieste di crawling più lento per alcuni bot (non tutti i bot lo seguono)

Un piccolo errore può bloccare pagine importanti, incluse categorie chiave o landing page principali. Ecco perché usare un generatore è più sicuro che scrivere tutto manualmente.

WordPress può creare molti URL che non aiutano la SEO, come le pagine di ricerca interne, alcune pagine di archivio e URL basati su parametri. Bloccare aree di basso valore aiuta i crawler a dedicare più tempo alle tue pagine principali, ai post del blog e alle pagine di prodotti o servizi.

Anche sui siti più piccoli, un file robots.txt pulito è una soluzione intelligente. Mantiene organizzate le regole di crawl man mano che il sito cresce.

Una sitemap aiuta i motori di ricerca a scoprire le pagine che vuoi scansionare. Robots.txt controlla dove possono andare i bot.

  • Sitemap migliora la scoperta
  • Robots.txt controlla l'accesso a crawling

La maggior parte dei siti web beneficia dell'utilizzo di entrambi.

Robots.txt è semplice, ma non è indulgente. Una regola sbagliata può bloccare le pagine chiave. Questo generatore ti aiuta a costruire il file in sicurezza.

Imposta l'accesso predefinito

Scegli se tutti i bot possono scansionare il tuo sito di default.

Aggiungi l'URL della tua sitemap

Includi la mappa del sito così che i crawler possano trovare più velocemente le pagine importanti.

Aggiungi con attenzione i percorsi non consentiti

Blocca solo ciò che davvero non vuoi che venga striscito. Inizia sempre con una fenda in avanti, come:

/admin/ o /cerca/

Revisione prima di pubblicare

Controlla di non aver bloccato la tua homepage, il blog, le pagine delle categorie o le pagine principali del servizio.

Robots.txt è una parte della SEO tecnica. Questi strumenti supportano lo stesso obiettivo e ti aiutano a verificare che tutto funzioni correttamente:

Documentazione API in arrivo

Documentation for this tool is being prepared. Please check back later or visit our full API documentation.