Nasa pag-unlad

Robots.txt Generator |

Anunsyo

Mga pangkalahatang direktiba

I-configure ang default na gawi para sa lahat ng crawler bago ang mga layering override.

Magtakda ng pandaigdigang tuntunin sa pagpapahintulot o pagharang para sa User-agent: *.

Mga throttle crawler kung kailangan ng server mo ng espasyo para makahinga.

Opsyonal na direktiba ng host para sa mga naka-mirror na domain.

Isang landas bawat linya. Sinusuportahan ang mga wildcard at mga trailing slash.

Tiyaking mananatiling maaaring i-crawl ang mga partikular na folder kahit na may mga naka-block na mas malalawak na path.

Magbigay ng isang sitemap URL bawat linya. Magdagdag ng karagdagang mga sitemap index kung mayroon ka.

Mga karaniwang crawler

I-toggle ang mga crawler na gusto mong ganap na harangan. Hayaan silang umasa sa default na panuntunan sa itaas.

Mga pasadyang patakaran

Magdagdag ng mga user-agent na may mga pinasadyang direktiba sa pagpapahintulot o pag-block, mga pagkaantala sa pag-crawl, at mga pahiwatig sa sitemap.

Kopyahin ang nabuong file sa itaas at i-upload ito sa root ng iyong domain bilang robots.txt.

Bumuo ng mga robots.txt na file upang kontrolin ang gawi sa pag-crawl ng search engine.
Table of Contents

Ang Robots.txt ay isang maliit na text file na gumagabay sa mga search bot sa iyong site.

Gumamit ng robots.txt para i-block ang mga lugar tulad ng mga admin page, staging folder, test URL, filter page, at duplicate na path.

Ang Robots.txt ay bahagi ng pamantayan sa pagbubukod ng mga robot.

yourdomain.com/robots.txt

Madalas na sinusuri ng mga search engine ang file na ito nang maaga dahil nagbibigay ito sa kanila ng malinaw na mga direksyon sa pag-crawl.

Isang mahalagang punto:

  • Kinokontrol ng Robots.txt ang pag-crawl
  • Hindi nito ginagarantiyahan ang pag-index

Kung gusto mong kumpirmahin na maaaring lumabas ang isang page sa mga resulta ng paghahanap, gumamit ng indexability check.

Ang mga search engine ay hindi gumagapang sa bawat pahina araw-araw.

Kung ang iyong site ay mabagal o nagbabalik ng mga error, maaaring bumisita ang mga crawler ng mas kaunting pahina sa bawat pagtakbo.

Para sa pinakamahusay na mga resulta, gumamit ng robots.txt na may sitemap:

  • Ginagabayan ng Robots.txt ang mga bot kung ano ang dapat i-crawl o lalaktawan
  • Mga listahan ng Sitemap ang mga page na gusto mong i-crawl at i-index

Gumagamit ang isang robots.txt file ng ilang simpleng direktiba.

  • User-agent
  • Itinatakda kung saang bot nalalapat ang panuntunan
  • Huwag Payagan
  • Bina-block ang pag-crawl para sa isang folder o path
  • Payagan
  • Nagbubukas ng partikular na landas sa loob ng naka-block na folder
  • Pag-crawl-delay
  • Humihiling ng mas mabagal na pag-crawl para sa ilang bot (hindi lahat ng bot ay sumusunod dito)

Maaaring harangan ng isang maliit na pagkakamali ang mahahalagang page, kabilang ang mga pangunahing kategorya o mga pangunahing landing page.

Maaaring lumikha ang WordPress ng maraming URL na hindi nakakatulong sa SEO, tulad ng mga panloob na pahina ng paghahanap, ilang pahina ng archive, at mga URL na nakabatay sa parameter.

Kahit na sa mas maliliit na site, ang malinis na robots.txt file ay isang matalinong pag-setup.

Tinutulungan ng sitemap ang mga search engine na matuklasan ang mga page na gusto mong i-crawl.

  • Pinapabuti ng Sitemap ang pagtuklas
  • Kinokontrol ng Robots.txt ang access sa pag-crawl

Karamihan sa mga website ay nakikinabang sa paggamit ng pareho.

Ang Robots.txt ay simple, ngunit hindi ito mapagpatawad.

Itakda ang default na access

Piliin kung mako-crawl ng lahat ng bot ang iyong site bilang default.

Idagdag ang URL ng iyong sitemap

Isama ang iyong sitemap upang mas mabilis na mahanap ng mga crawler ang iyong mahahalagang page.

Maingat na magdagdag ng mga hindi pinapayagang landas

I-block lang ang talagang ayaw mong ma-crawl.

/admin/ o /search/

Suriin bago i-publish

I-double check na hindi mo na-block ang iyong homepage, blog, mga pahina ng kategorya, o mga pangunahing pahina ng serbisyo.

Ang Robots.txt ay isang bahagi ng teknikal na SEO.

  • Sitemap Checker: Kinukumpirma na ang iyong sitemap ay wasto at madaling basahin ng mga bot.
  • Google Index Checker: Bine-verify kung maaaring ma-index ang isang page at mag-flag ng mga karaniwang blocker tulad ng noindex.
  • Suriin ang HTTP Status Code: Nakahanap ng 200, 301, 404, at mga error sa server na maaaring makapagpabagal sa pag-crawl.
  • Libreng Redirect Checker: Kinukumpirma na ang mga pag-redirect ay malinis at hindi nakakabit sa mga chain o loop.
  • Pagsusuri ng Meta Tag: Mga review ng mga pamagat, paglalarawan, at mga meta tag ng robot para sa mga pagkakamali sa SEO.