Googlebots: hoe het crawlen en indexeren van jouw website beheersen

GoogleBot

Weet jij hoe de crawler van Google, Googlebot, conflicterende richtlijnen behandelt in je robots.txt bestand? Weet jij hoe je voorkomt dat een PDF geïndexeerd wordt door Googlebot? Al de antwoorden op deze vragen en (veel) meer over het crawlen en indexeren van je site, vindt je nu terug op code.google.com.

Geautomatiseerde website crawlers zijn zeer krachtige tools om de content op het web te helpen crawlen en indexeren. Als webmaster zou je de crawlers graag naar bruikbare en goede content willen leiden en weg van irrelevante content. De methoden beschreven in de documenten op de code.google.com pagina zijn in feite de algemene webstandaarden om het crawlen en indexeren van web content te controleren. Ze bestaan uit het robots.txt bestand om crawlen te controleren alsook de robots meta tag en X-Robots-Tag http header element om het indexeren te controleren. De robots.txt standaard dateert eigenlijk al van voor Google en is de geaccepteerde methode voor het controleren van het crawlen van een website.

De richtlijnen die op code.google.com beschreven worden, worden algemeen ondersteund door alle grote web crawlers en zoekmachines, maar zijn misschien toch een beetje gericht op het feit dat de google crawlers de standaard zetten voor anderen.

Dankzij deze pagina hebben webmasters nu dus een alomvattende bron waar ze informatie kunnen opzoeken over

  • robots.txt files,
  • robots meta tags,
  • en X-Robots-tag HTTP header richtlijnen.

Neem dus zeker een kijkje en ontdek hoe jij het crawlen en indexeren van je eigen site kan controleren.

Op deze pagina’s wordt ook nog maar eens duidelijk gemaakt dat Google over verschillende soorten ‘spiders’ of ‘crawler’ beschikt. Een overzichtje:

  • Googlebot (web)
  • Googlebot News
  • Googlebot Images
  • Googlebot Video
  • Googlebot Mobile
  • Google Mobile AdSense
  • Google AdSense
  • Google AdsBot landing page quality check

Succes ermee!

Leave A Comment




    Leave a Reply

    Your email address will not be published. Required fields are marked *