Praat met crawlers via je XML sitemap

Home » Blog » SEO » Praat met crawlers via je XML sitemap

Als je een website hebt, zijn crawlers je beste vrienden. Crawlers zoals googlebot lezen je pagina’s, zodat je vindbaar bent. Om een goede vriendschap te onderhouden, is communicatie cruciaal. Dat communiceren doe je via een XML sitemap. Hier plaats je aanwijzingen die crawlers helpen om je pagina’s efficiënter en intelligenter te lezen. Als je de tips in dit artikel opvolgt, zorg je ervoor dat googlebot je luid en duidelijk verstaat.

Googlebot

Je beste vriend (bron: https://latestseoupdates.wordpress.com/)

Klik op de links hieronder om snel naar een van de tips in het artikel te gaan.

Wat is een sitemap?

Een sitemap is een overzicht van alle pagina’s op je website. Als je er een voor je bezoekers maakt, zal dat meestal een HTML-sitemap zijn. In dit artikel behandelen we een sitemap die je voor crawlers maakt. In veruit de meeste gevallen maak je die in XML formaat. Er zijn ook andere vormen mogelijk, zoals RSS. XML is overzichtelijker en meestal completer, dit formaat raden we daarom aan.

Dien een XML sitemap in als je een nieuwe site begint en houd hem bij

Googlebot bekijkt automatisch miljarden pagina’s per dag. In principe gaat dat helemaal vanzelf. Als je URL-structuur in orde is, komt de crawler uiteindelijk wel op je site terecht. Waarom dan toch een XML sitemap indienen?

Het kan even duren voor googlebot een nieuwe pagina vindt. Tot dat gebeurd is, is de site niet geïndexeerd en dus ook niet vindbaar via Google. Dat is verloren tijd, waarin je bezoekers misloopt. Door een XML sitemap in te dienen attendeer je Google erop dat je site bestaat. Dan zal hij eerder worden gecrawld en geïndexeerd.

Er is nog een tweede reden waarom het belangrijk is dat je site zo snel mogelijk wordt geïndexeerd. Helaas zijn er ‘content scrapers’ die automatisch je content kopiëren en op hun eigen site plaatsen. Sinds de Google Panda-update uit 2011 probeert Google dubbele content zo veel mogelijk te filteren. Het doel is om het origineel te laten zien en de copycats uit de zoekresultaten te weren.

Google panda

Hij houdt je in de gaten…

Als Google twee pagina’s met dezelfde content vindt, moet het bepalen welke het origineel is. Hoe het dit precies doet, is niet bekend. Het is wel bekend dat dit niet altijd goed gaat, de scrapers ranken soms hoger dan het origineel. Waarschijnlijk kijkt Google naar verschillende factoren, zoals de autoriteit van de sites en of er meer duplicate content op staat. Het zou goed kunnen dat de leeftijd van de websites hier ook een rol bij speelt. Als je geen XML sitemap hebt ingediend, kan het zomaar gebeuren dat een ‘content scraper’ je tekst steelt en eerder geïndexeerd wordt dan jij. Dan loop je dus waarschijnlijk meer risico dat je als de copycat gezien wordt en uit de zoekresultaten verdwijnt.

Om dezelfde reden is het belangrijk dat je je XML sitemap up-to-date houdt. Nieuwe pagina’s moeten ook weer geïndexeerd worden. Je XML sitemap updaten en weer indienen zorgt ervoor dat dit zo snel mogelijk gebeurt. In de paragraaf ‘laat je XML sitemap automatisch genereren’ leggen we uit hoe je dit kan automatiseren.

Gebruik de ‘last modified’-timestamp

In de XML sitemap kan je de prioriteit, veranderfrequentie en de datum waarop de pagina het laatst gewijzigd is aangeven. Deze tags hebben de volgende functies:

  • De ‘priority’ tag geeft aan welke pagina’s het belangrijkst zijn en dus het vaakst gecrawld moeten worden.
  • De ‘last modified’ timestamp geeft aan hoe vaak een pagina ongeveer wijzigt. Pagina’s die vaker wijzigen zouden vaker gecrawld moeten worden.
  • De ‘last changed’ tag geeft aan wanneer er voor het laatst een wijziging aan de pagina heeft plaatsgevonden. Een pagina die sinds die tijd niet meer gezien is door Google, zou eerder weer gecrawld moeten worden.

Hoewel er verschillen zijn, worden deze tags dus allemaal gebruikt om crawlers te vertellen of een pagina met prioriteit gecrawld moet worden. Nogal driedubbelop dus.

Gelukkig heeft Google ons verteld dat twee van deze tags geen rol van betekenis meer spelen. De informatie die webmasters in de ‘priority’- en ‘change frequency’-tags zetten, blijkt vaak niet te kloppen. Bij een pagina die al een jaar hetzelfde is, staat bijvoorbeeld dat hij wekelijks verandert. Daarom let Google vooral op de timestamp. Door in de database te checken of de pagina sindsdien gecrawld is, bepalen ze of het tijd is om deze weer te bekijken.

Voeg afbeeldingen toe aan je XML sitemap

Iedereen wil dat zijn website goed vindbaar is in de gewone Google-zoekresultaten. Google Images wordt echter vaak vergeten. Moz heeft onlangs opvallende data over de verdeling van het zoekverkeer gepubliceerd. Hieruit bleek dat 26.79% van alle zoekopdrachten in de VS in oktober 2016 in Google Images werd ingevoerd. Dit hoeft natuurlijk niet hetzelfde te zijn in Nederland, maar er valt te verwachten dat het hier ook ruim gebruikt wordt.

Verdeling zoekopdrachten

Verdeling van zoekopdrachten over tien zoekmachines (bron: moz.com)

Als je dus veel eigen afbeeldingen op je site hebt, is het de moeite waard hier zichtbaar te zijn. Informatieve diagrammen waarbij de naam van je site genoemd wordt, kunnen bijvoorbeeld tot meer bezoek leiden. Door ze toe te voegen aan de XML sitemap zorg je ervoor dat ze goed geïndexeerd worden.

Misschien wordt googlebot in de toekomst ooit zo slim dat hij ziet wat er op je afbeelding staat. Op dit moment is dat helaas nog niet het geval. Je moet dus informatie geven. Dat kan je ook doen in de XML sitemap. Door hier het onderwerp, een titel, een bijschrift, locatie et cetera in te vullen, zorg je ervoor dat je afbeeldingen voor de juiste zoektermen vindbaar zijn.

Laat je XML sitemap automatisch genereren

Je kan natuurlijk alle pagina’s zelf in de XML sitemap zetten. Voor een kleine site is dit nog wel te doen. Voor een grote of veel veranderende site wordt dit een stuk meer werk. Gelukkig zijn er sitemap generators die het voor je automatiseren.

Als je XML sitemap eenmaal in de lucht is, moet je hem wel up-to-date houden. Je kan elke nieuwe pagina handmatig in je sitemap zetten en hem opnieuw indienen. Als je site veel verandert, kan dit wel erg veel werk worden.  Veel CMS’en hebben gelukkig een functie om de XML sitemap automatisch bij te houden. Voor WordPress zijn er verschillende plugins beschikbaar die dit voor je kunnen doen. Een voorbeeld hiervan is de Yoast SEO plugin.

Test je XML  sitemap goed voor je hem indient

Om je XML sitemap bij Google onder de aandacht te brengen, moet je hem indienen via Google Search Console. Dan krijg je meteen te zien of er fouten in zitten. Handig, maar het is natuurlijk nog beter als je deze informatie hebt voor je hem indient. Dit kan, door de XML sitemap te testen in Google Search Console op de pagina ‘sitemap Report’.

Je krijgt nu alle fouten te zien die in je sitemap voorkomen. Er kunnen bijvoorbeeld teveel redirects zijn ingesteld voor een pagina of verplichte tags zijn niet ingesteld. Bij Google support is er een volledige lijst van mogelijke fouten te vinden.

Sitemap testen

Altijd zorgvuldig testen. 

Check Google Search Console

Nadat je de XML sitemap hebt ingediend bij Google is je taak nog niet klaar. Je wil natuurlijk wel weten of alles goed gaat en je pagina’s goed gecrawld worden. Daarom is het verstandig om af en toe in Google Search Console te kijken.

Ten eerste kan je hier in de gaten houden of er nieuwe fouten zijn ontstaan. Ten tweede kan je ook zien hoeveel URL’s je ingediend hebt en hoeveel er daadwerkelijk zijn geïndexeerd. Het is normaal dat deze aantallen niet geheel overeenkomen. Als een groot deel van de pagina’s niet geïndexeerd wordt, gaat er wel iets mis. Er worden bijvoorbeeld pagina’s uitgesloten door Google. Dit kan om verschillende redenen gebeuren, zoals lange laadtijd, dubbele content of simpelweg slechte kwaliteit. Controleer ook of je niet per ongeluk googlebot blokkeert in robots.txt.

Plaats de locatie van de XML sitemap in robots.txt

Meestal is een XML sitemap te vinden op /sitemap.xml. In principe kan je hem echter elke naam en locatie geven die je wil. Als googlebot je website tegenkomt, weet hij dus niet automatisch waar hij hem moet vinden. Robots.txt is wel altijd op dezelfde plaats te vinden, en de crawler kijkt hier als eerst. Hier vertel je hem daarom waar hij moet zijn. Dit doe je door het volgende toe te voegen:

# sitemap
 sitemap: https://www.voorbeeld.nl/sitemap.xml

Uiteraard is de URL anders als je een andere naam gekozen hebt.

wijst de weg

Robots.txt wijst de crawler de weg naar je XML sitemap.

Geef de taal van de pagina aan in je XML sitemap

Googlebot neemt in principe de locatie van je site als uitgangspunt om de taal te bepalen. Als je bijvoorbeeld een .nl-site hebt, gaat hij ervanuit dat je pagina’s in het Nederlands zijn geschreven. Als je een meertalige of anderstalige site hebt, moet je dus aangeven in welke taal je pagina’s opgesteld zijn. Voor de structuur kan het handig zijn om verschillende XML sitemaps per taal te maken.

Om de taal aan te geven gebruik je ‘hreflang’-tags. Door deze in te vullen vertel je googlebot ook welke pagina’s in hetzelfde zijn, maar dan in een andere taal. Het helpt Google ook om gebruikers resultaten voor te schotelen in hun eigen taal. Zo’n tag ziet er zo uit:

<loc>http://www.voorbeeld.com/nl/</loc>
<xhtml:link
rel="alternate"
hreflang="fr"
href="http://www.voorbeeld.com/fr/"
/>

Als je een meertalige website hebt en hier meer over wil weten, lees dan ons artikel over internationale SEO.

Ga aan de slag!

Als Google je beter begrijpt, kan het beter de juiste bezoekers naar je site leiden. Je vriendschap met googlebot is daarom erg belangrijk. Is je XML sitemap, en dus je communicatie met de crawlers, nog niet optimaal? Dan is dit het moment om het aan te pakken! Als je je relatie met Google wil verbeteren, kan je natuurlijk ook altijd professionele hulp inschakelen. Neem daarvoor vrijblijvend contact op met onze specialisten.

Relevante diensten

Meer lezen over dit onderwerp? Bekijk onze relevante diensten.

Reageren