webcrawler

Blog

Wat is een crawler?

webcrawler

Grote kans dat je de termen crawler, zoekbot of spider wel eens voorbij hebt horen komen. Wellicht schrikken deze termen je wat af, gezien de technische aard ervan. Maar wist je het internet zonder het bestaan van deze enge technische termen niet mogelijk zou zijn? We laten je daarom graag kennis maken met het hoe, wat en waarom van crawlers.

Wat is een crawler?

Een crawler is een stuk software waarmee alle pagina’s op het internet doorgezocht kunnen worden. Dit is een continu en geautomatiseerd proces waarbij links worden gevolgd. Je kunt dit het beste voor je zien als een lange lijst met URL’s, die stuk voor stuk worden bezocht. Wanneer er een link op deze pagina staat, wordt deze toegevoegd aan de lijst en op een later moment bezocht. Op die manier kunnen alle publiekelijk toegankelijke pagina’s worden bezocht dan wel geïndexeerd.

De termen crawler, zoekbot of spider worden door elkaar gebruikt maar betekenen hetzelfde. Ook wordt er vaak over Googlebot gesproken, gezien Google de grootste zoekmachine is.

Hoe vaak komt een crawler langs?

Veel mensen zijn benieuwd hoe vaak een crawler nu daadwerkelijk langskomt en of je daar invloed op kunt uitoefenen. Het eenvoudige antwoord is dat er geen aantal per website is en je hier ook geen directe invloed op kunt uitoefenen. Google zelf houdt het ook graag vaag en geeft het volgende aan: ‘Computerprogramma’s bepalen welke sites worden gecrawld, hoe vaak ze worden gecrawld en hoeveel pagina’s worden opgehaald van elke site’.

Crawlbudget

Hoewel we er dus geen directe invloed op kunnen uitoefenen, geeft Google Search Console ons wel hele relevante informatie over het crawlen van een website.

Indexeringsstatus

Binnen het rapport indexeringsstatus is te zien hoeveel pagina’s van jouw website zijn opgenomen in de index. Zit er een groot verschil tussen jouw totale aantal URL’s en het aantal geïndexeerde URL’s en sluit je niks uit van indexatie? Dan is het zaak uit te zoeken waar dit door komt.

Geblokkeerde bronnen

Kijk je naar je geblokkeerde bronnen, is het belangrijk om te controleren of hier ook daadwerkelijk alleen pagina’s staan waarvan je ook niet wilt dat ze door een zoekbot worden bezocht. Staan hier voor jou wel belangrijke pagina’s tussen, kun je zien waar de blokkade vandaan komt en nagaan hoe dit het beste opgelost kan worden.

Crawlstatistieken

Laat de grafieken in het rapport crawlstatistieken je zeker niet direct afschrikken. Je kunt er namelijk bijzonder relevante informatie uithalen. Zo kun je onder andere zien hoeveel pagina’s er gemiddeld per dag worden gecrawld. Wanneer je dit afzet tegen het totale aantal pagina’s waaruit je website bestaat, weet je al gauw hoelang het kan duren voordat alle pagina’s gecrawld en geïndexeerd worden.

De crawler een handje helpen

Wanneer een crawler langskomt op je website, wil je het de crawler zo gemakkelijk mogelijk maken. Ook wil je dat alleen de voor jou belangrijke pagina’s worden gecrawld. Om die reden zijn er verschillende maatregelen die je kunt treffen.

  • Denk aan je robots.txt bestand

Het robots.txt bestand is het eerste bestand dat een crawler ziet zodra deze op je website komt. In dit bestand kun je verschillende regels opnemen. Middels de regel ‘Disallow’ is het mogelijk om een map of pagina niet te laten crawlen. Kleine kanttekening: sommige spiders negeren regels in het robots.txt bestand. We kunnen de spiders er dus een handje mee helpen, maar het geeft geen harde garantie. 

  • Maak gebruik van een sitemap

Een sitemap kan het beste als inhoudsopgave van een website worden omgeschreven. Om die reden is het bijzonder waardevol om de crawler

  • Meta tags

Sluit je in het robots.txt bestand mappen uit binnen een website, zijn er op webpagina niveau ook dingen mogelijk. De standaard waarde die een pagina meekrijgt is als volgt:

<meta name=”robots” content=”index,follow”>

Hiermee wordt aangegeven dat een pagina in de index mag worden opgenomen en de links op de pagina gevolgd mogen worden. Deze meta tag is op webpagina niveau aan te passen door index/follow aan te passen naar noindex of nofollow.

Voor de termen crawlers, zoekbots of spiders hoef je nu in ieder geval niet meer bang te zijn. Door slim met je crawlbudget om te gaan, kan het je voor je website zelfs veel opleveren. Vind je het stiekem toch nog steeds maar rare wezens en besteed je het liever uit? Neem dan geheel vrijblijvend contact met ons op. We denken graag met je mee!

Zoekmachine optimalisatie

Bekijk deze dienst

Samen met technische SEO aan de slag?