Als je je website optimaliseert voor zoekmachines, dan is het robots.txt bestand een essentieel onderdeel van je strategie. Het is misschien een klein bestand, maar het kan een grote invloed hebben op hoe zoekmachines je website crawlen en indexeren. In deze blogpost duiken we diep in wat een robots.txt bestand is, waarom het belangrijk is en hoe je het correct kunt instellen om je SEO-inspanningen te maximaliseren.
Wat is een robots.txt bestand?
Het robots.txt bestand is een tekstbestand dat zich in de root directory, de basis, van je website bevindt. Het wordt gebruikt om zoekmachine-crawlers, zoals Googlebot, instructies te geven over welke delen van je website ze wel of niet mogen crawlen. Dit bestand speelt een cruciale rol in de manier waarop zoekmachines je website scannen, wat uiteindelijk de zichtbaarheid en indexering van je pagina’s beïnvloedt.
Stel je voor dat je een gebouw hebt en zoekmachines zijn de gasten. Het robots.txt bestand is als een bord bij de deur waarop staat welke kamers toegankelijk zijn en welke privé zijn. Het helpt zoekmachines efficiënt te navigeren, zodat ze niet te veel tijd verspillen aan onbelangrijke, irrelevante of gevoelige delen van je site.
Waarom moet je robots.txt instellen?
Ik hoor je denken: ‘Is een robots.txt belangrijk?’. Ja, het robots.txt bestand is belangrijk, maar voor kleine websites hoeft het niet heel uitgebreid. Voor kleine blogs of websites met weinig pagina’s is het niet altijd nodig om een uitgebreide robots.txt bestand te hebben. Maar als je een grotere website hebt met veel pagina’s, dan helpt dit bestand je om de zoekmachines te leiden en te zorgen dat ze alleen de belangrijke pagina’s crawlen. Dit kan bijvoorbeeld handig zijn als je wilt voorkomen dat zoekmachines dubbele inhoud of gevoelige informatie crawlen.
Elementen in het robots.txt bestand
Het robots.txt bestand bevat verschillende elementen, waarvan de belangrijkste de user-agent en disallow directieven zijn. Elk van deze elementen speelt een specifieke rol bij het reguleren van het gedrag van webcrawlers en kan op maat worden ingesteld om verschillende crawlers verschillende toegangsniveaus te geven.
Verschillende user-agents
Een robots.txt bestand bestaat uit verschillende regels die crawlers kunnen lezen. Het belangrijkste element in een robots.txt bestand is de User-agent. Hiermee geef je aan voor welke zoekmachine je een regel instelt. Je kunt regels toevoegen voor specifieke zoekmachines zoals Googlebot of Bingbot:
“
User-agent: googlebot
“
Of je kunt een algemene regel instellen die geldt voor alle zoekmachines. Dit doe je door een zin op deze manier toe te voegen, met een * richt je je op elke user-agent:
“
User-agent: *
“
Disallow
Een andere veelvoorkomende regel in het robots.txt is “Disallow”, waarmee je aangeeft welke pagina’s of directories niet gecrawld mogen worden. Dit is nuttig om te voorkomen dat niet-relevante pagina’s, zoals een testomgeving of administratieve secties, worden geïndexeerd. Dit gebruiken we ook om onder andere filterpagina’s uit te sluiten en zo het crawlbudget te optimaliseren. Om bijvoorbeeld je Admin pagina uit te sluiten kun je de volgende zin toevoegen:
“
Disallow: /admin/
“
Als je op pagina niveau wilt uitsluiten lees dan onze blog over Robots metatag en X-Robots-Tag.
Sitemap
Het is ook mogelijk om een verwijzing naar je sitemap op te nemen in het robots.txt bestand. Dit is een eenvoudige manier om zoekmachines te vertellen waar ze de volledige structuur van je website kunnen vinden. Een sitemap helpt crawlers om je website beter te begrijpen, vooral als je een grote site hebt met veel interne links. Het maakt hierbij niet uit of je het onderaan het bestand zet of bovenaan.
Een voorbeeldregel in je robots.txt kan er als volgt uitzien:
“
Sitemap: https://www.jouwwebsite.nl/sitemap.xml
“
Met deze eenvoudige regel help je zoekmachines om je content nog efficiënter te indexeren.
Hoe maak je een robots.txt bestand?
Een robots.txt bestand maken is eenvoudig en kan met een simpele teksteditor. Neem hierbij de bovenstaande aspecten user-agent, disallow en sitemap mee. Om alles toe te staan kun je het volgende toepassen:
“
User-agent: *
Disallow:
“
Als er niets staat achter Disallow zal automatisch alles worden geaccepteerd. Zorg ervoor dat je het bestand opslaat als ‘robots.txt’ en upload het naar de root directory van je website. Dit betekent dat het toegankelijk moet zijn via: www.voorbeeld.nl/robots.txt.
*Bij Shopify is het vaak wat lastiger om een robots.txt bestand te maken of te optimaliseren. Lees daarvoor ons blog over het Shopify robots.txt voor meer info
Een robots.txt genereren
Als je het lastig vindt om handmatig een robots.txt bestand te schrijven, zijn er online tools beschikbaar die je kunnen helpen om een robots.txt bestand te genereren, zoals bijvoorbeeld op SEOptimer. Deze tools vragen vaak naar de URL van je website of sitemap en welke pagina’s je wilt uitsluiten van crawlen. Vervolgens genereren ze een correct geformatteerd bestand dat je alleen nog maar hoeft te uploaden.
Wanneer je gebruik maakt van Shopify wordt er automatisch een Robots.txt voor je gemaakt die perfect aansluit bij de structuur van een Shopify website.
Je robots.txt testen
Na het aanmaken of aanpassen van je robots.txt bestand is het belangrijk om te controleren of het correct werkt. Gelukkig bieden zoekmachines zoals Google hiervoor handige tools. Met de Google Search Console kun je bijvoorbeeld je robots.txt bestand testen om te zien of het de juiste instructies geeft aan crawlers.
Wij raden aan om dit regelmatig te doen, vooral als je wijzigingen hebt aangebracht op je website. Een fout in je robots.txt kan namelijk leiden tot het blokkeren van belangrijke pagina’s, wat een negatieve impact kan hebben op je SEO.
Voorbeeld robots.txt bestand
Hier is een eenvoudig voorbeeld van een robots.txt bestand voor een standaardwebsite:
“
User-agent: *
Disallow: /admin/
Disallow: /wp-login.php
Sitemap: https://www.voorbeeld.nl/sitemap.xml
“
In dit voorbeeld hebben we ervoor gezorgd dat zoekmachines de admin-sectie en de inlogpagina niet crawlen, maar dat ze wel toegang hebben tot de sitemap om de rest van de site te indexeren.
Voor grotere e-commerce websites zal een sitemap veel uitbreider zijn. Waar je sowieso de volgende regels zal gebruiken:
“
User-agent: *
Disallow: /admin/
Disallow: /wp-login.php
Disallow: /cart
Disallow: /orders
Disallow: /checkouts/
Disallow: /checkout
Disallow: *sort_by*
Disallow: *filter*
Sitemap: https://www.voorbeeld.nl/sitemap.xml
“
Voor iedere URL-structuur zal dit verschillen, dus let er op dat je zo specifiek mogelijk voor jouw website pagina’s uitsluit. Zo heb je een kleinere kans dat je per ongeluk te veel pagina’s uitsluit.
Robots.txt met WordPress
Als je een WordPress-website hebt, kun je het robots.txt bestand eenvoudig aanpassen via de instellingen van bepaalde SEO-plugins, zoals Rank Math. Deze plugins bieden vaak een gebruiksvriendelijke interface waarin je specifieke delen van je website kunt blokkeren of toegang kunt geven aan zoekmachines. Je kunt dan aan vinken welke pagina’s je wilt uitsluiten en welke niet, dan past deze tool de robots.txt daar op aan.
Het aanpassen van je robots.txt via een plugin heeft het voordeel dat je geen FTP-toegang nodig hebt. Dit maakt het proces voor de meeste website-eigenaren veel eenvoudiger.
Hulp nodig bij de robots.txt bestand?
Met deze informatie ben je klaar om je eigen robots.txt bestand te beheren en te optimaliseren. Vergeet niet regelmatig te controleren of het bestand correct functioneert en of het de juiste pagina’s toelaat of blokkeert voor crawlers. Zo blijf je de controle houden over hoe zoekmachines je website scannen en indexeren.
We je graag geholpen worden bij je robots.txt? Schroom niet om ons te bellen of te contacten! Wij helpen je graag verder.
Veelgestelde vragen
Zonder een robots.txt bestand kunnen zoekmachines nog steeds je website crawlen. Ze zullen dan standaard alle pagina’s proberen te indexeren. Dit kan problemen veroorzaken als er bepaalde pagina’s zijn die je liever niet geïndexeerd ziet, zoals dubbele content of testpagina’s. Maar ook is dit zonde van het “crawl budget”. Het crawl budget is het aantal pagina’s dat bots van zoekmachines crawlen en indexeren op een website in een bepaald tijdsbestek. Als je geen robots.txt gebruikt kan het zijn dat de zoekmachines zich alleen richten op minder relevanten pagina’s.
Ja, als je per ongeluk belangrijke pagina’s blokkeert, kunnen deze niet worden gecrawld en dus ook niet worden geïndexeerd. Dit kan een negatieve invloed hebben op je SEO-prestaties. Het is daarom essentieel om je robots.txt bestand zorgvuldig te beheren en te testen.
Ja, je kunt specifieke zoekmachines blokkeren door hun User-agent te vermelden in het robots.txt bestand. Bijvoorbeeld, als je Bingbot wilt blokkeren, zou je dit kunnen doen met de volgende regel:
“
User-agent: Bingbot
Disallow: /
“