Log ind

Kontrolpanel Webmail Hjemmesideprogram Webshop File Manager WordPress

Hvad er robots.txt?

Vi har samlet alt, hvad du behøver at vide om robots.txt i denne artikel

vector

Kort om

Glossary

Robots.txt er en fil, der fortæller søgemaskinerne, hvilke sider på en hjemmeside søgemaskinerne må få adgang til, og hvilke de ikke skal tilgå. Robots.txt hjælper hjemmesideejere med at kontrollere, hvordan websitet crawles og indekseres af søgemaskinerne.

En robots.txt-fil er en fil, som findes på din hjemmeside og som indeholder vigtige instrukser til diverse webcrawlers.

Når Googles webcrawlere (Googlebots) besøger din hjemmeside, så leder de automatisk efter din robots.txt for at finde information om din hjemmeside.  

Hjemmesidens robots.txt kan indeholde information om hvilke sider, som du gerne vil have Google til at besøge, og hvilke sider som Google ikke skal crawle og dermed ikke behøver at indeksere.    

Robots.txt-filen er derfor vigtig i forhold til din SEO og dine placeringer i søgeresultaterne, og derfor bør du også altid have din robots.txt-fil liggende i dit rodbibliotek, da det er den første fil, som de såkaldte Googlebots vil lede efter.    

Du kan tjekke, om du har en robots.txt-fil på din hjemmeside ved at søge på www.navnetpådinhjemmeside.dk/robot.txt.

Google anbefaler, at alle der har en hjemmeside, også bør have en robots.txt-fil. Hvis Googles crawlere ikke kan finde din robots.txt-fil, vil det højst sandsynligt resultere i, at søgemaskinen ikke crawler alle de vigtige sider på din hjemmeside. Søgemaskinens opgave er at crawle og indeksere din hjemmeside, for at siderne kan blive vist i søgeresultaterne og være tilgængelige for internetbrugerne.

Hvad gør robots.txt?

Robots.txt-filen giver dig også mulighed for at blokere dele af din hjemmeside, som du ikke ønsker skal indekseres af Google. På samme måde kan du henvise Googles webcrawlere til den del af din hjemmeside, som du gerne vil have indekseret.

Du kan altså vælge enten at ’tillade’ eller ‘ikke tillade’ adgang for Google til bestemte sider og mapper på din hjemmeside.

Hvis du tillader adgang til bestemte sider, så giver du automatisk webcrawlerne adgang til at crawle og indeksere disse sider.  

Omvendt betyder ’disallow’, at du ikke ønsker, at Googlebots skal crawle bestemte sider og områder på din hjemmeside.

Robots.txt-filen er altså medvirkende til, at din hjemmeside bliver crawlet og siderne indekseret, og i sidste ende betyder det, at din hjemmeside er tilgængelig i søgemaskinerne. 

Har du for eksempel en kontaktside på din hjemmeside, så kan du beslutte dig for at blokere denne side, ved hjælp af robots.txt, så Google kan nøjes med at crawle andre og mere vigtige sider på din hjemmeside. På den måde kan du guide Google og fortælle, at Googlebots ikke skal bruge tid på at crawle en side, som du vurderer ikke er så vigtig, at internetbrugerne behøver at kunne finde den via søgemaskinerne. 

Ved at bruge ’disallow’ fortæller du Google, indholdet af din kontaktside ikke skal besøges. Du kan på samme måde også vælge at blokere hele din hjemmeside ved brug af robots.txt-filen, hvilket dog er de færreste som gør.  

Hvordan fungerer robots.txt?

Der findes forskellige typer af webcrawler til forskellige søgemaskiner og platforme. Vi kalder normalt disse crawlere for ‘brugeragent’ (User-agent). Så når du beslutter dig for enten at give tilladelse eller afvise adgangen til et bestemt område på din hjemmeside, så kan du enten vælge at identificere den specifikke crawler, for eksempel Googlebot (Googles crawlere), som brugeragenten, eller du kan bare bruge en * og henvise til alle crawlere, der findes på internettet. 

Du har mulighed for at arbejde meget systematisk og detaljeret med hjemmesidens robots.txt-fil. For eksempel kan du blokere bestemte URL’er, mapper eller endda specifikke URL-parametre.

Samme princip gælder for sider, som du ønsker, at Google skal gennemgå og have ekstra opmærksomhed omkring. Du kan indeksere og fremhæve disse foretrukne sider ved hjælp af robots.txt-filen.

Tidsforsinkelse

Du har også mulighed for at inkludere tidsforsinkelser i din robots.txt-fil. Det kan du f.eks. gøre, hvis du gerne vil have webcrawlerne til at vente med at crawle din hjemmeside. 

Ved at indsætte en tidsforsinkelse, så beder du Googles edderkopper om først at gennemgå sidens indhold, når tidsforsinkelsen er udløbet. 

Du kan bl.a. bruge tidsforsinkelsen til at sikre, at crawlerne ikke overbelaster din webserver.

Husk dog på, at Google ikke understøtter tidsforsinkelser. Hvis du ikke vil overbelaste din server med Google-bots, kan du i stedet bruge funktionen ’Gennemgangshastighed’. Du kan vælge din foretrukne gennemgangshastighed i Google Search Console og derved prøve at bremse webcrawlerne.

Mønstermatching

Hvis du har en stor og omfattende hjemmeside, så kan du overveje at implementere det som kaldes for mønster-matchning eller mønstergenkendelse. Uanset om det er Google eller en hvilken som helst anden søgemaskine, så kan du instruere disse søgemaskiner til at gennemgå og crawle dine sider baseret på et sæt opstillede regler.

Mønstermatching indebærer et sæt regler, som du ønsker, at crawlerne skal følge. For eksempel vil du måske blokere URL’er, der indeholder ordet ‘hjemmeside’.

Hvorfor skal jeg bruge robots.txt?

Mange bruger robots.txt til at forhindre en tredjepart i at crawle deres hjemmeside. Det gælder ikke kun for søgemaskinernes legitime webcrawlere, for der findes også andre såkaldte tredjeparter, som konstant forsøger at få adgang til din hjemmeside. De mange forsøg på at crawle din hjemmeside vil nemlig belaste din server og din hjemmeside, og det kan resultere i en negativ brugeroplevelse. 

Derudover kan disse tredjeparts-widgets også forårsage serverproblemer, som der så efterfølgende skal bruges tid og ressourcer på at få løst.

Du kan derfor også bruge robots.txt-filen til at forhindre tredjeparter i at kopiere indhold fra dit website eller forhindre at uvedkommende parter kan analysere ændringer, som du foretager på din hjemmeside. Robots.txt-filen er et glimrende værktøj til at blokere adgangen for alle udefrakommende parter, som du ikke vil have skal have adgang til din hjemmeside. 

Husk dog på, at hvis en tredjepart er meget interesseret i din hjemmeside, så kan der bruges andet software, som f.eks. Screaming Frog, der giver eks.vis hackere mulighed for at ignorere ‘blokeringen’ og stadig crawle din hjemmeside. Du bør derfor ikke stole hundrede procent på, at tilpasningen af din robots.txt-fil, er tilstrækkeligt, når det gælder om at beskytte adgangen til din hjemmeside. 

Robots.txt kontrolfunktion

Du kan bruge Google Search Console til at tjekke, om du blokerer en side med robots.txt-kontrollen. Det er godt at tjekke det fra tid til anden for at sikre, at du ikke ved et uheld har blokeret adgangen for en vigtig side.

Vær meget forsigtig, når du arbejder med robots.txt. Det kan forårsage alvorlig skade på din hjemmeside, hvis du ved et uheld blokerer hele dit website fra at blive indekseret.