Utelat innhold fra søkemotorer

Det kan være ulike årsaker til at man ønsker å ekskludere innhold fra søkemotorer, én årsak kan være at det er snakk om testinnhold.

Robots.txt

Det har lenge vært en feiloppfatning at den beste måten å hindre Google og andre søkemotorer i å indeksere nettsiden er å bruke en robots.txt-fil. Hvis man vil hindre Google i å crawle nettstedet kan man legge en slik robots.txt-fil på rotnivå.

User-agent: Googlebot
Disallow: /

Og hvis man vil stoppe alle crawlere, som bryr seg om å følge anmodningen, kan filen se slik ut.

User-agent: *
Disallow: /

Problemet med robots.txt er at den bare forteller søkemotorer at de ikke skal crawle nettsiden på jakt etter innhold å indeksere. De vil allikevel kunne indeksere sider, dersom søkemotoren kommer over de på andre måter, f.eks. via innkommende lenker fra andre nettsteder.

Bruk heller en av metodene under.

Robots metatag

Robots metatag kan inkluderes som en del av markup på den enkelte siden, og plasseres innenfor <head>-elementet. Det finnes ulike parametere man kan bruke, men de mest aktuelle er noindex og nofollow. Disse parameterne ber henholdsvis om at siden ikke skal indekseres, og at crawlere ikke skal følge lenker videre fra siden.

Eksempel på metatag som hindrer indeksering, og videre følging av lenker.

<meta name="robots" content="noindex, nofollow">

X-robots-tag

Den siste metoden er, i motsetning til den forrige, ikke en tag – selv om navnet tyder på det. X-robots-tag er en HTTP header.

Det at denne informasjonen sendes som en header, og ikke som en del av siden som markup, gjør at denne metoden er velegnet også når det gjelder annet innhold enn HTML. Dette fungerer like bra for bilder, PDF-dokumenter og video-filer.

X-robots tag kan brukes med de samme to parameterne som robots metatag.

x-robots-tag: noindex, nofollow

Hvis uhellet først er ute

Hvis Google har indeksert innholdet ditt, og du ønsker å få fjerne det, er det absolutt verste du kan gjøre å legge til en robots.txt-fil som sperrer Google ute. Da vil ikke Google kunne oppdatere indeksen, uansett om du tar i bruk noen av de andre forslagene over.

Hvis du ikke bare vil vente til neste gang Google crawler nettstedet, men vil få litt fortgang kan du bruke verktøyet for fjerning i Google Search Console.

Google Search Console Url Removal Tool

Konklusjon

De sikreste måten å holde innhold unna søkemotorer på er:

  • Ikke publiser innhold på internett
  • Legg innholdet bak innlogging, IP-sperre, eller lignende

Hvis du allikevel vil ha innhold på internett, men uten at søkemotorer snuser rundt, bruk robots metatag, eller x-robots-tag.