Mikä on robots.txt?
Tässä artikkelissa olemme jakaneet kaiken, mitä sinun pitää tietää robots.txt tiedotosta
Ensimmäinen asia, joka sinun pitää tietää on se, että robots.txt asuu nettisivullasi. Sinun pitäisi myös tietää, että fiksut hakukone hämähäkit automaattisesti etsii robots.txt tiedoston saadakseen ohjeita ennen kuin se ryömii sivustosi. Siksi sinun pitäisi aina varmistaa, että robots.txt on osa juurihakemistoa, sillä se on ensimmäinen paikka, josta hämähäkit hakevat ohjeita.
Voit tarkistaa, onko robots.txt nettisivullasi tässä osoitteessa www.nettisivusinimi.fi/robots.txt
Google suosittelee, että jokaisella nettisivulla pitäisi olla robots.txt. Jos Googlen ryömijät eivät löydä robots.txt tiedostoa (robots.txt file), se saattaa johtaa siihen, että hakukone ei ryömi tärkeitä sivuja. Hakukoneen tehtävä on ryömiä ja indeksoida nettisivusi ja tehdä siitä helposti löydettävä.

Mitä robots.txt tekee?
Robots.txt antaa sinun blokata osia nettisivustasi ja indeksoida muita osia. Voit valita joko “salli” tai “hylkää” tietyille nettisivusi sivuille ja kansioille.
Jos sallit tiettyjä sivuja, annat hämähäkeille luvan mennä tietylle nettisivusi osalle ja indeksoida sen. Hylkääminen tarkoittaa sitä, että hämähäkit eivät löydä tiettyjä sivuja tai nettisivusi osia.
Robots.txt varmistaa, että nettisivusi on saatavilla hakukoneille. Jos sinulla on esimerkiksi yhteydenottosivu nettisivullasi, voit blokata sivun robots.txt tiedoston avulla niin, että Google ryömii muut tärkeät sivut. Tällöin hakukone ei käytä aikaa sellaisten sivujen ryömimiseen, jotka eivät ole tärkeitä hakukonetulosten kannalta.
Tekemällä tämän, kerrot Googlelle, ettei sen tarvitse ryömiä yhteydenottosivua. Voit tietysti blokata myös koko sivun robots.txt tiedoston avulla, jos haluat.

Kuinka robots.txt file toimii?
On olemassa muutamia erilaisia ryömijätyyppejä, jotka on tarkoitettu eri hakukoneille ja kanaville. Näitä ryömijöitä kutsutaan yleensä nimellä ”käyttäjä agentti.” Kun päätät antaa hakukoneelle pääsyn tietyille nettisivun osille, voit valita tietyn ryömijän, kuten Googlebotin (Googlen ryömijät), sillä käyttäjäagentti (tai sinä), voi käyttää *-merkkiä ja antaa luvan mille tahansa ryömijälle ryömiä nettisivusi.
Voit tehdä paljon robots.txt tiedoston avulla. Voit esimerkiksi blokata URL:eja, direktiivejä tai tiettyjä URL:n parametrejä.
Sama tekniikka pätee sivuihin, jotka haluat Googlen ryömivän ja joihin haluat panostaa. Voit indeksoida nämä sivut robots.txt tiedoston avulla.

Aikaviiveet
Voit sisällyttää aikaviiveitä robots.txt -tiedostoosi. Jos et esimerkiksi halua, että indeksointirobotti indeksoi sivustosi liian nopeasti, voit asettaa aikaviiveen. Tämä tarkoittaa sitä, että käsket hämähäkkejä indeksoimaan nettisivun vasta aikaviiveen jälkeen. Käytä aikaviivettä varmistaaksesi, että indeksointirobotit eivät ylikuormita verkkopalvelinta.
Muista kuitenkin, että Google ei tue aikaviiveitä. Jos et halua ylikuormittaa verkkopalvelintasi Google -boteilla, voit sen sijaan käyttää indeksointinopeutta. Voit valita haluamasi indeksointinopeuden Google Search Consolessa ja yrittää hidastaa hämähäkkejä.
Kaavojen yhteensopivuus
Jos sinulla on laajempi sivusto, voit harkita kaavojen yhdistämistä. Olipa kyseessä Google tai jokin muu hakukone, voit ohjata näitä hakukoneita käymään läpi ja indeksoimaan sivusi tiettyjen sääntöjen perusteella.
Kaavojen yhteensopivuuteen liittyy joukko sääntöjä, joita haluat indeksointirobottien noudattavan. Haluat esimerkiksi estää URL -osoitteet, joissa on sana “nettisivu.”

Miksi robots.txt tiedostoa pitäisi käyttää?
Monet ihmiset käyttävät robots.txt -tiedostoa estääkseen kolmansia osapuolia indeksoimasta nettisivua. Hakukoneet eivät tosin ole ainoita, jotka indeksoivat nettisivun: myös muut kolmannet osapuolet yrittävät jatkuvasti käyttää nettisivuasi Näin ollen kaikki sivustosi indeksointi hidastaa sivustoasi ja palvelintasi, mikä johtaa negatiiviseen käyttäjäkokemukseen. Lisäksi nämä kolmannen osapuolen widgetit voivat aiheuttaa palvelinongelmia, jotka sinun on ratkaistava.
Voit myös käyttää robots.txt -tiedostoa estääksesi kolmansia osapuolia kopioimasta sisältöä nettisivultasi tai analysoimasta nettisivulle tekemiäsi muutoksia. Robots.txt on erinomainen tapa estää tiettyjä asioita nettisivullasi.
Muista, että jos kolmas osapuoli on erittäin kiinnostunut nettisivustasi, he voivat käyttää ohjelmistoa, kuten Screaming Frog, jonka avulla he voivat sivuuttaa “eston” ja indeksoida nettisivusi. Sinun ei siis pitäisi luottaa sataprosenttisesti robots.txt -tiedostoon nettisivusi tiettyjen näkökohtien suojaamisessa.

Robots.txt tarkistus
Voit tarkistaa Google Search Consolen avulla, estätkö tietyn sivun robots.txt -tiedostolla. On hyvä tarkistaa se aika ajoin varmistaaksesi, ettet ole estänyt tärkeää sivua vahingossa.
Ole erittäin varovainen työskennellessäsi robots.txt -tiedoston kanssa. Jos estät vahingossa koko sivusi indeksoinnin, se voi olla nettisivullesi todella haitallista.