Geriau vėliau, bet su robots.txt

Žinote, kam reikalingas interneto svetainėms failas robots.txt? Tam, kad paieškos sistemos surastų ir įtrauktų į savo duomenų bazes jūsų svetainės turinį tik vieną kartą. Tai labai svarbu, nes identiško turinio perteklius, nesvarbu vienoje svetainėje, ar išbarstytas po internetą, klaidina skaitytoją, paieškos sistemas, katalogų tarnybas ir kenkia svetainės reitingams.

Kartais būna taip, kad dėl pasikartojančių nuorodų į medžiagą, paieškos rezultatuose skaitytojai gali rasti nuorodą ne į pagrindinį straipsnį, o į jo kategoriją, RSS įrašą ar vietą archyve.

Kaip taip gali būti? Juk straipsnį rašome vieną ir dedame į savo svetainę tik vieną kartą? Taip, beje, atrodo tik iš pirmo žvilgsnio. Kiekvienas rašinys turi savo skelbimo datą, vadinasi, vos paskelbtas, jis, pavyzdžiui, paskiriamas kalendorinei kategorijai „2007“, „Spalis“ ir pan. Tikriausiai rašinys turi vieną ar kelias temas. Tokiu būdu jį galima rasti ir adresu „nežinau.lt/patarimai/rašinys“, ir „nežinau.lt/internetas/rašinys“ (čia tik pavyzdžiai, reali nežinau.lt struktūra kiek kitokia). Jei skelbiate RSS, tai svetainės programinė įranga sukuria ir techninius adresus su „feed“ priekaba, kurie irgi tampa pagrindinio straipsnio konkurentais.

Paieškos sistemos (robotai, iš čia ir failo „robots.txt“ vardas) dažnai neskiria teksto svarbos pagal jo adresą. Jei indeksuodamos viską iš eilės pirmiausiai ras RSS įrašo adresą ar kategorijos nuorodą, ją ir įdės į paieškos rezultatus. Kartais tai menka bėda, tačiau dažnai padaro daug nepatogumų skaitytojams.

Aš pats robots.txt ketinau įsidėti vos sukūręs nežinau.lt, bet tuomet dar turinio labai mažai buvo, tai atidėjau vėlesniam laikui, kad galėčiau paanalizuoti poveikį. Tas vėlesnis laikas, beje, taip ir neatėjo. Vėliau paskaičiau Eimanto patarimą ir net gavau laišką su šiam projektui pritaikytu robots.txt failu, kurio taip pat labai ilgai neprisiruošiau įdėti (robots.txt paprasčiausiai per FTP nukopijuojamas į pagrindinį jūsų svetainės aplanką). Galiausiai tapo gėda dėl apsileidimo – geriau vėliau, negu niekada.

Failas robots.txt informuoja paieškos sistemas, kurių adresų svetainėje nereikia naršyti, nes juose nėra originalios informacijos, o tik pagalbinių nuorodų sankaupa. Pavyzdys:

User-Agent: *
Disallow: /category/
Disallow: /2007/

Kartais sąrašą verta papildyti „Disallow: /feed/“, jei jūsų RSS kuriami su tokia struktūra.

Ar tai mirtinai svarbu? Ne, nes pagrindiniai paieškos „agentai“ – Google, Yahoo!, MSN Live – gerai susidoroja su pasikartojančių nuorodų atranka, bet kodėl gi jiems nepadėjus, o tuo pačiu ir neinformavus apie tikrąją svetainės nuorodų struktūrą ne tokius pažangius paieškos mechanizmus? Dėl trijų eilučių ilgio tekstinio failo blogiau nebus. O geriau – gali būti…

This entry was posted in internetas, patarimai, rinktiniai. Bookmark the permalink. Both comments and trackbacks are currently closed.

5 Comments

  1. Posted 2007.10.24 at 21:18 | Permalink

    O tai kaip čia yra, kad nezinau.lt/robots.txt vis dar kaip ir tuščias (t.y. be jokių paoptimizavimų) atrodo..?

  2. vienastoks
    Posted 2007.10.24 at 22:00 | Permalink

    Būčiau ir vėl pamiršęs… :)

  3. Posted 2007.10.25 at 10:02 | Permalink

    Džiugai, įmesk dar ir /page/ dalį. Kad puslapiuoto turinio neindeksuotų. Pradinis puslapis gi vis vieną kas dien aplankomas .)

  4. Posted 2007.10.25 at 14:18 | Permalink

    pries darant robots.txt verta aplankyti Google webmaster’iu centra ir pasiziuret kokios nuorodos is svetaines neveikia, bei kokiu be reikalo priindeksavo. Savo puslapyj Google bot’ui esu palikes daugiau nurodymu ;)

  5. vienastoks
    Posted 2007.10.25 at 14:20 | Permalink

    Taip ir padarysiu. :)

2 Trackbacks

  1. [...] Geriau vėliau, bet su Robots.txt [...]

  2. [...] ir dar viena trumputė tema. Šį kartą kaip pagrindu pasinaudosiu nezinau.lt įrašu: Geriau vėliau, bet su robots.txt. Kas gi yra tas robots.txt failas? Šis failas yra vienas iš būdų įsilaužėliui sužinoti apie [...]