Internetové vyhľadávače sa skladajú z robota (alebo z viacerých robotov) a z webového rozhrania pre vyhľadávanie. Proces nájdenia a spracovania webových stránok sa dá rozdeliť do 3 krokov:

  • Crawling (indexové prehľadávanie) – Crawler (crawler, spider, bot alebo Googlebot) je softvér, ktorý má za úlohu sliediť po internetových stránkach a nachádzať nové URL adresy. Nájdené URL sú potom adeptami na ďalšie spracovanie – indexáciu.
  • Rendering – Ak stránky obsahujú Javascript, alebo nebodaj celá stránka sa načítava pomocou Javascriptu, Google sa snaží tento Javascript “renderovať” a pochopiť, ako stránka naozaj vyzerá pre používateľov.
  • Indexing – Indexer má potom za úlohu spracovať webové súbory a ukladať ich do databázy. Index vyhľadávača je teda databáza web stránok uspôsobená tak, aby sa v nej dalo (rýchlo) hľadať.
Crawl, render, index Googlebot
Proces indexovania stránok Googlom, Zdroj obrázka

Pokiaľ web stránka nie je v indexe vyhľadávača, nemôže byť ani vo výsledkoch vyhľadávania. Google, Seznam alebo iný vyhľadávač dokonca môže vedieť o tom, že stránka existuje (crawler ju našiel), ale môže sa rozhodnúť danú stránku neindexovať – napr. preto, že stránka nemá dostatok jedinečného obsahu.

Ako dostať web stránky do Google indexu?

Všeobecne je spôsob, ako dostať web stránky do indexu, pre všetky vyhľadávače rovnaký – na web stránku musí smerovať odkaz z už indexovanej stránky. Ak takou stránkou disponujete (môže byť napr. úvodná stránka vášho webu), stačí, ak z nej odkážete na novú a roboty vyhľadávačov si ju nájdu. Ak žiadne takéto stránky nemáte, musíte sa o získanie odkazov postarať inak – linkbuildingom.

Pre potreby indexácie je v podstate jedno, odkiaľ odkaz získate. Či už z nejakého fóra, z katalógov, zo spriatelených webov či iného zdroja. Indexácia však nie je cieľom a sama o sebe nestačí – Google vašu stránku môže indexovať, ale nemusí ju ukazovať na popredných pozíciách. Pre posun na lepšie pozície už potom na zdroji spätných odkazov záleží.

Do Google indexu sa dá dostať aj inými spôsobmi než cez odkazy:

  • Odoslaním URL v sitemap.xml.
  • Priamym vyžiadaním v Google Search Console.
  • Google môže zbierať URL z iných zdrojov – napr. od používateľov Google Chrome.

Všetko sú to ale len zástupné spôsoby, ak odkazovanie z nejakého dôvodu zlyhá. Nemali by ste sa spoliehať výlučne na tieto spôsoby indexácie.

Ako často je stránka indexovaná?

Frekvencia indexovania je pre každú stránku rôzna a závisí predovšetkým na dvoch faktoroch:

  • PageRank – PageRank určuje relatívnu dôležitosť stránky. Dôležitejšie stránky zasluhú častejšiu indexáciu, preto stránky s vyšším PageRankom sú indexované častejšie.
  • Frekvencia zmeny obsahu – Keďže vyhľadávače chcú, aby bol ich index čo najčerstvejší/najaktuálnejší, stránky, ktoré menia často obsah, indexujú častejšie než tie, ktorých obsah sa nemení vôbec.

Frekvencia indexovania sama o sebe nemá dopad na umiestnenie vo vyhľadávaní, avšak častejšie indexovanie môže mať význam u stránok, ktoré sa často menia.

Najrýchlejšie sú indexované magazíny, blogy alebo fóra. Nový článok/príspevok sa môže do indexu dostať do niekoľkých minút až desiatok sekúnd.

Ako zakázať indexovanie stránok?

Je niekoľko možností, ako sa dá Googlu indexovanie, či crawlovanie stránok zakázať:

  • Meta robots – je tag v hlavičke HTML dokumentu a zapisuje sa takto: <meta name="robots" content="Sem sa píšu príkazy pre roboty oddelené čiarkou."> Pre SEO sú najužitočnejšie príkazy: index, resp. noindex = bot vyhľadávača nemá stránky indexovať; follow, resp. nofollow = bot vyhľadávača nemá sledovať odkazy na stránke.
  • Robots.txt – je to súbor v koreňovom adresári hostingu, napr. https://gradeta.sk/robots.txt, kde môžete určiť, aké časti stránok môže Google crawlovať a ktoré nie. Všimnite si, že robots.txt zabraňuje crawlovaniu (a až sekundárne aj indexovaniu), kdežto meta robots musí byť crawlovaný a zabraňuje až indexovaniu.
  • Canonical – Canonical tag sa do hlavičky HTML dokumentu zapisuje takto: <link rel="canonical" href="https://gradeta.sk/seo" /">. Ak je v atribúte rel iná URL ako URL stránky, na ktorej je tento tag uvedený, je to informácia pre Googlebota, že uvedená stránka je duplicitná tej stránke v rel atribúte canonical tagu. V takýchto prípadoch Google označí uvedenú stránku za duplicitnú a jej ranking faktory započíta pre kanonickú URL v rel atribúte. Vo výsledkoch Googlu sa teda bude objavovať už len kanonická URL. Viac o canonicale.