Kontrola indexace SEOtest.online je jedním z prvních kroků smysluplného technického auditu webu. Přesto spousta majitelů webů a e-shopů tuhle oblast opomíjí a spoléhá na to, že Google si cestu prostě najde. Jenže Google necrawluje vše, co na web nahrajete, a z toho, co crawluje, ne vše indexuje. Mezera mezi tím, co máte zveřejněné, a tím, co vyhledávač skutečně ukazuje uživatelům, dokáže spolehlivě pohřbít i solidně napsaný obsah. Kde tato mezera vzniká a jak ji rychle odhalit?
Crawlování a indexace nejsou totéž
Hodně lidí tyto dva pojmy zaměňuje, což vede k tomu, že hledají příčinu problému na špatném místě. Crawlování je proces, při kterém Googlebot prochází web a stahuje obsah stránek. Indexace je pak rozhodnutí, zda konkrétní stránku zařadit do databáze, ze které se sestavují výsledky vyhledávání.
Stránka tedy projde crawlerem, ale přesto se do indexu nedostane. Důvodů je celá řada. Google může vyhodnotit obsah jako příliš tenký, duplicitní nebo nenaplňující kvalitativní nároky. Technické direktívy mu mohou výslovně zakázat stránku indexovat. Jindy zkrátka vyhledávač narazí na signály, které ho odradí od zařazení stránky mezi výsledky.
Co se děje ve vyhledávači před tím, než se stránka zobrazí
Zjednodušeně řečeno Google pracuje ve třech fázích. Nejprve stránku objeví (discovery), pak ji crawluje a nakonec rozhodne o indexaci. Na každé z těchto fází se dá celý proces zaseknout. Stránka bez interních odkazů se nemusí nikdy dostat do crawl fronty. Stránka s direktivou noindex se crawluje, ale indexována nebude. A stránka s tenkým obsahem se do indexu buď nedostane vůbec, nebo ji Google kdykoliv vyhodí zpátky.
Nejčastější příčiny vyloučení z indexu
Direktiva noindex
Noindex je nejpřímočařejší způsob, jak stránku z indexu vyřadit. Direktiva se zadává buď jako meta tag v hlavičce HTML (<meta name=“robots“ content=“noindex“>), nebo prostřednictvím HTTP hlavičky. Problém nastává tehdy, když tato direktiva zůstane na stránce omylem, typicky po migraci webu, přechodu na nový CMS nebo při aktivaci šablony, která měla noindex jako výchozí nastavení testovacího prostředí.
Výsledek je nenápadný, ale bolestný. Stránka na webu existuje, uživatelé ji mohou navštívit přes přímý odkaz, ale ve výsledcích vyhledávání ji nikdo nenajde. Bez pravidelné kontroly se na takovýto problém přijde třeba až po měsících.
Canonical URL a kam míří
Canonical tag říká Googlu, která verze stránky je ta „pravá“ a která je jen varianta. Smysluplně využívá se například u filtrů v e-shopech nebo u stránek dostupných na více adresách. Jenže canonical nasměrovaný na špatnou URL způsobí, že Google ignoruje celé skupiny stránek a indexuje místo nich jinou verzi, nebo neindexuje nic.
Zvlášť záludné jsou situace, kdy canonical odkazuje na stránku, která sama o sobě není indexovatelná, případně na URL s drobnou odchylkou (www vs. non-www, http vs. https, lomítko na konci vs. bez lomítka). Laikům tyto detaily snadno unikají a systematická kontrola je v podstatě nutností.
Soft 404 a tenký obsah
Tvrdý 404 vrací HTTP status 404 a Google stránku přestane crawlovat. Soft 404 je horší případ. Stránka vrací status 200 (vše v pořádku), ale její obsah dává najevo, že reálně nic neexistuje. Prázdné výsledky filtrů, stránky kategorií bez produktů, placeholdery bez textu. Google tyto stránky buď neindexuje, nebo je z indexu postupně vytlačí.
Tenký obsah je pak příbuzný problém. Stránka existuje, má text, ale ten je tak stručný, obecný nebo duplicitní ve vztahu k jiné URL na stejném webu, že Googlu nepřijde hodná indexace. U e-shopů se to typicky týká stránek značek, tagů a parametrických URL. U blogů pak krátkých příspěvků, které nikomu nic nového neříkají.
Hreflang a mezinárodní weby
Vícejazyčné weby přidávají ještě jednu vrstvu složitosti. Nesprávně implementovaný hreflang může způsobit, že Google indexuje jen jednu jazykovou mutaci, ignoruje zbývající verze, případně si vybere k indexaci jinou verzi, než kterou provozovatel webu zamýšlel. Chybějící x-default tag nebo odkaz na neexistující URL jsou nejčastější příčiny těchto problémů.
Jak indexaci rychle zkontrolovat
Pro rychlou orientaci, co Google vidí a co ne, poslouží několik přístupů. Google Search Console nabízí přehled vyloučených stránek včetně konkrétního důvodu vyloučení. Ručně si indexaci konkrétní URL ověříte operátorem site: přímo ve vyhledávači.
Pro automatizovaný přehled na úrovni celé stránky nebo pro rychlý pre-audit bez přístupu do GSC konkrétního webu funguje online kontrola indexovatelnosti. Nástroj kontrola indexace SEOtest.online prochází canonical URL, direktivy robots, noindex/nofollow atributy a validitu hreflang tagů. Výsledek dostanete bez registrace a přihlašování, což se hodí zejména tehdy, kdy potřebujete rychle posoudit stav cizího webu.
Indexace je průběžný proces
Stránka, která je dnes v indexu, tam nemusí být za půl roku. Google průběžně přehodnocuje kvalitu obsahu a při větších aktualizacích algoritmů z indexu vytlačuje stránky, které přestaly splňovat jeho nároky. Nové stránky se do indexu nedostanou vůbec, pokud jim nepomohou interní odkazy z již indexovaných částí webu.
Pravidelná kontrola indexovatelnosti proto dává smysl nejen po spuštění webu nebo migraci, ale i jako součást běžné správy. Ztráta viditelnosti konkrétní stránky ve výsledcích vyhledávání bývá prvním signálem, který se vyplatí zachytit dřív, než přeroste ve viditelný propad návštěvnosti.




