Jak rychle a efektivně najít duplicitní obsah na webu

3

Duplicitní obsah na svém webu měl téměř každý klient, kterému jsem pomáhal se SEO. Všichni víme, že duplicity jsou špatné a musí se odstranit. Méně známé ale už je, jak všechny duplicity najít a srozumitelně je prezentovat klientovi a programátorům, aby bylo jejich odstranění bezproblémové a rychlé.

Viděl jsem bohužel už i SEO analýzy, ve kterých bylo uvedeno: „Na webu se nachází duplicitní obsah. Odstraňte ho.“ Nádherné doporučení, které samo o sobě má nulovou přidanou hodnotu pro klienta. Osobně bych nic takového klientovi nikdy neposlal.

Naopak to dělám tak, že ukazuji konkrétní příklady – na této části webu jsou takové duplicity, které jsou způsobeny kvůli XYZ. A navrhuji konkrétní řešení – přesměrujete všechny URL s tímto parametrem na URL bez parametru, u tohoto parametru nastavte rel=canonical na URL s tímto parametrem apod.

Poznámka: Definici toho, co je duplicitní obsah, se tento článek nevěnuje. O tom už psal například Marek Prokop nebo Dušan Janovský. Případně se podívejte do nápovědy Googlu, kde jsou uvedeny i způsoby odstranění duplicitního obsahu.

Programátor poté může sednout ke klávesnici a začít bušit kód a přemýšlet jen nad tím jak to udělat a ne co má udělat.

To je fajn přístup, ne? V posledních pár měsících hodně pracuji s junior SEO konzultanty a snažím se jim předat co nejvíce informací a motivovat je, aby byli lepší než já. Když jsem se snažil najít nějaký návod, který by popisoval, jak na webu najít co nejvíce duplicit, nic rozumného jsem nenašel.

A tak místo toho, abych na firemní Wiki vytvořil stránku s návodem, která bude pouze pro omezený počet lidí ve firmě, rozhodl jsem se vše dát k dispozici veřejně. V komentářích si poté rád poslechnu, jak můžeme proces ještě vylepšit.

Teď si pojďme představit jednotlivé nástroje a postupy, jak je standardně používám.

Search Console (Google Webmaster Tools)

Google Search Console je úžasný nástroj, který vám pomůže odhalit velké množství duplicit. Ale pouze takových, kam se už dostal crawler Googlu. Pokud tedy máte hodně nový web nebo jste nedávno zásadně měnili strukturu webu, nemusíte zde najít všechny duplicity.

Použít se dají dva nástroje/reporty – Vylepšení kódu HTML a Parametry adres URL.

Vylepšení kódu HTML

Report Vylepšení kódu HTML vám zobrazí duplicitní a chybějící HTML tagy title a meta description. Toho můžeme využít, protože duplicitní stránky mají často duplicitní právě i titulek. Méně už meta description (ten bývá často duplicitní i záměrně, i když to není ideální – každá stránka by měla mít popisek unikátní i za cenu toho, že bude připraven parametricky a bude se v něm měnit pouze pár částí a slov).

Report v základu vypadá následovně:

1

Když se proklikneme přes odkaz „Duplicitní značky <title>“, zobrazí se už konkrétní URL adresy. Ty můžete vyexportovat buď jako CSV nebo Google tabulku.

2

Seznam URL adres se exportuje ve tvaru URL | URL. Takže se vše uloží do jedné buňky tabulky a s exportem se nedá nějak rozumně pracovat. Je tedy nutné URL upravit tak, aby byla jedna URL v jedné buňce.

Pro mě je nejjednodušší způsob zkopírovat si seznam URL adres do textového editoru Sublime Text a použít zde funkci nahrazení, kdy nahradím výskyt „ | „ za tabulátor. Ten zajistí, že při zpětném zkopírování do tabulky (Excelu nebo Google tabulky) se už URL uloží samostatně do buněk.

3

Další možností je použití funkce „Text to columns“ v Excelu:

4

Případně sami určitě přijdete na další možnosti, například v Open Refine apod.

Když už máme seznam URL v rozumnějším formátu, můžeme zkoumat, jestli duplicitní titulek znamená i duplicitní obsah (to už je manuální práce a kontrola). Pokud ano, musíme duplicity vyřešit. Pokud ne, musíme upravit titulky, aby každá stránka měla titulek unikátní.

Parametry adres URL

V tomto reportu Google ukazuje všechny URL parametry, na které při procházení webu narazil. Právě URL parametry často způsobují duplicitní nebo podobný obsah. Klasicky jde o:

  • řazení produktů, článků, … na stránce,
  • stránkování obsahu – se stránkovaným obsahem se musí zacházet jinak než s duplicitami, viz například tento článek nebo tato prezentace,
  • parametr se session ID (ano, pořád se na některých webech vyskytuje),
  • parametry, které slouží k měření prokliků bannerů apod., ale nemění obsah,
  • utm_ parametry pro měření v Google Analytics (ano, i ty způsobují duplicity a za určitých případů je mohou vyhledávače zaindexovat, což si určitě nepřejete),
  • parametry pro uchování klíčového slova v interním vyhledávání.

Zpět k reportu Parametry adres URL v Search Console – vypadá nějak takto:

5

Osobně považuji tento report za jeden z nejužitečnějších v Search Console. Naším úkolem je manuálně projít všechny parametry (opravdu všechny, zde se nevyplácí být líný), podívat se na pár ukázkových URL adres a rozhodnout, jestli daný parametr způsobuje duplicity nebo ne.

K ukázkovým URL adresám s daným parametrem se dostanete kliknutím na odkaz „Upravit“ a následně „Zobrazit příklady URL adres“.

6

Standardně postupuji tak, že příklady URL projdu v prohlížeči a rozhodnu se, zda jde o duplicity. Pokud ano, navrhnu řešení a zapíšu do reportu. V případě potřeby si dohledám další URL adresy ve vyhledávačích pomocí parametrů site: a inurl:. Například site:domena.cz inurl:parametr.

Poznámka: V Search console jde nastavit, jak má Google s jednotlivými parametry pracovat. Tím lze duplicity do jisté míry vyřešit. Ale stále zde máme Seznam.cz, pro který je nutné duplicity řešit jinak (rel=canonical, noindex, přesměrování…). Při definování práce s parametry v Search Console si ale dejte pozor – můžete svému webu více uškodit než pomoci. V této souvislosti doporučuji pročíst článek od Alana Bleiweisse.

URL parametrů v reportu může být poměrně hodně (zejména u rozsáhlých webů) a kontrola zabere hodně času. Zde se ale opravdu nevyplatí šetřit čas.

Plusy:

+ Dostanete se ke všem parametrům URL adres. I k takovým, na které odkazují externí weby, ale nevedou interní odkazy.

+ Máte přehled o tom, jak web vnímá Google a co je potřeba vylepšit.

Mínusy:

– K duplicitám se dostanete až poté, co web projde robot Googlu. V případě nových a připravovaných webů tedy Search Console není použitelný.

Screaming Frog

Screaming Frog umožňuje proskenovat všechny dokumenty webu, na které vede alespoň jeden zpětný odkaz. V reportu s titulky stránek je poté možné vyfiltrovat ty, které jsou v rámci nalezených stránek duplicitní.

7

Opět tedy máme k dispozici seznam URL adres, které je potřeba projít a zjistit kde, jak a proč duplicity vznikají. Následně vymyslet, jak je odstranit a zadat k vyřešení.

Nalezené duplicitní stránky opět zapisuji do reportu. Nevytvářím více reportů z každého nástroje.

Tip: Na Windows můžete použít podobný program Xenu.

Plusy:

+ Web můžete proskenovat kdykoli – i v případě, když je na testovacím serveru.

+ Aktuální data jsou k dispozici okamžitě po dokončení skenu.

Mínusy:

– Placený od 500 URL

– Procházení velkých webů (statisíce URL a více) je problematické. V případě takových webů ale stačí proskenovat pouze část webu za předpokladu, že projdete všechny šablony.

– Nedostanete se k URL adresám, na které vedou pouze externí odkazy.

MOZ Analytics

MOZ Analytics je SEO nástrojem firmy MOZ, který u nás není příliš často používaný. Přesto je ale pro odhalování duplicit poměrně užitečný. Po přidání webu trvá pár hodin až dní, než robot váš web projde a vytvoří jednotlivé reporty.

Jakmile jsou hotovy, můžete procházet jednotlivé technické problémy na vašem webu. Nás zajímají duplicity, takže přejdeme do Crawl Diagnostics a pod High Priority vybereme Duplicate Page Content.

Poznámka: Všimněte si, že i MOZ řadí duplicitní obsah mezi problémy s nejvyšší prioritou. Máme tedy potvrzení od autority, že je nutné se duplicitám opravdu detailně věnovat.

8

Výhodou je, že MOZ Analytics sleduje vývoj technických chyb, a tím pádem i duplicit, v čase. Po úpravách se tedy můžete podívat, jestli duplicit ubývá, jak by mělo, nebo ne.

9

Níže je poté už report jednotlivých duplicit, který je možné stáhnout jako CSV a dále s ním pracovat – buď pro celý web dohromady, nebo pro jednotlivé stránky.

10

Export můžete následně zpracovat v Excelu, Google tabulkách nebo Open Refine. V jednom sloupci potom máme URL adresu a v dalším seznam URL, které MOZ Analytics odhalil jako duplicitní.

11

Tento report opět procházím manuálně, abych měl jistotu, že mi nástroj nedává false positive duplicity. Do reportu zapisuji pouze ty výskyty, kde si jsem jistý, že jde o duplicity.

Plusy:

+ MOZ zaznamenává historický vývoj počtu duplicit na webu.

+ Vidíte počet duplicit ke každé URL adrese.

+ Algoritmické rozpoznání duplicit.

Mínusy:

– Placený nástroj.

– Omezený počet URL, které MOZ Analytics umí projít v závislosti na zvoleném plánu.

Siteliner

Siteliner je online webová aplikace, která umí v reálném čase projít váš web a na základě algoritmu odhalit duplicitní obsah. Jednoduše zadáte doménu a necháte nástroj pracovat.

Report poté vypadá následovně. Můžete si jej opět stáhnout jako CSV soubor a dále s ním pracovat.

12

Opět report procházím manuálně a do reportu dávám jen jisté duplicity.

Plusy:

+ Pro menší weby zdarma.

+ Rychlá kontrola duplicit.

Mínusy:

– U větších webů si musíte zaplatit kredity, jinak se ke všem duplicitám nástroj nedostane.

Copyscape

Copyscape je také webová aplikace, která ale na rozdíl od Sitelineru hledá duplicitní obsah na dalších doménách. Můžete jej použít pro odhalení toho, jestli vám někdo nepřebírá obsah, neagreguje jej na svém webu apod.

Funguje na úrovni URL adresy – zadáte jednu URL a Copyscape vám zobrazí další adresy, kde se nachází textová shoda.

13

Plusy:

+ Dokáže odhalit duplicity i mimo váš web. Velice dobré v případě, že chcete zjistit, jestli někdo nepoužívá váš obsah bez dovolení.

Mínusy:

– Pro kontrolu více URL adres je nutné si pořídit premium (placenou) verzi.

 

Prezentujeme duplicity zodpovědným lidem

Klienta nebo programátory nezajímá, že jsme použil úžasný nástroj, který umí suprčupr reporty a má milion funkcí. Chtějí vědět kde je problém, proč to je problém a jak ho opravit.

To znamená ukázat reálné příklady na webu a navrhnout řešení. Ideálně více než jedno řešení. Může se totiž stát, že přesměrování přes HTTP 301 nepůjde z nějakého důvodu nastavit, nebo že programátoři nebudou schopni v rozumném čase nadefinovat kanonickou URL adresu.

Vždy je tedy nutné zvážit investovaný čas do úprav vs. přínosy a zvolit optimální variantu.

Výstup z celého postupu nalezení duplicit tedy může vypadat například následovně:

14

Po odeslání reportu programátorům se vždy ujistím, že mu rozumí a je jasné, co se má dělat. Následně je také důležité jednotlivé body ještě zkontrolovat a mít jistotu, že jsou duplicity odstraněny správně. Ne vždy se to povede na první pokus.

A jak řešíte odhalování duplicit vy? Chybí mi zde nějaký nástroj, nebo postup, který u vás slaví úspěch? Budu rád, když se podělíte v komentářích.

Diskuze k článku

  • Branislav Blesák

    Martine, aká je tvoja skúsenosť s vplyvom duplicít na organickú návštevnosť? Mali podstatný negatívny dopad, resp. pomohlo ich odstránenie podstatne zvýšiť návštevnosť?

    Btw, odkazovaný blog už neexistuje, ale dá sa pozrieť na https://web.archive.org/web/20141208233021/http://www.isoosi.com/blog/how-to-fix-common-advanced-seo-issues-part-2-url-parameters.html

    • Martin Šimko

      Zdravím Braňo,

      záleží, v jakém stavu web je. Pokud má více duplicit, tak jejich odstranění má vždy zásadní vliv na nárůst organické návštěvnosti. Toto se mi potvrzuje opakovaně u všech klientů, kde technické SEO a on-page řešíme. Je to jedna z prvních věcí, které je potřeba udělat.

      Můžete kouknout na tuto případovku, kde hraje duplicitní obsah výraznou roli http://robertnemec.com/pripadova-studie/seo-narust-organicke-navstevnosti-zvyseni-obratu/

      Děkuji za upozornění na nefunkční odkaz, opravíme.

  • http://danielg.cz/ Daniel Gottwald

    Výborný článek, díky. Pokud vám to nevadí, rád bych ho přidal jako rozšířený zdroj pro článek SEO audit webu: danielg.cz/seo-audit-webu-krok-za-krokem. V opačném případě odkaz smažu.