Vizualizace interního prolinkování webu pomocí nástroje Gephi

Gephi. Zdroj: Flickr.com, gephi_org

Hledat souvislosti v tabulce s tisíci řádky není zrovna moc jednoduchá, rychlá ani efektivní práce. Naštěstí existuje způsob, jak ušetřit spoustu času a ještě vytvořit profesionálně vypadající grafy do analýz a reportů pro klienty. Tabulku s interními URL je totiž možné přetvořit do jednoduché infografiky. Vytvořit vizualizaci interního prolinkování webu není nic složitého. Krom času na začátku to nebude to stát nic navíc. A pokud máte, stejně jako já, vášeň pro linkbuilding, odkazy a sítě, tak vás to bude i bavit.

Existuje několik důvodů, proč vizualizace interního prolinkování dělat.

1) Vypadá to dobře a profesionálně v analýzách a reportech. Hromada textu, byť kvalitního, je pořád jen hromada textu. Tak to prostě je. Grafický prvek textový dokument obohatí a dá tomu něco navíc.

2) Nahradí tabulky. V mnoha případech jen natahují text a málokdo z nich má skutečně užitek. Exportovaná tabulka z libovolného nástroje nemá žádnou přidanou hodnotu. Místo několika stránek tabulek, můžu vložit jeden až dva dobře okomentované grafy, kde je na první pohled vidět to stejné, co by klient v tabulce hledal několik hodin. (Pochopitelně tu nechci rozvádět nějakou debatu o tabulkách. Není možné se bez nich obejít. Vždy ale nejsou nutné. A dost často nejsou pro klienta ani příliš k užitku.)

3) Vizualizace mi umožní rychle identifikovat problém nebo potvrdit domněnku. Hypotézu, že na webu jsou duplicity, si můžu ověřit celkem rychle manuálně na analyzovaném webu, ale jsou i takové duplicity, na které není snadné přijít a často může pomoci právě vizuální vodítko.

4) V řádu několika minut najdu slabé a silné body na analyzovaném webu. Jaké jsou nejlépe prolinkované stránky? Které stránky jsou nejhůře prolinkované? Kde je potenciál pro zlepšení rychlosti webu? Je možné se ze stránky A dostat na stránku B? Pokud ano, na kolik kliknutí? Odpovědi na tyto otázky bych si buď pracně “vyklikával” na webu nebo lovil v tabulkách. Graficky si je se správným nástrojem zobrazím za pár vteřin.

5) Je to příležitost dělat něco jinak, lépe a podílet se na inovaci oboru. Analýza a správa interního prolinkování webu je podle mě jedna z nejopomíjenějších linkbuildingových taktik v domnění, že to patří pod SEO. A přitom interní odkazy patří mezi ty nejspolehlivější a nejlépe ovlivnitelné proměnné v pomyslné linkbuldingové rovnici.

6) Vizualizace je způsob, jak vcelku nezáživné “tabulkové” téma jednoduše vysvětlit i lidem z managementu, kteří o oboru nic neví a pro nás z toho udělat užitečnou zábavu.

Klasický linkbuilding a “nasazování” odkazů je podle mě passé. Jako linkbuildeři dnes budujeme vztahy, pomáháme připravovat obsahové strategie a analyzujeme konkurenci. Ještě navíc k tomu všemu jsem se rozhodl rozvíjet koncepci data driven linkbuildingu. Linkbuildingu založeného na nástrojích a technikách datové analytiky. Málokdo z našeho oboru je využívá. Přitom skýtají obrovské možnosti a potenciál. Jeden takový nástroj představím právě v tomto článku.

Užitečné informace a odkazy

Pokud si také chcete vyzkoušet postup, který v tomto článku popisuji, budete potřebovat dva programy. První je crawlovací software Xenu’s Link Sleuth. Myslím, že není nutné ho nijak dlouze představovat, protože všichni linkbuildeři a SEO speacialisté by s ním měli být dobře obeznámeni.

Stáhnout Xenu: http://home.snafu.de/tilman/xenulink.html

Opravdu vhodná alternativa, pro postup uvedený v tomto článku, v této chvíli neexistuje. Zcela určitě jí není SEO Toolkit od Microsoftu. Všeobecně populární Screaming Frog by se mohl časem stát dobrou náhradou. Práce se Screaming Frog a Gephi je však momentálně trošku složitější a proto se této oblasti budu věnovat v nějakém jiném článku.

Druhý program je Gephi, který slouží pro analýzu a modelování různých typů grafů, sítí a komplexních systémů. Někteří z vás s Gephi možná pracují, ale předpokládám, že většina čtenářů s tímto nástrojem nemá zkušenosti.

Stáhnout Gephi: http://gephi.github.io/

Ještě pár informací, než se pustíme do samotného zpracování vizualizace. Pokud máte na svém počítači instalovanou Java 8, pak se vám Gephi bohužel nepodaří spustit a program bude padat. Nejjednodušeji se dá vyřešit odinstalací Java 8 a instalací Java 7. Pěkný postup, jen o něco málo složitější, napsala na svém blogu také Lenka Krsová – Jak spustit Gephi 0.8.2 na Windows 8.1 (64bit).

Gephi doporučuji nainstalovat v angličtině, český překlad je velice nekvalitní!

Stáhnout Java 7: http://www.oracle.com/technetwork/java/javase/downloads/jre7-downloads-1880261.html

Důležitý bude i výběr webu, se kterým chcete zkusit pracovat. Osobně doporučuji spíše menší web do 5000 URL. Gephi si poradí s opravdu velkými datasety, většina počítačů však ne. Obecně pro Gephi i Xenu platí, čím více RAM, tím lépe.

Zdroje, které Gephi využívá je možné navýšit, pomocí tohoto návodu: http://gephi.github.io/users/install/#memory. A poslední informace. Pokud budete s Gephi využívat více než 1,5GB paměti, pak budete potřebovat 64bitovou verzi Javy.

Získání dat z Xenu

Nejdřív je nutné získat dataset, který zpracujeme v Gephi. Pro účely tohoto článku jsem si vybral web dpmb.cz (Dopravní podnik města Brna). Myslím, že poslouží jako velmi pěkný modelový příklad. Vlastně jen těžko by se mi podařilo najít nějaký lepší web. Na tento se totiž konalo, výběrové řízení z pekla. A věřte, že web je opravdu řádně pekelný.

Webové stránky nechám procrawlovat. Na webu je necelých 1200 URL. Po doběhnutí doporučuji crawl uložit pro zálohu do souboru v nativním formátu .xen. A při ukládání si můžete v menu všimnout další možnosti – “Export to GraphViz File”. To je přesně další a zároveň i poslední krok práce s Xenu.

Gephi

(Export z Xenu do GraphViz.)

Krátká odbočka pro zájemce. GraphViz je název software pro vizualizaci grafů s nativním formátem souborů .gv. Prostředí software a celková user experience ovšem není vhodná pro běžné smrtelníky. Rozhodně se nehodí pro vizualizaci odkazových profilů. Pro úplnost však uvádím odkaz na oficiální web GraphViz.

Nastavení Gephi a import souboru

Po spuštění Gephi v úvodním okně vyberte “Nový projekt -> Otevřít soubor” grafu a vyberte soubor s příponou .gv, který jste si exportovali z Xenu.

Otevře se okno pro nastavení importu vybraného záznamu. S klidným srdcem můžete ponechat veškeré defaultní nastavení a odkliknout “OK”. Pokud chcete mít opravdu vše pod kontrolou, tak krátce a stručně popíši zobrazené možnosti.

Nelekejte se mixu angličtiny a podivné češtiny na tomto screenshotu i několika dalších. Gephi se mi automaticky nainstalovalo s tímto skvělým přednastavením a nedaří se mi to opravit.

Gephi

(Import záznamu v Gephi.)

Typ grafu (1) by měl být “Directed” čili “orientovaný”. Tak se označují grafy, u kterých je možné určit výchozí a koncový uzel (URL) a hrana (spojnice mezi uzly) je orientována od počátečního uzlu ke koncovému. Představit si to můžete třeba jako šipku vedoucí z bodu A do bodu B. Stejně tak funguje i odkaz. Vede z jedné stránky na druhou. Proto orientovaných graf.

“Auto-přizpůsobit” (2) optimalizuje rozložení grafu a doporučuji pro jistotu ponechat zaškrtnuté, ale žádné zásadní změny jsem u grafů interního prolinkování nikdy nepozoroval.

Volbu “Vytvořit chybějící uzly” (3) pro jistotu odškrtávám. Stejně jako v předchozím případě jsem si však nevšiml nějaké změny. Xenu při exportu do GraphViz souboru totiž nekompletní či chybějící uzly i jejich hrany (404 Errors) úplně vynechává a Gephi tak nemá žádné reference, na základě kterých by bylo možné chybějící uzly vytvořit.

Modifikace dat a algoritmy rozložení

Konečně jsme se dopracovali do části, kde začíná zábava. I když ten nevzhledný šedý cluster hran a uzlů, který teď vidíte, moc zábavně nevypadá.

Gephi

(Základní cluster uzlů a hran před modifikací a nabídka rozložení.)

Z tohoto shluku se nedá nic vypozorovat. Proto je nutné nejdříve spustit algoritmus, který upraví rozložení uzlů. Jako první vyzkoušíme Force Atlas (uzly se odpuzují a hrany se chovají podobně jako pružiny přitahující uzly k sobě). Z nabídky “Rozložení” v levém spodním panelu “Rozložení” vyberte z drop down menu “Force Atlas” a klikněte na tlačítko “Spustit”. Až bude docházet jen k drobnému pobyhu uzlů bez větších změn, klikněte na “Zastavit”.

Pokud nepozorujete žádné změny nebo se uzly pohybují příliš pomalu, vybrali jste si příliš velký dataset a doporučuji udělat nový crawl nějakého menšího webu.

Gephi

(Vlevo rozložení Force Atlas, vpravo Fruchterman Reingold.)

Gephi

 

 

S Force Atlas 2 získáte prakticky totožný výsledek, hlavní rozdíl je především v působení sil na uzly.

Poslední algoritmus, který vyzkoušíme, je Fruchterman Reingold. Uzly rozloží do grafu v podstatě do soustředných kruhů na základě relativních vzdáleností provázaných uzlů. Změna, kterou budete ve většině případů pozorovat, je spíše “kosmetická”. Základní struktura se totiž obvykle příliš nemění. Jak je vidět na obrázku nahoře, u obou grafů je stejná struktura ve středu grafu.

V této chvíli již máme trošku přehled, co se na webu děje. Jsou vidět nějaké důležité clustery uzlů, vzory a okrajové soubory. Teď se podíváme, co se s tím dá dělat dál.

Základní funkce a nástroje v Gephi

Gephi má mnoho možností a funkcí. V této kapitole se budeme věnovat jen nástrojům, které se nachází po okrajích plochy s grafem, jako součást centrálního panelu “Graf”.

Graf, který teď vidíte, vypadá oproti obdobnému grafu v předchozí kapitole čistěji. Má méně okrajových uzlů. Pro větší přehlednost screenshotů jsem si zapnul filtraci uzlů. Tato funkce bude ukázaná ke konci článku a zatím se s ní nemusíte zatěžovat.

image07

 

Nebudu rozhodně popisovat všechny nástroje, jen takový rychlý výběr. Svisle vlevo nahoře jsou funkce pro výběr (jednotlivé uzly, mnohonásobný výběr, informace o uzlu…) z nichž tři zajímavé jsou popsané níže. Svisle vlevo dole se nachází nástroje pro reset (vycentrování grafu, reset barev, reset velikosti štítků…). Spodní lišta obsahuje nástroje pro zobrazení (screenshot, zobrazení štítků, hran…).

Gephi

(Funkce “cesta”.)

Funkce “cesta” schovaná pod ikonou letadla (1) mi umožní vybrat dva body a zjistit zda jsou vzájemně propojené a jaká je mezi nimi nejkratší cesta (červená linka na grafu). Pokud chcete udělat graf přehlednější je možné zobrazit panel (2) s dalším nastavením zobrazení prvků grafu. Můžete měnit velikosti popisných štítků, zobrazení pouze vybraných štítků, barvu hran a další.

Gephi

(Funkce “heatmapa”.)

Funkce schovaná pod ikonou soustředných kruhů (1) je heatmapa založená na vzdálenostích/propojení uzlů. Vybraný výchozí uzel má sytě čevenou barvu (dodatečně ještě zvětšený a dobarvený), jeho nejbližší okolí oranžovou, vzdálenější uzly jsou čím dál více bledé. Nepropojené uzly zůstaly šedé. Na horní liště (2) jsou dostupné další volby pro tuto funkci.

Gephi

(Zobrazení informací o vybraném uzlu.)

Poslední hodně užitečný nástroj je kurzor s otazníkem (1), který zobrazí informace o vybraném uzlu v horní levé části obrazovky na novém panelu (2) “Upravit”.

Základ jste zvládli! Tak se pojďme podívat na pokročilejší a zajímavější funkce.

Pokročilé funkce a filtrace

V této fázi se dostáváme k těm nejdůležitějším funkcním, které považuji pro práci s datasety interního prolinkování webu za zásadní a nepostradatelné.

Gephi

(Práce s uzly na základě vybraných parametrů.)

 

 

 

 

Vlevo nahoře, na panelu “Hodnocení” (1), vyberu záložku “Uzly” (2), selektor barev (4) a v drop down menu (3) “Zvolit parametr hodnocení” zvolím “StupeňDovnitř” (v anglické verzi “DegreeIn”). Díky tomu se mi formou podobnou heatmapě zvýrazí uzly, na které vede nejvíce interních odkazů.

Gephi

(Na sytě červené uzly vede nejvíce odkazů, na béžové nejméně.)

Sytě červené uzly ve středu jsou tedy pravděpodobně základní struktura webu. Tyto uzly by měly zároveň patřit k těm, z nichž také vede nejvíc odkazů na podstránky. To v příštím kroku zobrazíme pomocí velikosti uzlů.

Gephi

(Z velkých uzlů vede nejvíce dalších odkazů, z malých nejméně.)

Vlevo nahoře vyberu na panelu “Hodnocení” záložku “Uzly”, selektor velikosti (1) a v drop down menu “Zvolit parametr hodnocení” zvolím (2) “StupeňVen (v anglické verzi “DegreeOut”). Díky tomu se zvětší uzly, ze kterých vede nejvíce interních odkazů.

V této chvíli už vidím, že je někde problém. Centrální struktura je sice nejodkazovanější ale prakticky skoro nikam neodkazuje. A tři větve, které z ní vybíhají, jsou si až moc nápadně podobné. To obvykle ukazuje na duplicity. Zruším fitraci okrajových uzlů, abych viděl vše (viz zmínka o filtraci na začátku této kapitoly). A zaměřím se na další podobné clustery.

Gephi

(Zvýrazení pravděpodobných duplicit.)

Celkem rychle se dají najít tři uzly, jeden v každém ze tří velkých clusterů, ze kterých vybíhají praktiky totožně vypadající struktury. Uzly si zvlášť obarvím a označím zeleně. Dále zvýrazním zobrazení štítků a díky zobrazený URL už vím, že se skutečně jedná o duplicity.

Web DPMB jsem vybral záměrně ze dvou důvodů. Za prvé má duplicity. A za druhé má totiž ještě mnohem více duplicit. Určitě napiště do komentářů pokud se vám podaří je najít! A mimo to mám DPMB moc rád, ale o tom třeba jindy. Zpět k duplicitám.

To, co vidíte v grafu (3 duplicitní sekce), jsou pouze interně prolinkované stránky. Další typy duplicitních URL, ale nejsou nijak prolinkované. V grafu nejsou vidět a s velkou pravděpodobností je lze najít pouze manuálně na webu. Stejně tak v grafu nejsou vidět jazykové mutace, které jsou načítány přes javascript. Jak jsem psal na začátku, web z pekla.

Zvládli jste nejdůležitější část! Blížíme se do finále a už nás v krátkosti čekají jen filtrace.

Filtrace a statistiky

V minulé kapitole jsem dvakrát zmínil filtrace. Ty vám nyní v ukážu, společně s dalšími funkcemi Gephi. Tohle je nejsložitější část článku i postupu v Gephi. Pokud se zatím moc nechytáte, tak doporučuji tuto kapitolu přeskočit a vrátit se k ní o něco později, až budete chápat základní a mírně pokročilé funkce Gephi.

Gephi

(Statistika modularity.)

Na obrazovce úplně napravo je panel (1) “Statistiky”. Z nabídky vyberu (2) “Modularita” a kliknu na “Spustit”. Po té, co Gephi provede výpočet (modularita je míra strukturovanosti grafu či sítě, která měří jejich sílu a diverzitu), se přesunu na levou stranu obrazovky. Přímo do panelu (3-4) “Oddíl” a “Uzly” (neplést si s vizuálně prakticky totožným panelem “Hodnocení”!). Z drop down menu, které bylo ještě před propočtením modularity úplně prázdné, vyberu novou volbu (5) “Modularity Class”. Zobrazí se oddíly na webu, rozdělené na základě modularity, a jejich procentuální zastoupení. Kliknu na (6) “Spustit” a všechny uzly se obarví podle toho, do jakého oddílu patří. Vhodné pro odlišení různých sekcí na webu.

V nabídce “Statistika” je několik dalších možností. Například “Průměrná délka cesty” je zajímavý údaj, který vám může napovědět hodně o tom, jak komplikovaná může být navigace na vašem webu.

A jdeme na slíbené filtrace.

Gephi

(Filtrace uzlů na základě odchozích odkazů.)

Filtrace je možné nalézt na obrazovce vpravo, pod záložkou (1) “Filtrace”. Vyberu složku (2) “Topologie” a filtr (3) “Rozsah stupně veň”. Filtr přetáhnu do panelu dole (5). Zapnu (4) “Filtr”. A posuvníkem na panelu (5) zvolím míru filtrace. V této chvíli jsem na odfiltroval uzly/URL, ze kterých vede málo odkazů. Díky tomu jsem se zbavil externích outbound odkazů, css souborů, obrázků a hluboko zanořených stránek. Zmizela také prakticky celá centrální struktura, kterou jsem původně považoval za hlavní a nejdůležitější.

Filtrů je celá řada a dají se různě kombinovat. Osobně je nepovažuji za nijak zvlášť důležité u menších webů a proto je ani moc nepoužívám. Ale zvláště u složitějších webů mohou přijít rozhodně vhod a spíš se bez nich nebude možné obejít.

Gratuluji, zvládli jste se dostat až na konec praktické části! Ještě vám ukážu vizualizaci dvou dalších webů, které považuji za zajímavé.

Příklady dalších odkazových vizualizací

Interpretovat správně vizualizaci interního prolinkování nemusí být vždy úplně snadné, proto v této kapitole uvádím dva zajímavé příklady, na které jsem natrefil.

Spam profil

Gephi

Gephi

(Srovnání hlavní struktury interního prolinkování a externích outbound linků.)

 

 

 

 

 

 

 

 

 

 

 

Grafy, které vidíte, pochází z jednoho menšího eshopu. Byl modelovaný pomocí algoritmu Fruchterman Reingold a obarvený na základě modularity. Graf vlevo je filtrovaný na interní linky. Střed je základní struktura webu (homepage a hlavní kategorie eshopu). Odbíhající různobarevné větve pak hlouběji zanořené stránky jednotlivých kategorií eshopu. Doporučuji si všimnout zdvojení těchto větví. To naznačuje duplicity. V tomto případě konkrétně interně prolinkované varianty URL s lomítkem na konci a bez lomítka. Zdvojená je i centrální část (uzly ve dvou odstínech zelené uprostřed).

Rozšířená varianta grafu (vpravo) ukazuje ještě další uzly po okrajích. V tomto případě několik produktů (téměř stopové množství) a neuvěřitelné množství externích outbound odkazů. Web pochází z doby, kdy se praktikovala výměna odkazů ve velice hojné míře. Normální eshop by rozhodně neměl odkazovat na tolik externích webů.

Špatně prolinkovaný web

 

image03

Gephi

(Vlevo srovnání in/out linků. Vpravo zbarvení clusterů dle modularity class.)

 

 

 

 

 

 

 

 

Co vidíte na obrázku je informační web. Opět vizualizovaný pomocí algoritmu Fruchterman Reingold. Největším problémem je nedostatečné interní prolinkování.

Zaměřte pozornost do středu grafu vlevo, kde se nachází sytě červené uzly – sitewide odkazy. Velikost uzlů označuje množství odchozích odkazů. Intenzita barvy množství příchozích odkazů. Malé uzly jsou sociální sítě, css, obrázky a měřící kódy, které směřují mimo hlavní doménu. Větší uzly jsou 3 hlavní kategorie/stránky webu. Ale žádný uzel nevypadá, ani se nechová, jako homepage. Je to tím, že web žádnou homepage nemá.

O něco lépe je to vidět na částečně vyfiltrovaném grafu vpravo, kde jsou znázorněny 3 téměř samostatné a minimálně provázené sekce webu. Sekce se liší množstvím dalšího navázaného obsahu. Obsahově nejsilnější je modrá sekce.

Závěrem

Ukázky v tomto článku jsou jen začátek. Záměrně jsem vynechal a nepopisoval některé funkce, které by zbytečně odváděly pozornost od základů. Gephi je velice sofistikovaný a komplexní nástroj, se kterým se dají dělat doslova divy. Limity jsou jen vaše odhodlání, kreativita a bohužel výpočetní výkon počítače, na kterém pracujete. Zvláště poslední bod je příčinou, proč se Gephi nedá zrovna moc dobře používat na větší weby (10000 a více URL).

Pokud se rozhodnete k zásadnímu kroku vstříc data driven linkbuildingu, tak rozhodně nebudete litovat. Obohatíte svoji práci něčím nevšedním. Třeba i v některých případech dáte sbohem tabulkám a nahradíte je vizualizacemi odkazových struktur. Dáte své práci nějakou přidanou hodnotu. A budete umět něco, co zatím dělá jen velmi málo lidí. Reporty, které vytvoříte, budou sexy. Věřím, že ohromí a zaujmou nejen klienty, ale i vašeho šéfa.

Za předpokladu, že vás práce s Gephi zaujala, doporučuji zkusit analyzovat další weby. Testujte postupně a systematicky všechny funkce a filtrace, abyste zjistili, jak fungují. Ve vizualizacích hledejte opakující se vzorce a anomálie. Určitě můžu i doporučit si ze začátku analyzovaný web důkladně proklikat, abyste věděli, co následně hledat ve vizualizaci. Urychlí to vaši příští práci.

Na YouTube je možné nalézt několik videí k práci v tomto software. Stačí chvíli hledat. A pokud chcete s Gephi pracovat více, tak bych vám osobně doporučil knihu Network Graph Analysis and Visualization with Gephi.

Doufám, že vás článek zaujal a těším se na vaše dotazy a komentáře. Rád vám odpovím a případně i poskytnu pomoc.

Diskuze k článku

  • http://www.silawebu.cz/ Filip Novák

    Naprosto krásný článek, jsem moc rád, že jste to Zdenku napsal. Je to moc dobré. Sám v Gephi trochu stále bloudím a hledám použití. Tohle mě posunulo. Díky!

    • http://me.chaoticum.cz/ Zdeněk Nešpor

      Filipe, mám radost, že to pro Vás bylo užitečné. Tématu se budu věnovat i nadále. O dalším využití Gephi budu mluvit příští týden na konferenci SEO restart ( http://www.seorestart.cz/ ) a rozhodně časem budou i další články. V případě nějakých dotazů, ohledně práce s odkazy v Gephi, mi můžete klidně napsat na nespor@medio.cz. :)

      • http://www.silawebu.cz/ Filip Novák

        Už jsem napsal :) těžce se mi Gephi zasekl na mega projektu :D