Weblogy CZ Weblogy CZ - Kdy blogujeme

Kdy blogujeme

Dušan Janovský mě přivedl na zajímavou myšlenku zjistit, v kolik hodin vlastně domácí bloggeři blogují.

Uvedení data a času publikování spotu (spot = krátký článek) je jednou z důležitých charakteristik weblogu jako takového. Je zajímavé zjistit, kdy jsou jednotlivé spoty publikované a na čem je čas publikování závislý.

Zdrojová data

Původně Dušan navrhl využít některý z RSS agregátorů. Jak jsem ale začal o námětu přemýšlet, dospěl jsem k názoru, že čím víc dat, tím lépe. Oslovil jsem tedy 3 největší domácí blog-servery:

Všichni tři pánové mi ochotně poskytli požadovaná data. Za to jim patří mé poděkování.

Ochrana osobních údajů

Možná jste se při čtení lekli, že jsem měl k dispozici všechna dostupná data ze zmíněných blogovacích systémů. Můžu vás uklidnit. Žádal jsem a dostal jsem vždy pouze prostý textový soubor, ve kterém byly jen časové údaje: datum a čas publikování jednotlivých spotů. Nic víc. Nemohl jsem tedy identifikovat blog, jeho vlastníka ani další údaje.

Rozsah hodnocených dat

Vyhodnocovaná data podle blogovacích serverů
Parametr Bloguje.cz Lidé.cz Pooh.cz
Počet dodaných záznamů 47 042 117 079 4216
Počet hodnocených záznamů 11 760 29 269 1054
První hodnocený záznam 1. 7. 2003 1. 7. 2003 1. 7. 2003
Poslední hodnocený záznam 13. 9. 2004 19. 9. 2004 6. 9. 2004

Počet dodaných dat byl obrovský. Pro zpracování v Excelu platí omezení na 65536 řádků na jednom listu. Abych si ulehčil práci, tak jsem z každého serveru použil každý 4. záznam ze souboru, který byl setříděn podle času vzestupně od nejstaršího. Vzhledem k pravidelnému rozložení dat mi to přišlo jako poměrně statisticky bezpečný způsob. Tak jsem získal 41 621 záznamů. Pokud není uvedeno jinak, tak jsem pracoval právě s tímto počtem záznamů.

Dodaná data také nebyla za úplně stejné období. Jako počátek (nejstarší použité datum) jsem určil datum 1. 7. 2003. Datum konce analyzovaného období připadl na 19. 9. 2004. To jsou data za téměř rok a čtvrt.

Metodika

  1. Z každého zdrojového textového souboru s údaji o datu a čase publikování spotu jsem nejprve přenesl každý 4. záznam do nového textového souboru.
  2. Takto získaný textový soubor jsem importoval do MS Excel.
  3. Na řádky jsem doplnil identifikaci blogovacího systému a doplnil vzorce pro určení roku, měsíce, dne, hodiny, víkendu a období letních prázdnin.
  4. Získaná data jsem analyzoval pomocí nástroje kontingenční tabulka.

Všechny údaje o počtu spotů (pokud není uvedeno jinak) představují poměrná čísla. Takže například 10 % u všech serverů neznamená, že na nich bylo publikováno stejné množství spotů (viz tabulka).

Důvěryhodnost časových údajů

Možná vás napadlo, jestli dodaný časový údaj je skutečně časem publikování spotu. Je téměř jisté, že tomu tak není ve všech případech. Blogovací systémy obecně umožňují změnit datum a čas publikování spotu. Myslím si ale, že většina blogujících tuto možnost nevyužívá. Proto je možné datum a čas považovat za reálný.

© 2004 Jiří Bureš

conVERTER | conBLOG | Mapa webu

TOPlist