Puffin prohledá disk

Už pár dní je známá informace, že Google asi rok připravuje pod kódovým názvem Puffin nástroj na vyhledávání informací na lokálním disku, síťových discích i internetu.

Vyhledávání, které je součástí MS Windows, je pro potřeby běžných uživatelů nedostatečné. Název souboru si pamatuje málokdo. O hvězdičkové konvenci neví skoro nikdo. Jaká je velikost souboru? Chachacha. Normální uživatel většinou potřebuje prohledávat wordovské a excelovské soubory. Dostupné pokročilejší nástroje na vyhledávání, které umí hledat text uvnitř souborů, neuspějí. Navíc jsou klasické prostředky velmi pomalé.

Naproti tomu Google (a jiné internetové vyhledávače) zvládají to, o čem se může desktopovým nástrojům jenom zdát. Jsou pekelně rychlé, umí prohledávat obsah mnhoha typů nejrozšířenějších souborů. Od prostých textových, přes (X)HTML, DOC, XLS, PPT, RTF až po PDF nebo PS. Navíc umí různé vyhledávací kejkle (vyhledávání přesného výrazu, výskytu slov v dokumentech, podobných slov atd.). Dokumenty umí řadit tak, aby byl výsledek vyhledávání co nejlepší pro uživatele. V připravovaném vyhledávači pro lokální disky od Google nebude pochopitelně možné nasadit všechny funkce známé z webu, ale i tak to může být velmi zajímavé.

Docela by mě zajímalo, jak nakonec bude Puffin pracovat. Je pravděpodobné, že bude postupně indexovat dokumenty na discích. Výsledky bude ukládat do vlastní databáze. Výsledky pak budou rychle dostupné uživateli. Indexace je časově náročná a tak je logické, že bude využita doba, kdy je počítač nevyužitý (při zapnutém šetřiči obrazovky, při neklepání do klávesnice a nejezdění myši apod.). Dovedu si také představit, že bude Puffin lovit zapisování souborů na disk a ukládáné soubory zařadí na začátek fronty indexace.

Puffin by měl být zdarma. Trochu může vadit, že bude do výsledků vyhledávání doplňovat (asi) textovou reklamu. Třeba bude existovat nějaká placená verze nebo někdo napíše nějakou neoficiální verzi.

Google se vydává do teritoria Microsoftu. Připomínám, že Longhorn nová neustále odkládaná verze Windows, bude obsahovat výrazně vylepšené vyhledávání. Proto Google asi dá Puffin k dispozici brzo. Zajímavé bude sledovat, jak se budou tvářit představitelé Microsoftu, až se v menu Hledat objeví položka doplněná Googlem.

Co na to odborníci

Včera mi na pár otázek odpovídal Michal Illich (Jak velké je Jyxo). Dnes přidávám poslední Michalovu odpověď na otázku

Jaký je Váš názor na krok Google (vyhledávání informací na desktopu).

Desktopových vyhledávačů existuje už více a pokud vím, tak moc úspěšné nejsou. Když k tomu Google propůjčí své jméno a bude to dávat zdarma, tak se to ale jistě rozšíří. V budoucnu bude desktopové vyhledávání naprostou samozřejmostí – bude na každém počítači. Obávám se ale, že v tomhle zvítězí Microsoft – tady se nedají ty produkty příliš odlišit kvalitou, takže uživatel nebude cítit potřebu měnit to, co mu bude dodáno s operačním systémem.

Co si o projektu Google myslíte vy? Jakou zvolí Google taktiku? Bude nakonec se svým řešením úspěšný? Jak vyhledáváte informace na discích?

Souvislosti

Velcome

Nápis Velcome se zaskvěl na šoupacích dveřích na benzínové čerpací stanici, kam týden co týden jezdíme pro další porci krmení do našeho plechového starouše. Autor nápisu mohl klidně myšlenku ještě více rozvést. Co třeba Velcome der frends? To mi připomíná tak trochu multijazyčný nápis na jedné domácí hospůdce: Merrys sky delikatessen. Hospodská (asi paní Marie) to trochu nezvládla.

Na druhou stranu to není zase nic tak neobvyklého. U někoho může jít o překlep, u někoho o neznalost. Google mi nabídl na slovo Velcome 7690 výsledků. Část z nich je určitě správně. Ale co je to proti 90 milionům nalezených výrazů s dvojitým vé.

Užitečný e-mail?

Každý pracovní den začínám promazáváním pošty. Každý pracovní den začínám čtením pošty. Možná si říkáte, proč začínám dvěma stejnými větami? Pozornější si určitě všimli, že se věty liší zvýrazněnými slovy. A určitě si domyslíte, čím se věty liší dál. Je to doba, kdy jsem tyhle věty říkával. Ta první je ze současnosti. Tu druhou jsem používal ve starých dobrých časech.

V zaměstnání chystám školení o virech. Při té příležitosti jsem si udělal malou statistiku struktury pošty doručené do mého e-mailu. Za uplynulý týden jsem dostal něco málo nad 500 e-mailů. Tady je struktura mé pošty:

Struktura mé pošty v minulém týdnu

Struktura mé pošty v tomto týdnu

Viry

Téměř polovina pošty připadá na viry (48 %). Tři procenta tvoří e-maily s viry související – většinou hlášení špatně nastavených antivirů, které chybně odesílají hlášení na virem podvrženou adresu odesílatele. Zdá se mi, že oproti minulosti toto číslo výrazně pokleslo. Tvůrci serverových antivirů možná jako defaultní nastavují volbu neodesílat varování. Možná se také vzpamatovali správci sítí.

Spam

Nové zákony proti spammerům zatím moc účinně proti spamu neúčinkují. Objem spamu stále narůstá. Spamu v mé schránce za minulý týden bylo 44 % (222 kousků). Drtivá většina spamu v mé schránce je anglicky psaná (tomu se samozřejmě nedivím). Přibývá ale spamů psaných azbukou. Domácí spam je naštěstí vyjímkou. Asi jsme malá země a odhalený spammer se ocitne v palbě postižených a následně i médií.

Opravdová pošta

Pět procent. Pouhých pět procent! Jen každý dvacátý e-mail není virus nebo nesmyslný spam. A to se nepitvám v tom, že ne každý nevirus a nespam je užitečný. Co se dá dělat. Do poštovní schránky taky dostávám haldu reklamních letáků. Předplacené noviny se taky stávají čím dál tím víc bulvárem. Jěště, že se nešíří dopisní viry. To by teprve byl pěkný nářez.

Jak na to?

Teď určitě začnete uvažovat v rovině spam filtrů, serverových antivirů, těch nejlepších e-mailových klientů, nejbezpečnějších operačních systémů, zabezpečení e-mailových adres vystavených na webu a já nevím o čem všem. Klidně uvažujte a komentujte. Bojím se ale, že nic z toho v dohledné době explozi mailového sajrajtu nezabrání.

Související

Kolik přišlo z vyhledávačů

Petr Weida prozradil ve spotu Referer: Vyhledávače, kolik lidí na jeho weblog přichází návštěvníků z vyhledávačů. Zjistil, že oproti předchozímu měsíci dramaticky narostl počet lidí přicházejících ze Seznamu.

Jak vypadá situace na tomto webu? Nahlédl jsem do logu celého webu converter.cz. Nezjistil jsem žádné dramatické vzestupy a pády:

Referery únor - duben 2004 z vyhledávačů Seznam, Google, Centrum, Atlas, Jyxo+Zoohoo.

Graf zachycuje změny poměru přístupů z jednotlivých, pro můj web významných, vyhledávačů za období únor – duben 2004. U Google jsem připočetl také poměrně významně zastoupené přístupy z Google Images. Sloučil jsem také Jyxo a Zoohoo. Data za duben jsou do 28. 4.

Vzhledem k tomu, že nedošlo k dramatickým změnám v počtu příchozích, nepřidám tentokrát podrobnou tabulku. Přesto pár informací ještě přidám. Sleduji trvalý nárůst počtu příchozích z vyhledávačů: v březnu to bylo oproti předchozímu měsíci o 13 % a v dubnu pak 9,1 %. V dubnu pak poskočil nejvíc Yahoo! a to o 44 % (jeho absolutní počty jsou ale poměrně malé). Nadprůměrně poskočili Seznam (13 %), Centrum (21 %), Jyxo (13 %) a MSN (26 %). Že by důsledek zbrojení Yahoo! a MSN?

S přechodem na jiný typ hostingu jsem přišel o starší statistiky. Řada je krátká a zatím nejde zobecňovat (bude třeba pokračovat vzestup Seznamu?). Z grafu je ale patrná nadvláda dvojice Seznam, Google, které přivádí téměř 3/4 návštěvníků z vyhledávačů.

Souvislosti

Kolik přišlo z agregátorů

Marek Prokop (Kolik návštěvníků přivádějí agregátory zpráv) a po něm Dušan Janovský (Statistika agregátorů) a Petr Weida (Referer: Agregátory zpráv) zjišťovali, kolik uživatelů přichází na jejich weblogy návštěvníků z agregátorů zpráv. Nu což. I já přidám svou trošku do mlýna.

Probral jsem log a tady jsou výsledky za únor, březen a 22 dní dubna. Z vyhodnocovaných 9 agregátorů přišlo v únoru 605 návštěvníků (18,33 na 1 publikovaný spot), v březnu 673 (24,04) a za 22 dní dubna 417 (27,80).

Příchozí za den

Kolik přišlo průměrně návštěvníků z agregátorů za jeden den.
Pořadí Agregátor Únor Březen Duben Změna
1. Weblogy.cz 0,00 5,35 6,09 +14 %
2. Právě dnes 8,55 6,58 4,36 -34 %
3. Bloglines 4,41 3,10 3,32 +7 %
4. Blogportál 3,59 2,58 2,00 -23 %
5. Kratce.cz 1,83 1,61 1,27 -21 %
6. WEBlight RSS reader 0,79 0,81 0,86 +7 %
7. Pooh.cz RSS 0,90 0,68 0,68 +1 %

Vypovídací schopnost čísel nemusí být nejlepší, tak přidám graf:

Kolik přišlo návštěvníků z agregátorů v únoru, březnu a dubnu (vztaženo na dny).

Příchozí za spot

Možná ještě zajímavější jsou průměrné počty příchozích z agregátorů připadající na jeden publikovaný spot.

Kolik přišlo průměrně návštěvníků z agregátorů na jeden publikovaný spot.
Pořadí Agregátor Únor Březen Duben Změna
1. Weblogy.cz 0,00 5,93 8,93 +51 %
2. Právě dnes 7,52 7,29 6,60 -12 %
3. Bloglines 3,88 3,43 4,87 +42 %
4. Blogportál 3,15 2,86 2,93 +3 %
5. Kratce.cz 1,61 1,79 1,87 +5 %
6. WEBlight RSS reader 0,70 0,89 1,27 +42 %
7. Pooh.cz RSS 0,79 0,75 1,00 +33 %

Kolik přišlo návštěvníků z agregátorů v únoru, březnu a dubnu. Vztaženo na publikovaný spot.

Z uvedených údajů je patrný nárůst popularity skvělého agregátoru Weblogy.cz a také Bloglines. Podle mě je jednou hlavních příčin jednoduchost jejich vzhledu a používání. Odliv nastal hlavně u Právě dnes. Ostatní spíše stagnují.

Z logů a hájů

Víkend je vhodná doba pro odlehčení od hlavního tématu tohoto blogu. Jak už jsem psal minulý měsíc ve spotu Nahé Tatu, tatu nahe, je procházení webových logů docela zábavné. Výrazy zadané do vyhledávače, které posunuly návštěvníka na Váš web stojí minimálně za zamyšlení.

Choroby kopyt koní

Výraz choroby kopyt koní mě tento měsíc zaujal asi nejvíc. Patří do výrazů, které na první pohled nepatří k žádnému tématu webu converter.cz. Google mlčí, ale Seznam našel můj spot Infrabič. Podobně jsou na tom také např. výrazy:

  • svaty gral
  • jak na měnu – možná nějaký makroekonomický kutil, který by možná uvítal i odstraneni reklam?
  • karpální tunel – tohle je evergreen a abych neprudil ty, kteří hledají pojem karpální tunel (momentálně je můj karpální tunel v Google na 5. místě), tak odkazuji.
  • 0 45359 kg – konkrétnost některých odkazů je až zarážející.
  • sýkorka
  • szczepanik
  • emgon
  • jule, ochlaz, kubyk – snad překlepy nebo šetření místem.

Překlepi, nesmisli a chibi gramatyki

Překlepů a chyb je celá řada. Když ty výrazy čtu, tak se mi vrací obsedantní myšlenka, která trápí některé SEO kutily: optimalizovat nějak stránky na překlepy? Já bych pak musel optimalizovat třeba na symkové tření, teplomer lihovy do mrazaku, vynálezce radia, svetovi drzitele nobelovi ceny, vzorečky si.

Warez

Stačí několikrát napsat pár slov o oblíbeném programu a už je tady někdo, kdo by rád warez:

  • topstyle fosi
  • newzcrawler crack or crackz or cracks or warez – asi pokročilý googlista
  • frontpage 2003 cz crack – ať žije lokalizace
  • feeddemon 1.0 serial – pro pamětníky: seriál, seriál, kolik času už mě stál.

Skokan měsíce: Paula Wild

Tato česká děva je tento měsíc opravdu (když použiju virovou terminologii) In The Wild. Jeden Pixiho komentář a už to fičí. Paula Wild je tady sama osobně i na 5 dalších způsobů jako nahá i naha, foto, porno obrázky, porno. K tomu se přidává Tatu, které posílily díky spotu Nahé Tatu, tatu nahe.

Pánové (možná i dámy), nehledejte tady žádné porno, sex, hambaté miss, nemůžete si tady ani stahnout film z internetu, nejsou tady žádné porno movies a nezaposloucháte se do svého oblíbeného porno mp3. Ještě bych tady dal odkaz na nahe divadlo. Ale to je tak vše.

A co říct na závěr? Snad jen dobrou chuť, pokud právě obědváte.

Úspěchy už máme!

Tak jsem se u televize dlouho nepobavil, jako u dnešního Jihomoravského večerníku na ČT1. Nejprve mě zaujala teple lidská myšlenka, která zazněla v reportáži z mého bydliště. Probíhá tu výcvik vojenských snajperů. Redaktorka přebásnila odpověď jednoho z frekventantů kurzu do poněkud mrazivého tónu: činnost ostřelovače není povolání, ale poslání. Jauvajs.

Pak následovala reportáž z domova důchodců. Tam zakoupili rotopedy, staroušci šlapou jak draci a jsou spokojení. Nervózní zástupkyně ředitele vyzdvihla sportovní výsledky seniorů takto: V této činnosti jsme úspěšní. Začínalo 25 klientů, z toho 4 již zemřeli. Ne nadarmo se ve slohu učí, že do jedné věty není radno vkládat 2 myšlenky.

Co Vy a XML?

Chystám článek o XML a zajímalo by mě, jaký je Váš postoj k XML a k technologiím a standardům z XML odvozených.

  1. Co se Vám líbí na XML?
  2. Jaké jsou slabiny XML?
  3. Kde se XML nejvíc v současnosti uplatňuje?
  4. Jaké vidíte trendy v oblasti XML?
  5. Jaká je budoucnost XML?

Nahé Tatu, tatu nahe

Procházení logů webového serveru může být docela zábavné. Někdy zůstává rozum stát nad výrazy, kterými se návštěvníci dostali na vaše stránky z vyhledávačů.

Zrovna teď se dívám do logu webu converter.cz a některé výrazy mi do kontextu mých stránek nezapadají. Docela bych pochopil výraz autoři, kteří psali historii. Vpomínám si na spot, který navnadil vyhledávač na LOTR návrat download nebo na TopStyle fosi, crack do Total Commandera, trójský kůň a Cabernet Sauvignon definice. Ale co některé další?

Sex a porno

Kde jsi má serióznosti, když sem lidi chodí nalákání na nahé miss, dětské porno, Lego porno, sliklips a dokonce na sex na WC?! Možná s někým cloumá puberta a očekává penis enlargement, ale pozor aby si neuhnal karpální tunel. Nebo aby z toho nebyla mozková mrtvice. To by určitě vzduchem nelétaly hliníkové konfety. Ještě abych byl wanted!

Neznámé a chybé

Nejen sexem živ je internaut. Jak se sem dostali tři lidé skrze výraz efferukken? A co takové překlepy a chyby typu spesifická a dinamická.

Máte také nějaké zajímavé úlovky? Co na to gorily a Matka Tereza? A co Jan Tleskač? Hastalavista a ať vás nepotká harddisk porucha.