Site-Flavored Google Search

Google přichází s novou službou Site-Flavored Google Search (zatím jako beta verze). Do svých stránek můžete umístit HTML kód generovaný formulářem. Ve formuláři můžete nastavit oborové zaměření vašeho webu. Výsledky vracené formulářem by měly odpovídat oblastem, které jste nastavili (např. Computers > Internet).

Je potřeba zdůraznit, že služba funguje pro anglicky psané stránky. Když jsem zkusmo vytvořil formulář pro oblast Věda > Fyzika, tak byly výsledky vracené pro české pojmy velmi vzdálené tomu, co bych očekával. U anglických pojmů byly výsledky mnohem lépe zaměřeny. Ale i tak to nebylo pořád to, co bych očekával. Podle mě není nad standardní vyhledávací formulář Google, protože i přes nastavení tématických oblastí jsou výsledky hledání lepší (nehledě na češtinu).

Souvislosti na Google

Telešnek

Po nějaké době jsem potřeboval najít jedno telefonní číslo. Zlaté stránky leží v kanceláři o dvoje dveře dál. Po obědě se moc vstávat nechce a tak nezbývá, než použít internet. Web Telecomu (mimochodem jim web pěkně zalézá za pravý okraj prohlížeče) nabízí odkaz na Telefonní seznam na Quick.cz.

Plný očekávání klepu na odkaz. MyIE2 něco blikne na stavovém řádku, ale plocha zůstává bílá. Minuta, dvě a nic. Ani po třech minutách(!) se pořád nic neděje. A to sedím na gigabitové lince. Že by nějaká flashová zrůdnost? No nic. Startuji další prohlížeč. Opera 7.51 po krátkém rozmýšlení začne postupně vykreslovat obsah stránky. Pěkně jeden obrázek za druhým. Ale už se s tím dá pracovat. Pak se zarazí někde u čísla 34/36. A čas běží – minuta dvacet a čítač se zvedne na 35/36. Aha! Tak tady je zakopaný hafák.

Krátký pohled do zdrojového kódu napoví, že problém je asi s obrázky zanořenými do tabulky, která tvoří rozložení stránky. IE, jak je známo, čeká, až se načte celý obsah stránky. V tomto případě se pravděpodobně obrázkové reklamy velmi pomalu načítají. Protože jsou utopené v tabulce, která tvoří obal stránky, není stránka zobrazena, dokud není načítání konec.

Jak se tak dívám na stavový řádek Opery, tak se celá stránka telefonního seznamu načetla v čase 4:58. Holt, kdo si počká, ten se dočká.

Souvislosti

Jak velké je Jyxo?

Vyhledávače jsou nástroje veskrze užitečné. Zajímavé je nahlédnout do jejich zákulisí. V souvislosti s připravovaným spotem jsem se zeptal Michala Illicha na pár otázek týkajících se vyhledávače Jyxo.

Jaký je zhruba poměr mezi velikostí souborů zaindexovaných stránek, velikostí textů na nich umístěných a velikostí databáze v Jyxu?

Líší se to podle typy souboru: u HTML stránek víceméně platí, že jsou tak třikrát větší než výsledná textová informace, která je používaná pro vyhledávání. U PDF a Wordu je ten poměr mnohem větší. U čistého textu (text/plain) je to samozřejmě přibližně 1:1.

Jaká je velikost databází Jyxa?

U té největší databáze – s českými stránkami – je to 300 GB (po jakési jednoduché kompresi).

Takový fulltext si strčte někam

Při hledání zdroje ke spotu Vypněte televize! Blogujte! jsem se pokusil použít fulltextové hledání na MF Dnes. Se zlou jsem se ale potázal.

Podle textu zprávy, která na mě vybafla po zadání dotazu, se nejedná o žádnou novinku. Protože jsem na MF Dnes už dlouho nehledal zůstal jsem chvíli civět na obrazovku v němém úžasu. Po odklepnutí dotazu totiž naskočila stránka s výzvou pro neregistrované uživatele. MF chce po uživatelích, aby se registrovali kvůli vyhledávání. No to snad ne! Místo toho, aby šli návštěvníkovi na ruku, tak před něj kladou překážku jako hrom. Řečmi o rozšířených možnostech a jednodušší registraci moc lidí neosloví. Autor NEWTON IT by se měl za takový postup stydět. I když to možná napadlo nějakého jiného borce. Opravdu nevím a pátrat po tom by byla ztráta času.

Pochopitelně jsem se nikam neregistroval, i když Mailinator by mi zase pomohl. Ale proč bych to dělal?. A proč by to dělaly ty tisíce dalších otrávených návštěvníků?

Findability.org

Findability.org je web určený pro všechny, kteří chtějí, aby byl jejich web dobře nalezitelný (via Digital Web Magazine). Jeho autor Peter Morville o webu říká:

Všudypřítomná nalezitelnost ukazuje svět, ve kterém můžeme najít kohokoli nebo cokoli odkudkoli a kdykoli.

Na webu najdete množství zajímavých odkazů a návodů na vylepšení webu. Doporučuji k přečtení a ke studiu.

Toodle noodle

Google je bezesporu v současnosti nejvýznamnější světový vyhledávač. Sláva Google inspiruje mnoho tvůrců, kteří se snaží využít možnosti, které Google nabízí a dále je rozvinout. Mimo to samotný Google nabízí velké množství vlastních služeb. Tento spot obsahuje seznam některých známých i méně známých služeb na Google vázaných, které svým názvem Google připomínají.

elgooG
Pouhá legrácka. Google pozpátku.
Floogle
Vyhledávání v Google ve Flashovém rozhraní.
Froogle
Stále beta verze vyhledávače zboží v e-shopech. Pochází přímo od Google.
GoogleBrowse
Zobrazí výsledky hledání dané URL (problémy s češtinou). V zobrazených výsledcích je možné se dále nořit a hledat tak vazby mezi weby.
Googlism
Marek Prokop v článku Googlegrácky… napsal: Jedná se o nástroj, který pro zadané slovo vyhledá buď kdo to je, co to je, kde to je nebo kdy to je. A někdy je to docela zábava.
Googlefight
Srovnání dvou zadaných slov na základě počtu výsledků dotazů.
Joogle
Nástroj přeloží anglický text do japonštiny a vrátí výsledky vyhledávání v Google.
Poodle
Poodle Predictor je nástroj, který vedle zobrazení výsledků vyhledávání nabízí podrobnější diagnostiku zadané URL. Je Vaše stránka přístupná vyhledávacím robotům? Jaké údaje vrací webový server? Služba zobrazuje jak danou stránku robot vidí.
Proogle
Výsledky Google doplněné o Google Toolbar PageRank.
RooDolF
RooDolF vrací výsledky vyhledávání na Google v RDF formátu. Dotaz lze zadat klasicky prostým textem nebo ve formátu Datalog.
TouchGraph GoogleBrowser
Výsledky vyhledávání v grafické klikatelné podobě. Mapa propojení zadaného URL s jinými weby.

Znáte podobné zajímavé stránky obdobně svázané s Google?

Související

Jyxo indexuje mimo doménu cz

Doposud Jyxo samo neindexovalo stránky mimo doménu cz. K dispozici byla pouze možnost přidat ručně odkaz do vyhledavače nebo e-mailová žádost. Podle informace, kterou včera sdělil Michal Illich v konferenci SEO, začíná Jyxo automaticky indexovat stránky i mimo doménu cz:

Jyxo už asi 2 týdny indexuje česky psané stránky mimo .cz doménu (zatím experimentálně, bude se to ješte upravovat; také indexuje několik významných anglických stránek, také experimentálně). Těmto stránkám přirazuje i JyxoRank.

Michal Illich mi poskytl další podrobnosti:

  • Automaticky indexované stránky, které již Jyxo zaindexovalo mimo doménu cz, jsou už nyní ve výsledcích vyhledávání.
  • Na otázku nasazení ostré verze Michal odpověděl: Dá se říct, že to průběžně nasazujeme již nyní. Přechod na ostrou verzi nebude už žádný skok, bude to spíš jen zpřesnění současného algoritmu. Jediné, co se bude víc měnit, je práce s rozpoznanými cizojazyčnými stránkami – ty nyní v databázi jsou, v budoucnu se budou vypisovat méně často nebo vůbec (to ještě nejsme rozhodnuti).
  • Jyxo rozpoznává jazyk podle vlastních slovníků: Máme několik frekvenčních slovníků – pro hlavní světové jazyky a češtinu a slovenštinu. Pak u každé stránky zkoumáme její obsah a porovnáváme výskyt všech slov s těmito slovníky. Jazyk tedy určujeme podle obsahu stránky, ne podle meta značek.
  • Důvodem k automatické indexaci je pochopitelná snaha o pokrytí všech česky psaných stránek: Chceme mít prostě zaindexované všechny české stránky. Dřívější stav sice také fungoval, ale chceme se o českých stránkách dozvídat daleko rychleji, ne čekat na Submit URL nebo e-mail.

Jyxo vykročilo správným směrem. Potvrzuje pozici, podle mého názoru, nejlepšího českého fulltextového vyhledávače.

Proogle = PageRank + Google

Vyhledávač Proogle zobrazuje výsledky vyhledávání Google, do kterým ke každé položce vkládá hodnotu Toolbar Google PageRank – ono známé x/10 (via ABAKUS SEO Blog). Proogle není podporován Google: This site is in no way associated with Google.

Souvislosti