Vyhledávače jsou nástroje veskrze užitečné. Zajímavé je nahlédnout do jejich zákulisí. V souvislosti s připravovaným spotem jsem se zeptal Michala Illicha na pár otázek týkajících se vyhledávače Jyxo.
Jaký je zhruba poměr mezi velikostí souborů zaindexovaných stránek, velikostí textů na nich umístěných a velikostí databáze v Jyxu?
Líší se to podle typy souboru: u HTML stránek víceméně platí, že jsou tak třikrát větší než výsledná textová informace, která je používaná pro vyhledávání. U PDF a Wordu je ten poměr mnohem větší. U čistého textu (text/plain) je to samozřejmě přibližně 1:1.
Jaká je velikost databází Jyxa?
U té největší databáze – s českými stránkami – je to 300 GB (po jakési jednoduché kompresi).