Už hodně dlouho umí Google indexovat PDF dokumenty, které vznikly z textových dokumentů resp. PDF jejichž zdrojem je text. Google teď umí indexovat také PDF soubory vzniklé skenováním.
Dnes jsem se dostal k článku A picture of a thousand words? (via Google Now Searches through Scanned Documents). Evin Levey v článku na Official Google Blog píše, že Google pomocí OCR indexuje také PDF dokumenty vzniklé skenováním. Texty doposud pro robota „skryté“ v obrázcích, tak mohou být převedeny do „čitelného“ textu.
Rozpoznávání textu via OCR je na straně Google jistě hodně náročné na výpočetní výkon. Ale podle všeho se to Googlu vyplatí. Stačí vzpomenut službu Google Books nebo si představit ta kvanta PDF souborů na webu, která jsou jinak nedohledatelná.
Souvislosti
- SEO pro PDF – Jiří Bureš
- OCR – Wikipedia
- Portable Document Format – Wikipedia