Pro budoucí práci s digitalizovanými nebo digitálními dokumenty je vhodné naskenované dokumenty opatřit tzv. OCR textovou vrstvou. Je to však vlastnost, o jejíž existenci mnoho zákazníků neví. Z technického hlediska je naskenovaný PDF dokument pouze obrázek. K čemu slouží OCR vrstva a jaké jsou její výhody?
Typy dokumentů
Dokumenty lze rozdělit na 2 základní typy: analogové a digitální. Analogové dokumenty jsou v podobě listinné, na papíře. Digitální dokumenty jsou v podobě elektronické.
Pokud máme listinné dokumenty naskenované, neznamená to, že jsou digitální také po technické stránce. Může jít pouze o obrázek, který jako text na první pohled vypadá. Je však možné s nimi pracovat jako s digitálními? Odpovědí je technologie OCR.
K čemu OCR vrstva slouží?
Z technického hlediska je naskenovaný PDF dokument pouze obrázek. Aby bylo možné s ním dále digitálně pracovat, je nutné opatřit jej textovou vrstvou. Tuto vrstvu vytváří specializované softwary, které digitalizované dokumenty znovu "proskenují", utvoří nad dokumenty textovou vrstvu a zajistí strojovou čitelnost.
Dokumenty lze jednoduše procházet, vyhledávat v textu dokumentu dle klíčových slov, jako kdyby PDF soubor byl původně vytvořen elektronicky. Software dokáže vyčíst text z naskenovaných dokumentů, který je možné využít např. při fulltextovém vyhledávání. Obrovskou výhodu přináší při větším množství digitalizovaných dokumentů, které jsou vkládány do elektronického archivu nebo DMS systému.
Cílem je nehledat v naskenovaných dokumentech (což by po digitalizaci ztrácelo smysl), ale nacházet potřebné informace ihned.
Comments
NEVÁHEJTE,
KONTAKTUJTE
NÁS.
Máte zájem o další informace nebo o nabídku pro vaši konkrétní situaci?
Kontaktujte nás pro více informací.