Co je OCR?
OCR neboli Optical Character Recognition je systém, který se využívá na vytěžování dat. Vytěžování dat je klíčovou částí digitalizace. OCR lze také přeložit jako strojové rozpoznávání tištěných znaků. OCR je systém, který umožňuje z obrázku dokumentu získat text, se kterým lze dále pracovat (například kopírovat či vyhledávat).
OCR je navržen zejména na dokumenty tištěné či psané na stroji, ovšem je také schopen rozpoznat ručně psaný text. Avšak přesnost tohoto rozpoznání ručně psaného textu již není tak vysoká jako u tištěného textu. Oproti tomu systém ICR je navržen zejména na ručně psané texty. Více o jednotlivých rozdílech mezi systémy ICR a OCR.
Jak funguje OCR systém?
Systém OCR opticky rozpoznává znaky z naskenovaného dokumentu a pomocí algoritmů jim přiřadí konkrétní znak. Následně se provede analýza, při které systém kontroluje chyby (znaky u kterých není vysoká pravděpodobnost shody). Ke kontrole systém využívá vlastnosti daného jazyka. Každý jazyk má danou pravděpodobnost výskytu kombinací určitých písmen vedle sebe.
Přesnost vytěžení dat též ovlivňuje kvalita předlohy (hodně staré a roztřepené stránky) a kvalita naskenovaného či vyfoceného obrázku (rozmazaný sken).
Kde se OCR využívá?
Systém OCR je hodně využívaný například při vytěžování faktur. V tomto případě OCR nahrazuje ruční přepis dat, čímž automatizuje oběh faktur a snižuje chybovost při ručním přepisu dat. U faktur se vytěžují konkrétní pole, které si software na stránce najde. Více o vytěžování faktur.
Autor článku: Petr Polanský
Mohlo by se vás také zajímat

Jaký je rozdíl mezi OCR a ICR?.
OCR (optical character) a ICR (intelligent character) systémy se využívají na vytěžování dat, což je klíčová část digitalizace.

Vybíráte vytěžovací nástroj?
3 základní typy dokumentů dle struktury. Strukturované, polostrukturované a nestrukturované.

5 důvodů, proč digitalizovat faktury.
Sepsali jsme největších 5 výhod, proč o vytěžování přijatých faktur uvažovat.
Více článků od společnosti EXON