fbpx Co je OCR? | EXON
Co je to OCR?

Co je OCR?

OCR neboli Optical Character Recognition je systém, který se využívá na vytěžování dat. Vytěžování dat je klíčovou částí digitalizace. OCR lze také přeložit jako strojové rozpoznáván tištěných znaků. OCR je systém, který umožňuje z obrázku dokumentu získat text, se kterým lze dále pracovat (například kopírovat či vyhledávat).
OCR je navržen zejména na dokumenty tištěné či psané na stroji, ovšem je také schopen rozpoznat ručně psaný text. Avšak přesnost tohoto rozpoznání ručně psaného textu již není tak vysoká jako u tištěného textu. Oproti tomu systém ICR je navržen zejména na ručně psané texty. Více o jednotlivých rozdílech mezi systémy ICR a OCR.


Jakým způsobem funguje OCR systém?

Systém OCR opticky rozpoznává znaky z naskenovaného dokumentu a pomocí algoritmů jim přiřadí konkrétní znak. Následně se provede analýza, při které systém kontroluje chyby (znaky u kterých není vysoká pravděpodobnost shody). Ke kontrole systém využívá vlastnosti daného jazyka. Každý jazyk má danou pravděpodobnost výskytu kombinací určitých písmen vedle sebe.
Přesnost vytěžení dat též ovlivňuje kvalita předlohy (hodně staré a roztřepené stránky) a kvalita naskenovaného či vyfoceného obrázku (rozmazaný sken).


Využití OCR

Systém OCR je hodně využívaný například při vytěžování faktur. V tomto případě OCR nahrazuje ruční přepis dat, čímž automatizuje oběh faktur a snižuje chybovost při ručním přepisu dat. U faktur se vytěžují konkrétní pole, které si software na stránce najde. Více o vytěžování faktur naleznete zde.

 

Více článků od společnosti EXON


 

Pro více informací nás kontaktujte