Co je OCR?
OCR znamená Optical Character Recognition, což je technologie, která umožňuje počítačům rozpoznávat text z obrázků nebo skenů dokumentů a převádět ho do editovatelného textového formátu. Tato technologie je široce využívána k automatizaci procesů, jako je digitalizace dokumentů, rozpoznávání textu ve skenovaných fakturách, a mnoho dalších aplikací, kde je potřeba extrahovat text z obrazových dat. OCR je navržen zejména na dokumenty tištěné či psané na stroji, ovšem je také schopen rozpoznat ručně psaný text. Avšak přesnost tohoto rozpoznání ručně psaného textu již není tak vysoká jako u tištěného textu. Oproti tomu systém ICR je navržen primárně na ručně psané texty. Více o jednotlivých rozdílech mezi systémy ICR a OCR.
OCR systémy jsou schopny identifikovat jednotlivá písmena, čísla a jiné znaky na obrázku nebo ve skenu a převedou je do textové podoby, což umožňuje jejich další zpracování nebo ukládání. Tato technologie je užitečná v mnoha odvětvích, včetně administrativy, knihovnictví, zdravotnictví a mnoha dalších.
Jak funguje OCR systém?
Systém OCR opticky rozpoznává znaky z naskenovaného dokumentu a pomocí algoritmů jim přiřadí konkrétní znak. Následně se provede analýza, při které systém kontroluje chyby (znaky u kterých není vysoká pravděpodobnost shody). Ke kontrole systém využívá vlastnosti daného jazyka. Každý jazyk má danou pravděpodobnost výskytu kombinací určitých písmen vedle sebe. Přesnost vytěžení dat též ovlivňuje kvalita předlohy (hodně staré a roztřepené stránky) a kvalita naskenovaného či vyfoceného obrázku (rozmazaný sken).
Kde se OCR využívá?
Systém OCR je hodně využívaný například při vytěžování faktur. V tomto případě OCR nahrazuje ruční přepis dat, čímž automatizuje oběh faktur a snižuje chybovost při ručním přepisu dat. U faktur se vytěžují konkrétní pole, které si software na stránce najde. Více o vytěžování faktur.
Autor článku: Petr Polanský
Mohlo by se vás také zajímat

Jaký je rozdíl mezi OCR a ICR?.
OCR (optical character) a ICR (intelligent character) systémy se využívají na vytěžování dat, což je klíčová část digitalizace.

Vybíráte vytěžovací nástroj?
3 základní typy dokumentů dle struktury. Strukturované, polostrukturované a nestrukturované.

5 důvodů, proč digitalizovat faktury.
Sepsali jsme největších 5 výhod, proč o vytěžování přijatých faktur uvažovat.
Více článků od společnosti EXON
- 50 stran zdarma k rozpoznání
- Vyhledávejte v rukopisech
- Sdílejte veřejnosti
- Archivujte své publikace