Co je ICR?
ICR (intelligent character recognition) je systém, který je využíván při vytěžování dat, což je klíčová část digitalizace. Systém nám umožňuje z obrázku dokumentu získat text a dále s ním libovolně pracovat, například kopírovat či vyhledávat.
Je možné říct, že ICR je rozšířenou formou OCR. OCR je navržen především na dokumenty tištěné či psané na stroji, naopak ICR je navržen zejména na ručně psané texty. Více o jednotlivých rozdílech mezi systémy ICR a OCR.
Jak fungují ICR systémy?
ICR funguje stejně jako OCR, avšak díky umělé inteligenci zlepšuje svůj výkon překladem různých stylů rukopisu. Jelikož systém ICR pracuje na bázi neuronových sítí, je schopen se učit různé typy a písma ručně psaného textu. Systém se učí na základě zkušenosti, podobnosti, ale také například kontextu. Jelikož se systém dokáže učit, stačí opravit špatně vyhodnocené znaky jednou a software pří následujícím vytěžení znak automaticky rozpozná. ICR umí rozpoznat, jakým stylem daná osoba píše, což mu umožňuje lépe rozpoznat ostatní znaky (například sklon písma). S každou další stránkou je kvalita a přesnost rozpoznání vyšší.
Využití ICR v InkCapture
Technologie ICR je součástí nově nově vyvíjeného software InkCapture. Ve fázi vývoje aktuálně učíme umělou inteligenci znát ručně psané texty. Využití ICR je rozmanité, od vytěžování historických dokumentů, jako jsou například kroniky, po vytěžování dat z deníků nebo poznámek ze školy či práce.
Autor článku: Petr Polanský
Mohlo by se vás také zajímat
Digitalizace minulosti s nástroji budoucnosti.
Digitalizace kulturního dědictví v posledních dvou dekádách zažívá nebývalý rozvoj. Představujeme 2 nové projekty.
Jaký je rozdíl mezi OCR a ICR?.
OCR (optical character) a ICR (intelligent character) systémy se využívají na vytěžování dat, což je klíčová část digitalizace.
Více článků od společnosti EXON