Co je to vytěžování dat?
Vytěžování dat představuje získávání dat z digitální předlohy. Tuto činnost provádí software, který nahrazuje ruční předpisování textu, které je nákladné, zdlouhavé a náchylné na chyby. Systém detekuje text a extrahuje ho do libovolných systémů.
Jak probíhá vytěžování dat?
Vytěžování dat provádí tzv. OCR software (zkratka pro optical character recognation), který opticky rozpozná znaky z obrázku dokumentu a pomocí algoritmů jim přiřadí znak. Systém si po rozpoznání své výsledky kontroluje a využívá k tomu vlastnosti daného jazyka, jelikož každý jazyk má určitou pravděpodobnost výskytu kombinací určitých písmen vedle sebe.
Systém ICR (inteligent character recogration) je nadstavbou systému OCR. Zaměřuje se na vytěžování dat z ručně psaných textů. ICR systém pracuje na bázi neuronových sítí, které umožňují systému se učit různé typy písma ručně psaného textu na základě zkušenosti, podobnosti nebo kontextu. Systém dokáže rozpoznat konkrétní styl písma daných osob a díky tomu je může lépe rozpoznat. Každá další stránka, která systémem ICR projde, napomáhá ke zvýšení kvality a přesnosti rozpoznání dat.
Jaké jsou přínosy OCR softwarů?
Hlavním přínosem těchto systémů je, že umožňují automaticky, rychleji, kvalitněji a efektivněji přepsat data z papírového dokumentu. To je v dnešní digitální době velkou výhodou. Vytěžovací softwary lze napojit na velké množství interních systémů, jako jsou různé ERP a DMS/ECM, či napojení na číselníky nebo např. ARES.