Vytěžování dat z faktur.

Vytěžování dat je proces získávání dat z digitální předlohy. Tuto činnost provádí software, který nahrazuje ruční předpisování textu. Systém detekuje text na obrázku a extrahuje ho do libovolných systémů. Tato činnost lze shrnout jako účelná extrakce informací a dat z dokumentů v elektronické podobě. Vytěžování předcházet skenování, jelikož systém vytěžuje data z digitalizovaných předloh.


Co je to vytěžování dat?

Vytěžování dat nahrazuje ruční přepis dokumentů, který je nákladný, zdlouhavý a může být příčinou nemalé chybovosti. Tuto činnost provádí OCR (optical character recognation) software. Následně je možné s vytěženým textem dále pracovat jako s jakýmkoliv digitálním textem. OCR je systém, který opticky rozpozná znaky z obrázku dokumentu a pomocí algoritmů jim přiřadí znak. Systém si po rozpoznání své výsledky kontroluje a využívá k tomu vlastnosti daného jazyka, jelikož každý jazyk má určitou pravděpodobnost výskytu kombinací určitých písmen vedle sebe. Novinkou v oboru vytěžování dat je systém ICR (inteligent character recogration), který je nástavbou systému OCR. Zaměřuje se na vytěžování dat z ručně psaných textů, což je v oblasti vytěžování dat novinka. Systém OCR je také schopen rozpoznat ručně psaný text, ale kvalita rozpoznání značně klesá oproti tištěnému textu. Jaký je rozdíl mezi OCR a ICR?


Jaký je hlavní přínos vytěžování?

Hlavním přínosem vytěžovacích systémů je automatizovaný, rychlý, kvalitní a efektivní přepis dat z papírového dokumentu do elektronické podoby.


Integrace OCR na jiné systémy

Vytěžovací softwary lze napojit na velké množství systémů, jako jsou ERP a DMS/ECM systémy, administrativní registr ekonomických subjektů ARES nebo různé veřejné či vlastní číselníky.


 

Pro více informací nás kontaktujte