Vybíráte vytěžovací nástroj? 3 typy dokumentů dle struktury.
Vytěžování dokumentů, převážně faktur, je stále aktuální téma. I po roce 2020. A pravděpodobně tu s námi vytěžování ještě nějaký čas bude. Digitalizace sice postupně ve společnosti nabírá na síle, nicméně praxe naznačuje ještě hodně let, než všichni budeme komunikovat pouze elektronicky. Pojďme se mezitím ohlédnout na typy dokumentů, které lze vytěžovat.
Vytěžování dat dle struktury dokumentu
Rozlišujeme 3 typy dokumentu dle struktury: strukturované, polostrukturované a nestrukturované.
Strukturované: „víme co a víme kde“
Jedná se o fixní strukturu dokumentů, kde víme přesně, co a kde se nachází. Daný text nalezneme vždy na tam, kde má být. Často se jedná o formuláře, kde do každé kolonky zapisujeme jedno písmeno či číslici. Typicky jsou to např. žádanky či daňová přiznání. Dalším příkladem mohou být např. formuláře, které zákazníci ručně vyplňují, když chtějí využívat benefitů zákaznické karty. Tyto formuláře vytěžujeme a zpracováváme na digitalizačním pracovišti formou outsourcingu. Více o projektu pro Penny Market. Pokud vytěžujeme ručně psaný text, jedná se o tzv. ICR typ vytěžování. Úspěšnost vytěžení oproti klasickému textu je samozřejmě o něco nižší.
Polostrukturované: „víme co, ale nevíme kde“
U tohoto typu víme, že data se na dokumentu nalézají, ale nevíme přesně na jakém místě. Kromě typických dokumentů: faktur a objednávek, se jedná i o velké technické průkazy, které ačkoliv mají zvláštní strukturu a barevnost, úspěšnost vytěžení je 100%. Více o projektu pro Mercedes Benz Financial Services, kde velké technické průkazy vytěžujeme.
Nestrukturované: „nevíme co, ani kde“
U těchto dokumentů netušíme, co obsahují a už vůbec nevíme, kde se data nachází. Často používají instituce typu pojišťovny a banky pro zpracování došlé pošty. Nicméně tento trend postupně posiluje a potřeba automatizovat došlou poštu začíná být i u komerční sféry. Na základě roztřídění systém pozná, o jaký typ dokumentu se jedná, např. reklamace, žádost, smlouva apod. V tomto odvětví se v dnešní době rozmáhají systémy s umělou inteligencí, které silně získávají na úspěšnosti a je v nich obrovská budoucnost. I my tyto systémy na bázi umělé inteligence postupně vyvíjíme.
Jakmile si odpovíme na otázku, jaké typy dokumentů potřebujeme vytěžovat, respektive dle struktury, teprve poté můžeme vybrat vhodnou technologii.
Více o vytěžování dat a digitalizaci faktur.
Autor článku: Petr Polanský
Mohlo by se vás také zajímat
5 důvodů, proč digitalizovat faktury.
Sepsali jsme největších 5 výhod, proč o vytěžování přijatých faktur uvažovat.
Digitalizace minulosti s nástroji budoucnosti.
Digitalizace kulturního dědictví v posledních dvou dekádách zažívá nebývalý rozvoj. Představujeme 2 nové projekty.
Jaký je rozdíl mezi OCR a ICR?.
OCR (optical character) a ICR (intelligent character) systémy se využívají na vytěžování dat, což je klíčová část digitalizace.
Více článků od společnosti EXON