fbpx Vybíráte vytěžovací nástroj? 3 typy dokumentů dle struktury. | EXON
Článek společnosti EXON o vytěžování dat. Typy dokumentů, které lze vytěžovat (OCR) dle struktury.

Vybíráte vytěžovací nástroj? 3 typy dokumentů dle struktury.

Vytěžování dokumentů, převážně faktur, je stále aktuální téma. I po roce 2020. A pravděpodobně tu s námi vytěžování ještě nějaký čas bude. Digitalizace sice postupně ve společnosti nabírá na síle, nicméně praxe naznačuje ještě hodně let, než všichni budeme komunikovat pouze elektronicky. Pojďme se mezitím ohlédnout na typy dokumentů, které lze vytěžovat.

Vytěžujeme 3 typy dokumentů

Dle struktury, jakou dané dokumenty mají, rozlišujeme 3 typy: strukturované, polostrukturované a nestrukturované:

 

Strukturované: „víme co a víme kde“

Jedná se o fixní strukturu dokumentů, kde víme přesně, co a kde se nachází. Daný text nalezneme vždy na tam, kde má být. Často se jedná o formuláře, kde do každé kolonky zapisujeme jedno písmeno či číslici. Typicky jsou to např. žádanky či daňová přiznání. Dalším příkladem mohou být např. formuláře, které zákazníci ručně vyplňují, když chtějí využívat benefitů zákaznické karty. Tyto formuláře vytěžujeme a zpracováváme na digitalizačním pracovišti formou outsourcingu. Více o projektu pro Penny Market. Pokud vytěžujeme ručně psaný text, jedná se o tzv. ICR typ vytěžování. Úspěšnost vytěžení oproti klasickému textu je samozřejmě o něco nižší.

Polostrukturované „víme co, ale nevíme kde“

U tohoto typu víme, že data se na dokumentu nalézají, ale nevíme přesně na jakém místě. Kromě typických dokumentů: faktur a objednávek, se jedná i o velké technické průkazy, které ačkoliv mají zvláštní strukturu a barevnost, úspěšnost vytěžení je 100%. Více o projektu pro Mercedes Benz Financial Services, kde velké technické průkazy vytěžujeme.

Nestrukturované" „nevíme co, ani kde“

U těchto dokumentů netušíme, co obsahují a už vůbec nevíme, kde se data nachází. Často používají instituce typu pojišťovny a banky pro zpracování došlé pošty. Nicméně tento trend postupně posiluje a potřeba automatizovat došlou poštu začíná být i u komerční sféry. Na základě roztřídění systém pozná, o jaký typ dokumentu se jedná, např. reklamace, žádost, smlouva apod. V tomto odvětví se v dnešní době rozmáhají systémy s umělou inteligencí, které silně získávají na úspěšnosti a je v nich obrovská budoucnost. I my tyto systémy na bázi umělé inteligence postupně vyvíjíme.

Jakmile si odpovíme na otázku, jaké typy dokumentů potřebujeme vytěžovat, respektive dle struktury, teprve poté můžeme vybrat vhodnou technologii.

Více o vytěžování dat a digitalizaci faktur.

 

Více článků od společnosti EXON