fbpx Nový projekt: Vytěžování strukturovaných dat z archivních dokumentů | EXON
Nový projekt: Vytěžování strukturovaných dat z archivních dokumentů

Nový projekt: Vytěžování strukturovaných dat z archivních dokumentů

Digitalizace se v posledním období stala významnou prioritou paměťových institucí, jejichž cílem je ochrana a zpřístupňování dokumentů kulturního dědictví. Specifickým požadavkem se velice často stává vytěžení strukturovaných vstupů do podoby, která bude zpracovatelná v dalších informačních systémech. Nikoliv pouze jako prostý text, ale stále jako strukturovaná informace (typicky se jedná o tabulku). Podstatou není prosté vytěžení textu, ale především porozumění struktuře obsahu stránky a zpracování vytěženého textu se zachováním této struktury.


Vytěžíme tabulky a formuláře na maximum

Cílem je ucelené softwarové řešení pro inteligentní a automatizované vytěžování strukturovaných dat z historických i současných dokumentů, které mají charakter tabulek či formulářů. Cílem je automaticky vytěžovat velký objem strukturovaných dat s možností jejich exportu v podobě umožňující další strojové zpracování. Základním předpokladem je schopnost přizpůsobit se na nový typ vstupního dokumentu a schopnost pracovat jak s tištěným, tak ručně psaným textem.

Vzorové příklady tabulek a formulářů pro anotace

Do projektu využíváme takové materiály, pro které software nalezne možné využití do budoucna. Příklady podkladů:

Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat. Materiály pro projekt o vytěžení strukturovaných metadat.

Data, která dosud nebylo možné vytěžit

Na současném trhu digitalizace dokumentů není k dispozici řešení, které by umělo dostatečně flexibilně vytěžit strukturovaná data z období „před digitální dobou“, typicky u dokumentů z 20. století. Jedná se o dokumenty, u kterých stále existuje reálná a praktická potřeba pracovat s daty v nich, nicméně dokumenty není možné vytěžit strojově a ruční zpracování je neúměrně nákladné.

Strukturovaný výstup umožní návazné zpracování vytěžených dat v současných informačních systémech a tím zefektivnit vyhledávání informací, které jsou v listinných dokumentech zanesené.


 

Pro více informací nás kontaktujte