fbpx Digitalizace minulosti s nástroji budoucnosti | EXON
Digitalizace minulosti s nástroji budoucnosti. Článek od společnosti EXON.

Digitalizace minulosti s nástroji budoucnosti

Digitalizace kulturního dědictví v posledních dvou dekádách zažívá nebývalý rozvoj. Vzniká velké množství iniciativ a programů, které mají za cíl digitalizovat historické dokumenty vedoucí ke zrodu velkého objemu digitálního obsahu. To je bezpochyby dobrá zpráva pro badatele a širokou veřejnost, kterým se zjednodušuje přístup k archiváliím, který je zejména v současné době obtížný.

Digitalizované dokumenty však v řadě případů nevyužívají veškerého potenciálu. Řeč je o detailní orientaci v logické struktuře dokumentu, která jde ruku v ruce s co nejpřesnějším vytěžením a následným vyhledáváním v textu dokumentu. Tyto možnosti, jsou-li dostupné, dramaticky urychlují vyhledávání v dokumentech a otevírají nové zdroje informací nejen pro zapálené badatele, ale také pro širokou veřejnost.

Pro digitalizaci je charakteristická nemalá pracnost spojená se získáváním úplných informací z dokumentů. V případě digitalizace tištěných knih je situace dobrá – logická struktura knih je poměrně přímočará a dobře čitelná. Podobně nástroje pro rozpoznávání tištěného textu (tzv. systémy OCR - Optical Character Recognition) dosahují velmi dobrých výsledků a proces vytěžování textu tak je možné automatizovat.


Rudé právo - ukázka klasifikace dat.

Příklad detekce textu z novinových článků (zdroj: Rudé právo 17.11.1920, oddělení časopisů Knihovny Národního muzea, sign. Z 18 A 1, dostupné online z digitální knihovny Kramerius, získáno 24.3.2021)


Pokud ovšem budeme chtít zmapovat logickou strukturu u periodik, například novinových vydání, podmínky se výrazně komplikují. Je třeba vypořádat se s vícesloupcovým uspořádáním textu, textem proloženým různými obrázky a grafickými prvky a v neposlední řadě nejrůznějším dělením textu, kdy článek začíná na jedné straně a pokračuje na straně jiné. Zde je již potřeba porozumět nejen struktuře textu, ale také jeho významu, aby jednotlivé logické celky mohly být správně propojeny. Standardní nástroje OCR zde již částečně selhávají, protože nedokáží vrátit souvislý text článků v logickém sledu.

Pro ručně psané texty je situace ještě komplikovanější, protože současné standardní nástroje pro rozpoznávání textu zpravidla poskytují velmi nepřesné a nespolehlivé výstupy. V praxi to znamená, že takové dokumenty je reálně nutné ručně přepisovat, což je ovšem časově a v konečném důsledku i finančně náročné.

Existuje cesta, jak tento nepříznivý stav změnit?


 

Umělá inteligence může zásadně změnit možnosti digitalizace

S dynamickým rozvojem oblasti strojového učení se pro digitalizaci dokumentů otevírají zcela nové možnosti. Systém OCR se vyvinul v ICR neboli Intelligent Character Recognition. Řešení na bázi neuronových sítí je schopno vyhodnocovat dokumenty a jejich obsah na základě zkušenosti z předchozích zpracování, podobnosti a pravděpodobnosti shody se skutečným obsahem dokumentu. Umělá inteligence „dovozuje“ jaké slovo je napsané rukopisem, kde na stránce je reklama, novinový článek nebo které části textu spolu logicky souvisí. Operátor v procesu digitalizace poté už nemusí provádět všechny činnosti ručně, ale může se soustředit na ty informace, které automatizované algoritmy identifikovaly s menší mírou jistoty.

Společnost EXON s.r.o. aktuálně pracuje na dvou produktech, které využívají metod umělé inteligence k zásadnímu zkvalitnění výstupů digitalizace historických dokumentů. Jedná se o řešení Kaitos (www.kaitos.eu) a InkCapture (www.inkcapture.com).


Absolutní porozumění obsahu dokumentu

Logo Kaitos. Software pro digitalizaci kulturního dědictví.

Řešení Kaitos dává paměťovým a dalším institucím do rukou nástroj, který zefektivní, zautomatizuje, zpřesní a „standardizuje“ podstatnou část dnes ručně či polo-automaticky prováděné práce. Kaitos pro vytěžování informací využívá neuronové sítě, díky kterým se zvýší nejen množství vytěžených informací, ale také spolehlivost jejich detekce.

Klasifikace stran a rozpoznání metadat

Kaitos má za cíl automatizovat:

  • Předzpracování skenu dokumentu (detekce textu a dalších objektů, korekce nežádoucích vad obrazu ze skenování, rozdělení pravé a levé stránky, ořez a narovnání apod.);
  • Zařazení digitalizovaných předloh do předem definovaných tříd (např. obsahová stránka knihy, strana knihy s ilustrací, titulní strana novin apod.);
  • Rozpoznání pozice logických bloků dokumentů (záhlaví, zápatí, grafický element v textu …);
  • Vytěžení textového obsahu a přiřazení textů k logickým blokům v dokumentu
  • Uchování popisných metadat o digitalizovaném dokumentu pro rozšířené možnosti vyhledávání;
  • Uložení vytěžených informací do standardních formátů (generování PSP balíčků: Producer Submission Package) pro následný export do digitální knihovny.

 

Na obrázku je znázorněn postup strojového učení. Předlohy je možné roztřídit do různých tříd, přesně identifikovat jednotlivé bloky a indexovat pro budoucí vyhledávání.


Ukázka anotace dat.

Postup anotace dat I (zdroj: MarkIt | Amitia. Dostupné z: Youtube. Kanál Zaměstnance Amitia, získáno 25.3.2021)


Další postup je znázorněn na následujícím obrázku. V odkazovaném videu je možné si celý proces prohlédnout.


Ukázka anotace dat.

Postup anotace dat II (zdroj: MarkIt | Amitia. Dostupné z: Youtube. Kanál Zaměstnance Amitia, získáno 25.3.2021)


Rozpoznávání ručně psaného písma

Logo inkcapture. Software pro digitalizaci historických, ručně psaných textů.

Nástroj InkCapture je zaměřený na rozpoznávání ručně psaného písma a efektivní vyhledávání v ručně psaných textech. Mohlo by se zdát, že rozpoznávání písma je už dobře zvládnutá oblast – jsou přeci běžně dostupná zařízení, na která je možné psát a v reálném čase převádí psané písmo do textu, se kterým je možné dále pracovat. Tato zařízení mají k dispozici například informaci o tahu pera, rychlosti pohybu, tlaku jednotlivých tahů a další, které jsou pro rozpoznání textu velmi cenné.

Na obrázku je pro ukázku znázorněna identifikace textu a extrakce informací z rukopisu z roku 1917.


Ukázka anotace dat.

Anotace dat z ručně psaného písma (zdroj: Autor: Jan Sommer. Dostupné z: Flickr.com, získáno 25.3.2021)


Na následujícím obrázku je znázorněna identifikace textu a extrakce informací z textu na dopravním značení.


Ukázka anotace dat.

Příklad anotace dat z textu dopravního značení (zdroj: MarkIt | Amitia AI. Amitia AI | Your partner for AI solution, dostupné z: Amitia-ai.com, získáno 25.3.2021)


Sémantické vyhledávání

Dalším samostatným problémem je vyhledávání v analyzovaných dokumentech. Ať už hovoříme o detekci textů v tištěných knihách nebo v ručně psaných dokumentech, vždy bude detekce zatížena nějakou chybovostí. Při vyhledávání v dokumentech je pak zapotřebí jistá tolerance vyhledávacího algoritmu k chybám a také k nepřesnostem způsobeným už při samotném vzniku historického dokumentu. Je jistě žádoucí umět při vyhledávání jména „Cimrman“ detekovat také výskyty jmen „Cimrmann“ nebo „Zimmermann“, protože historicky mohlo být jméno zapsáno z nejrůznějších důvodů odlišně. To samo o sobě vyžaduje sofistikovanější algoritmy vyhledávání, než jsou v současné době využívané fulltextové metody, případně doplněné o lemmatizaci (pozn.: vyhledávání pomocí základního tvaru slova). Nejvyšším stupněm takového vyhledávání je pak vyhledávání na základě sémantické vazby mezi slovy, kdy například pro zadané slovo „hajný“ očekáváme také nalezení slova „myslivec“ apod.

Vyhledávání v ručně psaném písmu

Projekt InkCapture nabídne pokročilé vyhledávání v ručně psaných dokumentech na základě podobnosti výrazů – nehledá se pouze přesná shoda, ale také slova podobná. Hledání na základě zadaného textu, ale také na základě obrazu (v dokumentu se hledá text vizuálně podobný zadanému obrazu).

Základní vlastností celého řešení přitom je učení, zdokonalování schopností na základě zpětné vazby z rozpoznávání textu a vyhledávání.


Budoucnost digitalizace – buďte její součástí.

Jak nástroj Kaitos, tak nástroj InkCapture přináší nový přístup k získávání dat z digitalizovaných dokumentů. Díky neuronovým sítím mají potenciál významně snížit objem ruční práce spojený s důsledným vytěžováním informací z dokumentů. Současně se neustále zlepšují a zvyšují kvalitu a spolehlivost vytěžených dat.

Pokud i vy chcete pomoci tvořit budoucnost digitalizace, můžete se do našich projektů zapojit také a poskytnout pro vývoj nástroje InkCapture vaše historické dokumenty. Dokumenty vám profesionálně zdigitalizujeme a data z nich využijeme pro trénování neuronových sítí, které budou základem popisovaných produktů nové generace. Bližší informace o možnostech zapojení najdete na webové stránce www.inkcapture.com.


 

Více článků od společnosti EXON


 

Pro více informací nás kontaktujte