fbpx Co jsou METS a ALTO soubory? | EXON
Zpět na seznam článků Rady a Tipy z digitální kanceláře
Co jsou METS a ALTO soubory?

Co jsou METS a ALTO soubory?

V digitalizaci kulturního dědictví se často setkáváme s pojmy METS a ALTO. Jedná se o standardy vyjádřené pomocí XML spravované Kongresovou knihovnou (Library of Congres). Standard METS (některé zdroj jej nazývají jako vůdce nebo dirigent) je flexibilní schéma pro popis složitého digitálního objektu (např.(jako je digitalizované vydání novin). METS zná vše, co je třeba vědět o každé stránce.


Co jsou XML METS soubory

METS (zkratka pro Metadata Encoding and Transmission Standard) je vysoce flexibilní schéma pro kódování popisných, administrativních a strukturálních metadat ke komplexnímu popisu digitálních objektů. V souboru METS nalezneme informace (název, autor, vydavatel, datum původního díla, a také informace o samotném digitálním objektu, včetně procesu digitalizace a fyzické a logické struktury objektu).

  • Část 1 – Popisná metadata
  • K popisu samotného objektu používá MODS nebo podobná metadata. Zde najdete název objektu a další informace, jako je autor, vydavatel a datum.

  • Část 2 – Administrativní metadata
  • Zde najdete informace o procesu skenování, hardwaru, softwaru pro digitalizaci, kompresi, typech souborů a další.

  • Část 3 – Sekce souboru
  • Uvádí, popisuje a odkazuje na soubory, které tvoří komplexní digitální objekt popsaný souborem METS. U novinového čísla tyto soubory obvykle zahrnují obrázky na úrovni stránky (ve formátu TIFF a/nebo JPEG 2000), soubory ALTO XML popisující rozvržení a obsah každé jednotlivé stránky a soubory PDF na úrovni stránky a/nebo na úrovni vydání.

  • Část 4 – Fyzická struktura
  • Popisuje fyzickou strukturu složitého digitálního objektu. U digitalizovaných novin tato část „ukazuje“ a popisuje stránky, které tvoří novinové číslo. Zahrnuje metadata spojená s fyzickými stránkami (např. čísla stránek a/nebo informace o objednávce) a odkazy na soubory (např. obrázky a soubory XML ALTO), které popisují každou stránku.

  • Část 5 – Logická struktura
  • Popisuje „logickou“ strukturu složitého digitálního objektu. U novin, pokud byly články identifikovány během digitalizace, je v této části uveden „obsah“ článků v novinovém čísle a také veškerá metadata (např. titulky a vedlejší řádky) spojená s jednotlivými články.


Co jsou ALTO soubory

ALTO (zkratka pro Analyzed Layout and Text Object) je schéma pro zachycení obsahu slova, stylů a prvků rozložení na digitalizované textové stránce, včetně prostorových souřadnic textových prvků, jako jsou sloupce a řádky. Často se používá v tandemu s METS XML, který poskytuje popisná a administrativní metadata o objektu, ke kterému soubor ALTO XML patří.

Dokument ALTO XML obsahuje fyzický popis, kompozici a obsah stránky digitálních objektů. Soubory ALTO mají obecně 3 sekce:

  • Sekce 1 – popis: Obsahuje popisné informace týkající se samotného ALTO souboru
  • Sekce 2 – styly: Obsahuje popisy písem a odstavců (font a velikost písma, zarovnání odstavců, řádkování)
  • Sekce 3 – rozložení: Popisuje, kde se nachází skutečný obsah a rozměry. Každý blok textu popsaný od levého horního rohu stránky. Jednotlivé řádky a obsah stránky jsou podrobně popsány. Zároveň popisuje jakékoliv objekty umístěny na stránce, jako jsou např. obrázky a tabulky.

  • S pojmy METS a ALTO se setkáváme při přípravě PSP balíčků pro export do Národní digitální knihovny Kramerius. K tomu slouží specializované softwarové nástroje, např. KAITOS.

    Autor článku: Petr Polanský
    Zdroje:
    https://veridiansoftware.com/knowledge-base/metsalto/
    https://www.bslw.com/mets-alto-introduction/
     

    Více článků od společnosti EXON


 

Pro více informací nás kontaktujte