GIVE-update: digitaliseren en metadateren op hoog tempo

26 apr 2023

Het ging de laatste maanden hard in het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering (GIVE). Het project rond massadigitalisering en metadataverrijking loopt eind dit jaar op zijn eind, en we vorderen met rasse schreden. Lees mee hoe we duizenden kranten, glasplaten, topstukken en uren aan archiefmateriaal toekomstklaar maken.

Weten wat er in de coulissen gebeurt? Op onze socialemediakanalen volg je het project van dichtbij. Verwacht je aan mijlpalen, digitaliseringsprocessen en metadata.

Gebruikte jij onze identificatietool kenjedrager.be al? Sinds 2018 kon je er al terecht met je oude video- en audiomateriaal, en vanaf vandaag identificeer je er ook je fotografische dragers. Je vindt er ook tips rond bewaren en digitaliseren, en kan inschatten of je drager erfgoedwaarde heeft. Deze uitbreiding met fotomateriaal kwam er met de hulp van enkele foto-experts en kadert binnen het GIVE-project.

Het vereeuwigen van topstukken in 2D, 3D en gigapixel startte al een tijdje geleden op. Eind vorig jaar lieten we je weten dat ook de digitaliseringsfase voor kranten, glasplaten en topstukken uit papier en perkament bijna zou aanbreken. Vier maanden later digitaliseren, fotograferen en scannen onze digitaliseringspartners erop los. We zijn al ver gevorderd, maar er ligt nog een hele stapel op hen te wachten.

Kranten op koers

Ongeveer één vierde van het totale aantal kranten kreeg al een digitale variant. Van iedere pagina monitoren we steevast ook de kwaliteit: komt deze overeen met de strenge eisen die we stellen? Tot nu toe was dit steeds het geval.

Aandacht voor bruikbaarheid is er ook in Primeur: door middel van optische tekenherkenning (OCR) wordt het gedigitaliseerde materiaal machineleesbaar gemaakt. Je zal de kranten dus niet alleen kunnen doorbladeren vanachter je computer, maar ook vlot doorzoeken op relevante passages.

In beeld: OCR toegepast op een krant, uit Vooruit: socialistisch dagblad, 25/9/1914, via nieuwsvandegrooteoorlog.hetarchief.be

Topstukken: een fikse uitdaging

Vorige week spande digitaliseringspartner GMS de laatste schroefjes van een op maat gemaakte digitaliseringsopstelling aan voor de topstukken uit papier en perkament. Dankzij deze wieg kunnen we de meest uitlopende topstukken zo veilig mogelijk digitaliseren. Het handschrift van Guilliam Caudron lag in het stadsarchief van Aalst als eerste voor de lens. Hierna verhuist de wieg naar 10 andere locaties om de overige 39 kostbare topstukken uit papier en perkament te digitaliseren.

Het fotograferen en 3D-scannen van schilderijen, prenten en beelden uit musea en kerken staat niet meer in de kinderschoenen: al meer dan 80% van alle werken kreeg een digitale kopie. Toch blijft het een uitdagend werkje. Sommige topstukken hangen tot wel 5 meter hoog in de lucht, andere werken moeten door de handen van een professionele art handling-firma gaan.

In beeld: projectleider Lobke met het handschrift van Caudron op de digitaliseringsopstelling, collectie stadsarchief Aalst, foto door meemoo, licentie: CC BY-SA 4.0

In beeld: gigapixelopname in de Sint-Salvatorskathedraal in Brugge, opname met kleurkalibratiekaart, foto door meemoo, licentie: CC BY-SA 4.0

In dit project betraden we voor ons onbekend terrein: hoe voorzie je een sculptuur van een 3D-kopie? De kennis die we opstaken, delen we nu graag met jou.

Glasplaten op locatie

De digitalisering van meer dan 170.000 glasplaten schoot in maart uit de startblokken. Na maanden van voorbereidend werk digitaliseert GMS nu aan de lopende band plaatjes in alle kleuren en formaten. Twee derde van alle dragers gaat naar Sliedrecht, voor de overige glasplaten trekt onze digitaliseringspartner met een mobiele studio naar twee extra locaties. Momenteel vertoeven ze enkele maanden in de Boekentoren, hierna is het de beurt aan de collectie van het Fotomuseum.

In beeld: de digitalisering in z'n werk in de Boekentoren, GMS, foto door meemoo, licentie: CC BY-SA 4.0

In het krantenproject Primeur (samen met de Vlaamse Erfgoedbibliotheken) en het GIVE-glasplatenproject digitaliseren we een erg groot volume aan materiaal. Al die duizenden glasplaten en kranten zorgvuldig voorbereiden en registreren is een belangrijke tussenstap om de latere massadigitalisering vlot te doen verlopen. In februari vorig jaar gingen we van start, vandaag zetten we de laatste rechte lijn in. Helemaal op koers om de laatste foto’s en kranten veilig op transport te zetten.

Nogmaals bedankt aan alle contentpartners en collega’s die zich maandenlang aan dit monnikenwerk hebben gezet!

Wist-je-datje: schaderegistratie

Papieren en fotografische dragers hebben ondanks goede bewaaromstandigheden vaak te lijden aan ziektes en kwaaltjes. Gebroken, gescheurd, beschimmeld, verzuurd, verkleurd, vuil, een losse emulsielaag… Deze ontsieringen hebben te maken met het autodestructieve karakter van het materiaal, en zorgen voor de nodige uitdagingen bij digitaliseren. Om dit vlot te laten verlopen en om een overzicht te krijgen van de materiële conditie van dragers over organisaties heen, slaan we schadekenmerken niet over.

In beeld: glasplaat met loskomende emulsielaag, van Vereniging Ons Tehuis Coulembier, collectie Stadsarchief Ieper, licentie: CC BY-SA 4.0

In de ban van schaderegistratie? De Vlaamse Erfgoedbibliotheken voerde onderzoek uit naar de staat van historische kranten in Vlaamse instellingen. Aan de hand van vijf casestudies bevestigen ze het belang van krantendigitalisering.

In het meemoo-archiefsysteem bewaren we een massa aan gedigitaliseerd en digitaal geboren materiaal. Dat dit materiaal momenteel nog niet of niet altijd even goed geannoteerd is, maakt dat het moeilijk doorzoekbaar en bijgevolg niet makkelijk herbruikbaar is. Het handmatig metadateren van de duizenden uren aan video’s en audiofragmenten is niet realistisch, daarom richten we ons tot methoden binnen de artificiële intelligentie en machine learning.

Gezichten detecteren en herkennen in video’s

Met de inbreng van onze contentpartners schaven we momenteel de gezichtsdetectie- en gezichtsherkenningssoftware nog even bij. We testen het nieuwe gezichtsherkenningsmodel uit en passen de parameters aan, zodat de afgebeelde personen zo goed mogelijk herkend kunnen worden.

In beeld: gezichtsherkenning toegepast op een video van KADOC KU Leuven

Bij het loslaten van een dergelijke toepassing op een massa aan materiaal komen er daarnaast heel wat ethische vraagstukken naar boven. Daarom bouwen we samen met Kenniscentrum Data en Maatschappij (KDM) en enkele stakeholders aan een robuuste omkadering. Een tweede sessie in januari leverde weer een heleboel relevante input op, onder andere over de rol van onze contentpartners. Aan het einde van het project meer hierover!

Audio- en videomateriaal omzetten in doorzoekbare transcripties

Naast het matchen van gezichten aan namen, staat ook de creatie van metadata via spraakherkenning (speech-to-text of STT) en entiteitsherkenning (NER) op de planning. Wat dit inhoudt? Een externe dienst vertaalt audiobestanden naar kant-en-klare tekst (transcripties), waar we later relevante plaatsnamen, persoonsnamen, organisatienamen en andere entiteiten uit kunnen halen.

Voor spraakherkenning beslisten we eerder al om een bestaande dienst in te kopen, en hiervoor lanceerden we een openbare aanbesteding. Hierbij werden alle ingeschreven oplossingen vergeleken op het vlak van prijs en kwaliteit. Om objectief te blijven, vergeleken we de verschillende opties met materiaal dat we handmatig lieten transcriberen. Uiteindelijk kwam Speechmatics uit de bus. Momenteel leggen we de laatste hand aan de integratie van hun dienst in onze architectuur.

Voor het vervolg, de entiteitsherkenning (NER) op de transcripties, voeren we vlijtig onderzoek naar het beste model. We vergelijken verschillende oplossingen - zowel open source als commercieel beschikbare modellen - en maken nog voor de start van de zomer een keuze.

In beeld: toepassing van NER op een uittreksel van een cassatie-arrest, © IT Daily

Nog even sleutelen, en de drie toepassingen kunnen van start met het verrijken van 160.000 uur aan audio- en 120.000 uur aan videobestanden uit het meemoo-archiefsysteem…

En hierna?

Eind 2023 zal het GIVE-project afgerond zijn. We maken de gedigitaliseerde kranten, topstukken en glasplaten hierna stelselmatig toegankelijk op onze platformen en, indien gewenst, via de platformen van onze deelnemende partners. Ook de gegenereerde metadata stomen we klaar voor vlot hergebruik.

We halen de pagina op, even geduld...