GIVE-update: digitaliseren en metadateren op hoog tempo
26 apr 2023
Het ging de laatste maanden hard in het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering (GIVE). Het project rond massadigitalisering en metadataverrijking loopt eind dit jaar op zijn eind, en we vorderen met rasse schreden. Lees mee hoe we duizenden kranten, glasplaten, topstukken en uren aan archiefmateriaal toekomstklaar maken.
Weten wat er in de coulissen gebeurt? Op onze socialemediakanalen volg je het project van dichtbij. Verwacht je aan mijlpalen, digitaliseringsprocessen en metadata.
Kenjedrager.be voor foto gelanceerd!
Gebruikte jij onze identificatietool kenjedrager.be al? Sinds 2018 kon je er al terecht met je oude video- en audiomateriaal, en vanaf vandaag identificeer je er ook je fotografische dragers. Je vindt er ook tips rond bewaren en digitaliseren, en kan inschatten of je drager erfgoedwaarde heeft. Deze uitbreiding met fotomateriaal kwam er met de hulp van enkele foto-experts en kadert binnen het GIVE-project.

Digitalisering loopt op rolletjes
Het vereeuwigen van topstukken in 2D, 3D en gigapixel startte al een tijdje geleden op. Eind vorig jaar lieten we je weten dat ook de digitaliseringsfase voor kranten, glasplaten en topstukken uit papier en perkament bijna zou aanbreken. Vier maanden later digitaliseren, fotograferen en scannen onze digitaliseringspartners erop los. We zijn al ver gevorderd, maar er ligt nog een hele stapel op hen te wachten.

Kranten op koers
Ongeveer één vierde van het totale aantal kranten kreeg al een digitale variant. Van iedere pagina monitoren we steevast ook de kwaliteit: komt deze overeen met de strenge eisen die we stellen? Tot nu toe was dit steeds het geval.
Topstukken: een fikse uitdaging
Vorige week spande digitaliseringspartner GMS de laatste schroefjes van een op maat gemaakte digitaliseringsopstelling aan voor de topstukken uit papier en perkament. Dankzij deze wieg kunnen we de meest uitlopende topstukken zo veilig mogelijk digitaliseren. Het handschrift van Guilliam Caudron lag in het stadsarchief van Aalst als eerste voor de lens. Hierna verhuist de wieg naar 10 andere locaties om de overige 39 kostbare topstukken uit papier en perkament te digitaliseren.
Het fotograferen en 3D-scannen van schilderijen, prenten en beelden uit musea en kerken staat niet meer in de kinderschoenen: al meer dan 80% van alle werken kreeg een digitale kopie. Toch blijft het een uitdagend werkje. Sommige topstukken hangen tot wel 5 meter hoog in de lucht, andere werken moeten door de handen van een professionele art handling-firma gaan.

In beeld: projectleider Lobke met het handschrift van Caudron op de digitaliseringsopstelling, collectie stadsarchief Aalst, foto door meemoo, licentie: CC BY-SA 4.0

In beeld: gigapixelopname in de Sint-Salvatorskathedraal in Brugge, opname met kleurkalibratiekaart, foto door meemoo, licentie: CC BY-SA 4.0
In dit project betraden we voor ons onbekend terrein: hoe voorzie je een sculptuur van een 3D-kopie? De kennis die we opstaken, delen we nu graag met jou.
Glasplaten op locatie
Registratie in de slotfase
In het krantenproject Primeur (samen met de Vlaamse Erfgoedbibliotheken) en het GIVE-glasplatenproject digitaliseren we een erg groot volume aan materiaal. Al die duizenden glasplaten en kranten zorgvuldig voorbereiden en registreren is een belangrijke tussenstap om de latere massadigitalisering vlot te doen verlopen. In februari vorig jaar gingen we van start, vandaag zetten we de laatste rechte lijn in. Helemaal op koers om de laatste foto’s en kranten veilig op transport te zetten.
Nogmaals bedankt aan alle contentpartners en collega’s die zich maandenlang aan dit monnikenwerk hebben gezet!
In de ban van schaderegistratie? De Vlaamse Erfgoedbibliotheken voerde onderzoek uit naar de staat van historische kranten in Vlaamse instellingen. Aan de hand van vijf casestudies bevestigen ze het belang van krantendigitalisering.
Audio- en videomateriaal verrijken met metadata: waar staan we?
In het meemoo-archiefsysteem bewaren we een massa aan gedigitaliseerd en digitaal geboren materiaal. Dat dit materiaal momenteel nog niet of niet altijd even goed geannoteerd is, maakt dat het moeilijk doorzoekbaar en bijgevolg niet makkelijk herbruikbaar is. Het handmatig metadateren van de duizenden uren aan video’s en audiofragmenten is niet realistisch, daarom richten we ons tot methoden binnen de artificiële intelligentie en machine learning.
Gezichten detecteren en herkennen in video’s
Bij het loslaten van een dergelijke toepassing op een massa aan materiaal komen er daarnaast heel wat ethische vraagstukken naar boven. Daarom bouwen we samen met Kenniscentrum Data en Maatschappij (KDM) en enkele stakeholders aan een robuuste omkadering. Een tweede sessie in januari leverde weer een heleboel relevante input op, onder andere over de rol van onze contentpartners. Aan het einde van het project meer hierover!
Audio- en videomateriaal omzetten in doorzoekbare transcripties
Naast het matchen van gezichten aan namen, staat ook de creatie van metadata via spraakherkenning (speech-to-text of STT) en entiteitsherkenning (NER) op de planning. Wat dit inhoudt? Een externe dienst vertaalt audiobestanden naar kant-en-klare tekst (transcripties), waar we later relevante plaatsnamen, persoonsnamen, organisatienamen en andere entiteiten uit kunnen halen.
Voor spraakherkenning beslisten we eerder al om een bestaande dienst in te kopen, en hiervoor lanceerden we een openbare aanbesteding. Hierbij werden alle ingeschreven oplossingen vergeleken op het vlak van prijs en kwaliteit. Om objectief te blijven, vergeleken we de verschillende opties met materiaal dat we handmatig lieten transcriberen. Uiteindelijk kwam Speechmatics uit de bus. Momenteel leggen we de laatste hand aan de integratie van hun dienst in onze architectuur.
Nog even sleutelen, en de drie toepassingen kunnen van start met het verrijken van 160.000 uur aan audio- en 120.000 uur aan videobestanden uit het meemoo-archiefsysteem…
En hierna?
Eind 2023 zal het GIVE-project afgerond zijn. We maken de gedigitaliseerde kranten, topstukken en glasplaten hierna stelselmatig toegankelijk op onze platformen en, indien gewenst, via de platformen van onze deelnemende partners. Ook de gegenereerde metadata stomen we klaar voor vlot hergebruik.