Over digitaliseren en automatisch metadateren: een eerste grote GIVE-update

29 apr 2022

Samen met een heleboel partners zetten we onze schouders twee jaar lang onder het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering (kortweg GIVE). Onze ambitie? Een berg aan historische kranten, glasplaten en topstukken digitaliseren én grote sprongen maken op het vlak van automatische metadatering. Sinds het startschot in 2021 is er al heel wat werk verzet. In deze eerste update lees je er alles over.

De GIVE-projecten worden gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling en kaderen binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid.

In beeld: 'Mannen lezen kranten op straat in Nanjing, China', Stougard, 2008, CC BY-SA 3.0

Samen met Vlaamse Erfgoedbibliotheken (VEB) bundelen we onze krachten om op twee jaar tijd ruim 600.000 krantenpagina's te digitaliseren. Dit is er de afgelopen maanden gebeurd:

  • In november 2021 rondde VEB de selectieprocedure af van de titels die in dit project gedigitaliseerd zullen worden. Daarbij hielden ze rekening met drie basiscriteria: de geselecteerde titels zijn kranten (1) die gepubliceerd zijn in Vlaanderen (2), en die nog niet gedigitaliseerd zijn (3). Kwetsbare kranten met een dringende nood aan digitalisering krijgen bovendien voorrang.

  • Afgelopen maand hebben we de geknipte digitaliseringspartner gevonden. In januari publiceerden we de openbare aanbesteding, 3 maanden later was de gunning officieel. Voor de krantendigitalisering gaan we in zee met het Nederlandse Picturae, met wie we eerder al samenwerkten in digitaliseringsprojecten 2, 4, 6 en 9.

  • In februari en maart trokken we samen met VEB richting de betrokken contentpartners voor een snelcursus registreren. Elk van de ongeveer 100.000 kranten moet geregistreerd worden: dit wil zeggen dat ze een barcode krijgen en dat de technische kenmerken genoteerd worden. En dat loopt vlot, want met behulp van enkele BIS-stagiairs werd de eerste registratiedeadline ruim op voorhand behaald.

En nu?

De volgende stap is een spannende: deze maand nog steken we de koppen bijeen met Picturae om de digitalisering op gang te trappen. In mei en begin juni beginnen we met testen, de eigenlijke productie start dan in juli.

In beeld: krant uit de collectie van ADVN

De nood aan digitalisering van fotomateriaal staat al even op onze radar, met dit glasplatenproject nemen we een volgende stap. De afgelopen maanden deden we gulzig kennis op, stippelden we - met behulp van advieswerkgroepen - een logistiek proces uit - en stelden we onze tools en processen op punt. Daarnaast legden we de laatste hand aan de selectie van het aantal glasplaten en de betrokken contentpartners.

In beeld: rolkar met glasplaten klaar voor digitalisering, UGent

Vlotte voorbereiding

Die contentpartners zijn trouwens volop bezig met de voorbereiding van hun materiaal. In februari zijn ze gestart met het registreren en verpakken van hun glasplaten, met de hulp van BIS-stagiaires Marthe en Ingrid. Daar zijn ze nog zeker tot augustus zoet mee. In de tussentijd komen de registratoren alle ins en outs van de glasplaat te weten tijdens een workshop die we organiseren in samenwerking met Fotomuseum Antwerpen.

Aanbesteding opnieuw gepubliceerd

Omdat de digitaliseringsprijzen hoger uitvallen dan verwacht, hebben we de aanbesteding vorige maand voor de tweede keer gepubliceerd. De gunning - die oorspronkelijk voorzien was voor eind maart - schuift daarom op naar begin juni. Daardoor gaat de digitalisering iets later van start dan verwacht, maar gelukkig heeft dit geen invloed op het algemene verloop van het project. Wij maken intussen van de tijd gebruik om de puntjes op de i te zetten voor de volgende fases, terwijl de betrokken contentpartners verder blijven verpakken en registreren.

Binnen het Topstukkenproject maken we een onderscheid tussen 2D-topstukken en gigapixelfotografie, 3D-topstukken en tot slot ook Vlaamse topstukken uit papier of perkament. Elk vragen ze een eigen aanpak en timing. Hoe het ermee staat?

Voor 2D & gigapixelfotografie én 3D zitten de volgende stappen er inmiddels op:

  • Eerst en vooral hebben we een database opgezet met een overzicht van alle topstukken per categorie.

  • In samenspraak met de Topstukkenraad en de beheerders van de werken hebben we een finale selectie gemaakt voor digitalisering. Wist je dat we 11 3D-topstukken digitaliseren, waarvan eentje uit maar liefst 116 terracotta beeldhouwwerken bestaat? Het gaat om de indrukwekkende collectie-Van Herck.

  • De digitalisering zal zoals steeds gebeuren door externe fotografen. In februari stuurden we de aanbesteding voor 2D- en gigapixelfotografie uit naar 4 potentiële kandidaten. De gunning volgt spoedig. Deze maand ging ook de aanbesteding voor de 3D-topstukken de deur uit. De gunning wordt eind juni voorzien.

2D-werken digitaliseren we door ze te laten fotograferen. Maar wat met 3D-objecten? Die kan je digitaal capteren door middel van 3D-scanning of fotogrammetrie. Beide technieken vergen een heel andere aanpak. Bij fotogrammetrie wordt het object rondomrond gefotografeerd, met tot wel 200 foto's per object. Daarvan wordt achteraf een 3D-model gemaakt door speciale software. Scanning neemt wat minder tijd in beslag: het object wordt ter plekke geregistreerd door middel van een scantoestel. In overleg met een consultant en meemoo's team expertise hebben we in dit project gekozen voor scanning. Maar ook voor ons is het een leerproces.

In beeld: fotografie in Memorial Museum Passchendaele 1917, www.artinflanders.be

En nu?

Momenteel leggen we de puzzel voor de fotografie en scanning: beiden gaan van start in mei. Geen makkie, want de opnames kunnen in de meeste gevallen enkel op maandagen - de sluitingsdag van de meeste musea - doorgaan. Daarnaast zijn een aantal werken in bruikleen, en moeten we rekening houden met geplande restauraties. De werken uit de vaste opstelling van het KMSKA krijgen bovendien voorrang, zodat ze deze zomer - nog voor de grote heropening van het museum - gescand en gefotografeerd kunnen worden.

In beeld: manuscript uit het topstuk 'De middeleeuwse poortersboeken van Oudenaarde en Pamele', Stadsarchief Oudenaarde

Voor de Vlaamse topstukken uit papier of perkament is het einde van de voorbereiding in zicht. Zo legden we de laatste hand aan de selectie: we digitaliseren 40 objecten uit papier of perkament, die deel uitmaken van 26 topstukken. In dit project doen naast 8 contentpartners ook andere stadsarchieven, erfgoedbibliotheken en een aantal kerkelijke instellingen mee.

Daarnaast brachten we een consultant aan boord. Als expert behoud en beheer stelt restauratrice Martine Eeckhout conditierapporten op van elk topstuk. Ze adviseert ons over:

  • de algemene staat van de stukken;

  • of ze al dan niet gedigitaliseerd mogen én kunnen worden in de huidige staat;

  • waar de aandachtspunten bij digitalisering liggen, om het topstuk zo min mogelijk schade te berokkenen;

  • welke restauratie- of conservatie-acties er nog kunnen gebeuren, buiten het GIVE-project om. Dit met het oog op een nóg kwalitatievere digitalisering.

In de tussentijd werken we hard aan de aanbesteding, die gaat eind deze maand de deur uit. Voor het uitwerken van de technische aspecten van de aanbesteding werkten we samen met Hans van Dormolen, de bezieler van de Metamorfoze-richtlijnen. Dit is de kwaliteitsnorm die we in dit project hanteren.

En nu?

Terwijl de overige conditierapporten worden opgesteld, maken we verdere afspraken met de beheerders van de topstukken. In de tussentijd sleutelen we ook aan het metadatamodel, met het oog op een duurzame archivering en ontsluiting. Net voor de zomer weten we wie onze digitaliseringspartner wordt, en eind juni gaat die al aan het testen. In september gaat de eigenlijke digitalisering dan van start.

Voor de ontsluiting en doorzoekbaarheid van gedigitaliseerd materiaal zijn goede metadata onontbeerlijk. In het GIVE-metadataproject onderzoeken we hoe artificiële intelligentie en machine learning ons vooruit kunnen helpen bij het creëren én verrijken van metadata. Concreet gaan we aan de slag met:

  • spraakherkenning in audio- en videobestanden (ook wel Speech-To-Text of STT genoemd)

  • entiteitsherkenning in tekst (kortweg NER of Named Entity Recognition)

  • gezichtsdetectie en -herkenning in video.

In beeld: 'Gezichtsherkenning toegepast op een foto uit de voorstelling ‘Ik wist niet dat Engeland zo mooi was’ van theatergezelschap Radeis', foto door Michiel Hendryckx, CC BY-SA 4.0

Een hele boterham, en de afgelopen maanden hebben we dan ook niet stilgezeten. Zo hebben we o.a. een Data Protection Impact Assessment (DPIA) uitgevoerd, en bereiden we ons voor op het aanbestedingsproces. Daarover de volgende keer meer. Daarnaast zetten we momenteel een werkgroep op van contentpartners die tijdens dit luik van het GIVE-project als klankbord zal dienen. Op die manier willen we tot een goede wisselwerking komen en worden de activiteiten van het project zo veel mogelijk afgestemd op de noden en bezorgdheden die leven bij onze contentpartners.

Data Protection Impact Assessment (DPIA)

Activiteiten zoals gezichtsherkenning brengen een hoop ethische en juridische vraagtekens met zich mee. Daarom springen we er in onze projecten voorzichtig mee om. Om te voldoen aan de regelgeving met betrekking tot de bescherming van persoonsgegevens, hebben we voor het GIVE-metadataproject een Data Protection Impact Assessment (DPIA) uitgevoerd in nauw overleg met een Data Protection Officer (DPO). In een techblog over de juridische en ethische aspecten van gezichtsherkenning, gaan we er uitgebreid op in. Daarnaast delen we ook inzichten en vraagstukken die naar boven kwamen tijdens het FAME-project, waarin we sinds 2021 onderzoeken hoe gezichtsherkenning kan bijdragen aan automatische metadatacreatie en -verrijking.

We halen de pagina op, even geduld...