GIVE-metadataproject

Een flink deel van het materiaal in het meemoo-archiefsysteem is momenteel nog niet voldoende beschreven. Lijn vier binnen GIVE, het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering, staat daarom volledig in het teken van metadata. In dit project onderzoeken we de mogelijkheden van een automatisch beschrijvingsproces: een cruciale stap in het kader van vindbaarheid en hergebruik.

Dit project kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid en wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.

Uitdaging

Bij meemoo archiveren we een enorme hoeveelheid audio- en videobestanden van organisaties in cultuur, media en erfgoed. Momenteel staat de teller in totaal op ruim 6 miljoen objecten, waarvan bijna 2 miljoen objecten aan audiovisueel materiaal. Waar al deze bestanden vandaan komen? De afgelopen jaren werd een groot deel van de audiovisuele dragers in de Vlaamse culturele archieven succesvol gedigitaliseerd, en ook digitaal geboren materiaal vond en vindt nog steeds zijn weg naar het meemoo-archiefsysteem.

Deze massa aan materiaal blijkt echter niet of niet altijd even goed geannoteerd en is bijgevolg niet doorzoekbaar. Hierdoor komt ook het stimuleren van hergebruik in het gedrang. Een bestand dat niet omschreven is, kan niet gevonden en dus ook niet hergebruikt worden.

De oplossing? Die ligt in het toevoegen en uitbreiden van metadata. Het handmatig inhalen van deze achterstand is echter onbegonnen werk: manueel metadateren vraagt zeeën van tijd. Daarom zetten we in op een automatisch beschrijvingsproces waarbij we gebruik maken van technieken als artificiële intelligentie (AI), machine learning en computer vision.

Onze rol

In het GIVE-metadataproject staat meemoo in voor de organisatie en coördinatie. We kiezen maximaal voor diensten en algoritmes die reeds ontwikkeld zijn en werken voor de uitvoering samen met externe leveranciers. Hierdoor zullen we, tenzij het niet anders kan, geen of zeer beperkt nieuwe modellen moeten trainen of uitrollen.

Aanpak

Wat zijn we van plan?

Gegeven de financiering heeft dit project betrekking op alle collecties binnen meemoo, met uitzondering van de collecties van onze mediapartners. Om deze collecties te voorzien van metadata gaan we de komende twee jaar (2022-2023) aan de slag met drie activiteiten rond metadatacreatie. We zullen hiervoor inzetten op mature technieken en willen workflows ontwikkelen die na het project bruikbaar blijven.

Activiteit 1: spraakherkenning

In deze eerste pijler leggen we de focus op de herkenning van de Nederlandse taal in zo’n 160.000 audio-en videobestanden. Dit betekent dat een duizelingwekkende hoeveelheid van meer dan 170.000 uur van metadata voorzien zal worden. De spraak uit de audio- en videobestanden wordt omgezet in tekst die doorzoekbaar is en tijdsannotaties bevat. Voor de uitvoering van deze activiteit doen we een beroep op bestaande en commercieel beschikbare tooling.

Afbeelding: Nieuwe televisiezender te Lopik, Jack de Nijs / Anefo, CC0

Activiteit 2: entiteitsherkenning in tekst

Op basis van de teksten die we uit het eerste luik rond spraakherkenning zullen genereren, gaan we vervolgens aan de slag met entiteitsherkenning (ook wel named entity recognition of NER). We zoeken op deze manier bijvoorbeeld namen van personen, organisaties of locaties. Waar mogelijk wordt een deel van deze entiteiten gelinkt aan bestaande bestanden in linkedopendatabronnen. De onderliggende technologie die gebruikt wordt bij entiteitsherkenning is NLP, een stukje software dat geschreven teksten ‘begrijpt’.

Rob Croes / Anefo, CC0

Afbeelding: Gebouw Arbeiderspers Hekelveld, Rob Croes / Anefo, CC0

Activiteit 3: gezichtsdetectie en -herkenning

Tijdens deze laatste activiteit gebruiken we zo’n 120.000 uur aan videomateriaal. In eerste instantie willen we hier gezichten in detecteren zonder die al meteen te benoemen. Elk gezicht dat in een video voorkomt is immers niet per se een gezicht waar we een naam op moeten plakken. Hierop voortbouwend passen we gezichtsherkenning toe op de gedetecteerde gezichten. We kiezen hier voor een vaste set aan gezichten die we zullen linken aan bestaande publieke figuren. Waar mogelijk linken we naar bestaande databronnen zoals VIAF, Wikidata of ODIS. In deze activiteit bouwen we verder op inzichten uit het FAME-project.

Afbeelding: Het proces van gezichtsherkenning toegepast op een foto van acteur Josse De Pauw en danseres Fumiyo Ikeda (ca. 1979), Michiel Hendryckx, CC0

Nood aan juridische omkadering

Binnen dit verhaal mogen we privacy en een goed juridisch kader niet uit het oog verliezen. Dit geldt in het bijzonder voor gezichtsdetectie en -herkenning. Daarom zetten we in 2021 alvast een eerste stap en voerden we een Data Protection Impact Assessment (DPIA) uit.

Klaar voor hergebruik

Een laatste niet te missen stap is het beschikbaar maken van de verkregen metadata voor ontsluiting. De metadata uit de vier activiteiten zullen gedeeld en bruikbaar gemaakt worden via applicaties van onze contentpartners en van meemoo zelf. Daartoe worden de metadata opgeslagen in de metadata-infrastructuur van meemoo. Zo zal het materiaal uiteindelijk veel beter doorzoekbaar zijn voor het brede publiek. Bovendien gaan we aan de slag met datamining, een automatische analysetechniek waarbij we informatie en kennis uit metadata kunnen halen.

Meer GIVE?

Het GIVE-metadataproject is één van de vier lijnen binnen GIVE. Naast inzetten op metadataverrijking staan ook de digitalisering van kranten (Primeur), glasplaten en topstukken op de planning. Hoe we tot de selectie van de vier lijnen kwamen? Je leest het hier.

Meemoo speelt ook een rol in andere lijnen binnen het relanceplan Vlaamse Veerkracht, met name in het traject van de Vlaamse erfgoeddatabanken, de begeleiding van cultuurorganisaties bij hun projecten rond digitale collectieregistratie en de Digisprong van het onderwijs.

Partners

In het GIVE-metadataproject betrekken we zo'n 120 contentpartners uit de cultuursector.

Heb je een vraag?
Contacteer Matthias Priem
Manager Archivering
We halen de pagina op, even geduld...