GIVE-metadataproject

Een flink deel van het materiaal in het meemoo-archiefsysteem is momenteel nog niet voldoende beschreven. Lijn vier binnen GIVE, het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering, staat daarom volledig in het teken van metadata. In dit project onderzoeken we de mogelijkheden van een automatisch beschrijvingsproces: een cruciale stap in het kader van vindbaarheid en hergebruik.

Dit project kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid en wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.

Mee in 4 minuten

Zie je geen filmpje? Controleer even je cookie-instellingen, dan kunnen we deze inhoud ook aan jou tonen.

Pas je cookie-instellingen hier aan

Zie je geen filmpje? Controleer even je cookie-instellingen, dan kunnen we deze inhoud ook aan jou tonen. Je cookie-instellingen aanpassen kan onderaan deze pagina. Klik op 'verander uw toestemming' en vink 'voorkeuren' aan.

Uitdaging

Bij meemoo archiveren we een enorme hoeveelheid audio- en videobestanden van organisaties in cultuur, media en erfgoed. Aan het einde van 2022 stond de teller in totaal op ruim 6,5 miljoen objecten, waarvan zo'n 2 miljoen objecten aan audiovisueel materiaal. Waar al deze bestanden vandaan komen? De afgelopen jaren werd een groot deel van de audiovisuele dragers in de Vlaamse culturele archieven succesvol gedigitaliseerd, en ook digitaal geboren materiaal vond en vindt nog steeds zijn weg naar het meemoo-archiefsysteem.

Deze massa aan materiaal blijkt echter niet of niet altijd even goed geannoteerd en is bijgevolg niet eenvoudig doorzoekbaar. Hierdoor komt ook het stimuleren van hergebruik in het gedrang. Een bestand dat niet omschreven is, kan niet gevonden en dus ook niet hergebruikt worden.

De oplossing? Die ligt in het toevoegen en uitbreiden van metadata. Het handmatig inhalen van deze achterstand is echter onbegonnen werk: manueel metadateren vraagt zeeën van tijd. Daarom zetten we in op een automatisch beschrijvingsproces waarbij we gebruik maken van technieken als artificiële intelligentie (AI), machine learning en computer vision.

Onze rol

In het GIVE-metadataproject staat meemoo in voor de organisatie en coördinatie. We kiezen maximaal voor diensten en algoritmes die reeds ontwikkeld zijn en werken voor de uitvoering samen met externe leveranciers. Hierdoor zullen we, tenzij het niet anders kan, geen of zeer beperkt nieuwe modellen moeten trainen of uitrollen.

Aanpak

Wat zijn we van plan?

Gegeven de financiering, heeft dit project betrekking op alle collecties binnen meemoo, met uitzondering van de collecties van onze mediapartners. Die komen aan bod binnen het project Shared AI. Om de collecties van onze erfgoed- en overheidspartners te voorzien van metadata gaan we van juli 2021 tot eind 2023 aan de slag met drie activiteiten rond metadatacreatie. We zetten hiervoor in op mature technieken en ontwikkelen workflows die na het project bruikbaar blijven.

Activiteit 1: spraakherkenning

In deze eerste pijler leggen we de focus op de herkenning van gesproken taal in zo’n 130.000 audio-en videobestanden. Dit betekent dat een duizelingwekkende hoeveelheid van meer dan 170.000 uur van metadata voorzien wordt. De spraak uit de audio- en videobestanden wordt omgezet in tekst die doorzoekbaar is en tijdsannotaties bevat. Voor de uitvoering van deze activiteit doen we een beroep op de tooling van Speechmatics. In het voorjaar van 2023 integreerden we het gekozen systeem in onze architectuur. In de zomer van 2023 liep de spraakherkenning op z'n einde.

Afbeelding: Nieuwe televisiezender te Lopik, Jack de Nijs / Anefo, CC0

Activiteit 2: entiteitsherkenning in tekst

Op basis van de teksten die we uit het eerste luik rond spraakherkenning genereerden, gaan we vervolgens aan de slag met entiteitsherkenning (ook wel named entity recognition of NER). We zoeken op deze manier bijvoorbeeld namen van personen, organisaties of locaties. Waar mogelijk wordt een deel van deze entiteiten gelinkt aan bestaande bestanden in linkedopendatabronnen. De onderliggende technologie die gebruikt wordt bij entiteitsherkenning is NLP, een stukje software dat geschreven teksten ‘begrijpt’. Voor de uitvoering van deze activiteit doen we een beroep op de SaaS-toepassing TextRazor.

Rob Croes / Anefo, CC0

Afbeelding: Gebouw Arbeiderspers Hekelveld, Rob Croes / Anefo, CC0

Activiteit 3: gezichtsdetectie en -herkenning

Tijdens deze laatste activiteit verrijken we zo’n 88.000 videobestanden - goed voor 124.000 uur. In eerste instantie detecteren we in dit materiaal gezichten zonder deze al meteen te benoemen. Elk gezicht dat in een video voorkomt, is immers niet per se een gezicht waar we een naam op moeten plakken. De detectiefase loopt af in oktober 2023. Hierop voortbouwend passen we gezichtsherkenning toe op de gedetecteerde gezichten. We kiezen hier voor een vaste set aan gezichten die we zullen linken aan bestaande publieke figuren. Waar mogelijk linken we naar bestaande databronnen zoals VIAF, Wikidata of ODIS. In deze activiteit bouwen we trouwens zelf tooling uit, op basis van de inzichten uit het FAME-project. Zo garanderen we het opschalen van de verwerking van videomateriaal.

Afbeelding: Het proces van gezichtsherkenning toegepast op een foto van acteur Josse De Pauw en danseres Fumiyo Ikeda (ca. 1979), Michiel Hendryckx, CC0

Nood aan juridische en ethische omkadering

Binnen dit verhaal mogen we privacy en een goed juridisch en ethisch kader niet uit het oog verliezen. Dit geldt in het bijzonder voor gezichtsdetectie en -herkenning. Daarom zetten we in 2021 op juridisch vlak alvast een eerste stap en voerden we een Data Protection Impact Assessment (DPIA) uit. Daarnaast bouwen we samen met Kenniscentrum Data en Maatschappij (KDM) en enkele stakeholders aan een robuuste ethische omkadering.

We beseffen maar al te goed dat je met technologieën als gezichtsherkenning op een voorzichtige manier met omspringen. Daarom schreven meemoo-collega’s Bart Magnus en Rutger Goeminne een techblog over de juridische en ethische uitdagingen uit het FAME-project en de eerste fase van het GIVE-metadataproject.

Klaar voor hergebruik

Een laatste niet te missen stap is het beschikbaar maken van de verkregen metadata voor ontsluiting. De metadata uit de drie activiteiten zullen gedeeld en bruikbaar gemaakt worden via applicaties van onze contentpartners en van meemoo zelf. Daartoe worden de metadata opgeslagen in de metadata-infrastructuur van meemoo. Zo zal het materiaal uiteindelijk veel beter doorzoekbaar zijn voor het brede publiek. Bovendien gaan we aan de slag met datamining, een automatische analysetechniek waarbij we informatie en kennis uit metadata kunnen halen.

Meer relanceprojecten?

Het GIVE-metadataproject is één van de vier lijnen binnen GIVE. Naast inzetten op metadataverrijking staan ook de digitalisering van kranten (Primeur), glasplaten en topstukken op de planning. Hoe we tot de selectie van de vier lijnen kwamen? Je leest het hier. Meemoo speelt ook een rol in andere lijnen binnen het relanceplan Vlaamse Veerkracht, met name in het traject van de Vlaamse erfgoeddatabanken, de begeleiding van cultuurorganisaties bij hun projecten rond digitale collectieregistratie en de Digisprong van het onderwijs.

Partners

In het GIVE-metadataproject betrekken we zo'n 120 contentpartners uit de cultuur- en overheidssector. Op onze partnerpagina scroll je door de betrokken organisaties.

Heb je een vraag?
Contacteer Matthias Priem
Manager Archivering
We halen de pagina op, even geduld...