Shared AI: metadataverrijking voor de mediasector

Er bevindt zich een massa aan audiovisueel materiaal in het digitale meemoo-archief. Dat deze content wegens een gebrek aan beschrijvende metadata niet makkelijk doorzoekbaar is, vingen we voor de overheids- en cultuursector al op in het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering (GIVE). In het innovatieve Shared AI bouwen we verder op deze opgezette systemen, en slaan we voor de automatische annotatie van mediacontent in een regionale context de handen in elkaar met verschillende spelers uit de mediasector. 

Dit project kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid.

Uitdaging

De opzet van Shared AI komt voort uit het feit dat het archiefmateriaal in het meemoo-archiefsysteem niet eenvoudig doorzoekbaar is. Vaak is het niet of niet altijd even goed beschreven, en dus moeilijk tot niet vindbaar! Hierdoor komt ook het stimuleren van hergebruik in het gedrang. De oplossing ligt in het toevoegen en uitbreiden van metadata. Het handmatig inhalen van deze achterstand is echter onbegonnen werk: manueel metadateren vraagt zeeën van tijd. Daarom zetten we in op een automatisch beschrijvingsproces waarbij we gebruik maken van technieken uit de artificiële intelligentie (AI) en machine learning.

Artificiële of kunstmatige intelligentie op je eentje inzetten als (kleine) organisatie, is best uitdagend. Daarom is één van de kernelementen van Shared AI de mate van samenwerking. Door de verschillende archieven van de regionale omroepen en het VRT-archief samen te nemen, zorgen we voor:

  • de schaal die nodig is om AI-technologie efficiënt in te zetten;

  • de nodige technische expertise;

  • en overleg rond redactieprocessen. Wie willen we bijvoorbeeld herkennen, en wie niet?

In beeld: Nederlandse les in Arlington House voor Engelse meisjes en vrouwen werkzaam in de kantoren van de Nederlandse regering, onbekend / publiek domein, licentie: CC0 1.0, via Wikimedia Commons.

Onze rol

In dit project werken we samen met de VRT en de regionale omroepen. Gezien de opgedane kennis uit het GIVE-project én omdat meemoo al jarenlang het archiefmateriaal van deze mediapartners digitaliseert, archiveert en ontsluit, nemen wij het voortouw in dit samenwerkingsproject. We staan in voor de organisatie en coördinatie, en voor de verwerking van het audiovisuele materiaal.

Projectpartner VRT deed al heel wat kennis op over metadataverrijking via artificiële intelligentie (AI) en zal zich dan ook buigen over de implementatie van gedeelde authorities of bronnen. De regionale omroepen AVS, BRUZZ, De Buren, RING TV, RMM en RTV zullen o.a. mee nadenken over het redactieproces en de privacy-aspecten die daar betrekking op hebben: wie willen we bijvoorbeeld wel en niet herkennen, en wie beslist dit. 

Aanpak

Dit project omvat de collecties van alle mediapartners van meemoo. We gaan aan de slag met een groot deel van het archief van de regionale omroepen, en verwerken minstens 65.000 uur aan audio en video uit het VRT-archief. Om deze vele uren aan archiefmateriaal te voorzien van metadata, gaan we van oktober 2023 tot eind 2024 aan de slag met dezelfde AI-activiteiten als in het GIVE-metadataproject. Deze workflows blijven ook na het project bruikbaar. Zo bouwen we een stevige basis voor uniforme metadata over mediaspelers heen.  

Drie AI-activiteiten

Spraakherkenning (Speech to Text)

Met behulp van een derdepartijsysteem zetten we Vlaamse audio- en videocontent om in doorzoekbare hoogkwalitatieve transcripties.

Entiteitsherkenning (Named Entity Recognition of NER)

In deze lijn bouwen we voort op de kwalitatieve transcripties uit de spraakherkenning. Met behulp van een derdepartijsysteem halen we persoonsnamen, plaatsen en organisaties uit de transcripties. Waar mogelijk linken we ze aan Wikidata en andere authentieke bronnen (ook wel authorities). 

Gezichtsdetectie en gezichtsherkenning

Door gedetecteerde gezichten uit videobestanden te vergelijken met een referentieset, kunnen we bekende en relevante personen identificeren. Herkende personen worden zo onderdeel van de beschrijvende metadata bij de video, en makkelijker vindbaar!

Liever video?

Zie je geen filmpje? Controleer even je cookie-instellingen, dan kunnen we deze inhoud ook aan jou tonen.

Pas je cookie-instellingen hier aan

Zie je geen filmpje? Controleer even je cookie-instellingen, dan kunnen we deze inhoud ook aan jou tonen. Je cookie-instellingen aanpassen kan onderaan deze pagina. Klik op 'verander uw toestemming' en vink 'voorkeuren' aan.

Bruggenbouwers dankzij authorities

De items van verschillende partners tegelijkertijd beschrijven, dat is uniek én enorm waardevol. Dankzij deze aanpak wordt het bijvoorbeeld mogelijk om personen, locaties en organisaties over content en zelfs over partners heen te identificeren. Door de metadata te combineren en door ze bovendien te linken aan een externe bron zoals VIAF, Wikidata en de VRT-thesaurus, wordt het materiaal nog een stapje makkelijker doorzoekbaar. De VRT zal zich vanuit hun expertise over deze laatste stap buigen.

Privacy en ethiek

Verderbouwend op het GIVE-project zullen we ook in dit project samen met onze partners nadenken over juridische en ethische vraagstukken. Wie willen we bijvoorbeeld herkennen, en wie niet? En wie neemt deze beslissingen? Ook hier brengt het regionale aspect nieuwe uitdagingen met zich mee. Want is iemand die regionaal relevant is, ook op Vlaams vlak relevant om te identificeren? De verschillende organisaties staan voor dezelfde dilemma’s en uitdagingen, daarom pikken we ook deze stap gezamenlijk op.

Hergebruik

De aangemaakte metadata worden niet alleen bij meemoo duurzaam bewaard: ook de deelnemende omroepen zullen de metadata kunnen integreren in het eigen mediabeheersysteem en de eigen platformen. Dé ideale basis voor verdere verrijkingsprojecten. Daarnaast bekijken we of en hoe we de verkregen metadata kunnen ontsluiten naar het brede publiek. 

Partners

Heb je een vraag?
Contacteer Matthias Priem
Manager Archivering
We halen de pagina op, even geduld...