Metadata en meer: een tweede grote GIVE-update

30 jun 2022

Twee jaar lang scharen we ons samen met een heleboel partners achter GIVE (kort voor Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering). Stappen zetten in automatische metadatering en de digitalisering van topstukken, glasplaten en kranten: dat vat het project bondig samen. In april gaven we je een uitgebreide stand van zaken. Waar we vlak voor de zomer staan? Je leest het hieronder.

De GIVE-projecten worden gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling en kaderen binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid.

In beeld: 'soldaten in tent lezen krant', foto door Eric Koch, Anefo, 1961, CC0

Hoe artificiële intelligentie en machine learning ons kunnen helpen bij metadatacreatie en -verrijking? Dat is de focus van dit deelproject. We gaan aan de slag met materiaal van 120 cultuurpartners en duiken in:

  • spraakherkenning in audio- en videobestanden

  • entiteitsherkenning in tekst

  • gezichtsdetectie en -herkenning in video

Waar staan we met de drie lijnen?

Spraakherkenning

In dit project passen we spraakherkenning (ook wel Speech-To-Text of STT genoemd) toe op meer dan 160.000 uur audio. Momenteel zijn we volop bezig met de selectie van een externe partner. In maart 2022 publiceerden we de aanbesteding, waarop 12 kandidaten een dossier indienden. Deze zomer zullen we de knoop doorhakken.

Hoe? De afgelopen maanden hebben we heel wat audio- en videobestanden verzameld die we als ground truth of referentiemateriaal bestempeld hebben. Deze fragmenten werden reeds getranscribeerd door een extern bureau. Aan de hand van een benchmarking tool - die we ontwikkeld hebben op basis van de EBU-benchmark-STT-tool - zullen we deze transcripties vergelijken met de spraakherkenning die gegenereerd wordt door de kandidaten van de aanbesteding. Daarnaast spelen ook andere kwalitatieve kenmerken en de prijs een rol in de uiteindelijke beslissing.

Entiteitsherkenning

Voor de entiteitsherkenning (kortweg NER of Named Entity Recognition) beraden we ons eerst intern. Momenteel zijn we bezig met een verkennende fase, écht van start gaan we in het najaar van 2022.

Gezichtsdetectie- en herkenning

Het gezichtsdetectie en -herkenningsluik (waarin we 120.000 uur video aanwenden) zit ook in zijn verkennende fase. We voeren momenteel een marktverkenning uit en analyseren de resultaten van het FAME-project, waarin we onderzochten hoe gezichtsherkenning kan bijdragen aan metadatacreatie. Momenteel bekijken we of het mogelijk is om op deze resultaten voort te bouwen, en of we al dan niet zelf een tooling moeten bouwen of een commercieel beschikbare clouddienst kunnen aanschaffen.

In beeld: gezichtsdetectie toegepast op 'Het bestuur van het Brugse smedenambacht', Bernardus Fricx, 1783, collectie Musea Brugge, CC0

Werkgroep metadata van start

En inmiddels kwam ook de werkgroep, waarover we je vorige keer brieften, op 7 juni voor een eerste maal samen. Via deze werkgroep willen we tot een goede wisselwerking komen met de betrokken contentpartners en worden de activiteiten binnen het project zo helder mogelijk afgestemd op hun noden en bezorgdheden. Denk bijvoorbeeld aan privacy, ethische vraagstukken of hergebruik. Over dat tweede topic bogen we ons in een techblog. Gemist? Lees ‘m hier. Daarnaast stelden we een externe partij (IFORI) aan om een juridisch kader te schetsen waarbinnen we kunnen en moeten werken.

Ben je contentpartner en wil je meer weten over deze werkgroep? Surf dan naar het partnerportaal en lees je in.

Gunstig gunningsnieuws!

  • De gunningen voor alle deelprojecten van het GIVE-topstukkenproject (2D, gigapixel, 3D, en topstukken uit papier of perkament) zijn een feit. Ze werden toegewezen aan Cedric Verhelst (2D), Rik Klein Gotink (gigapixel), De Logi & Hoorne - Erfgo3D (3D) en aan GMS (topstukken uit papier of perkament). In de kennisbank vind je alle aanbestedingsdossiers.

  • Ook de gunning voor het GIVE-glasplatenproject is begin juni gebeurd aan GMS. Lees het aanbestedingsdossier er hier op na.

(Test)fase digitalisering van start

  • De eigenlijke productiefase van het krantenproject Primeur zal volgende maand starten! Na de gunning in april en de test- en pilootfase in mei en juni gaan we aan de slag met de digitalisering van de eerste krantenpagina’s.

  • In het GIVE-topstukkenproject maken we een onderscheid tussen 2D-topstukken, gigapixelfotografie, 3D-topstukken en topstukken uit papier of perkament. Na de gunning van 2D en gigapixel is de opdracht voor de twee eerste lijnen officieel van start gegaan en kan het fotograferen beginnen.

  • Voor de andere twee lijnen in het GIVE-topstukkenproject - 3D-topstukken en topstukken uit papier of perkament - en voor het GIVE-glasplatenproject is het nog even geduldig afwachten. Hun test- en pilootfase staat gepland om deze zomer uit de startblokken te schieten.

Nieuw bloed aan boord

Deze zomer verwelkomen we twee nieuwe stagiairs die de fakkel van de glasplatenregistratie overnemen van Marthe en Ingrid. Welkom alvast!

In beeld: 'stagiairs Marthe en Ingrid vertellen over de glasplatenregistratie tijdens het partnerevent op 9 juni 2022'

Meer over...
We halen de pagina op, even geduld...