Operationalisering van beeldherkenning in de registratiepraktijk

In dit project onderzochten we op initiatief van FOMU de bruikbaarheid van geautomatiseerde beeldherkenning als alternatief of aanvulling voor de handmatige beschrijving van erfgoedobjecten. Het resultaat? Automatische tagging of categorisering door beeldherkenningsservices kan handmatige beschrijvingen door registratoren wel aanvullen, maar (nog) niet vervangen.

Uitdaging

De registratie van objecten en archiefstukken is voor registratoren zeer arbeidsintensief. Daardoor blijft ze vaak beperkt tot een aantal formele en administratieve kenmerken, terwijl het vaak net een (beperkte) inhoudelijke ontsluiting is die de collectie beter vindbaar en doorzoekbaar kan maken. Artificiële intelligentie (AI) biedt krachtige oplossingen om voorwerpen, personen en zelfs emoties geautomatiseerd te herkennen. Deze technologie is intussen ook online beschikbaar in de vorm van Visual Recognition Services (VRS) op meerdere platformen (o.a. Google vision, Clarifai en Microsoft Azure).

In dit project onderzochten we of erfgoedinstellingen deze software kunnen gebruiken voor basisregistratie en inhoudelijke beschrijving van erfgoedobjecten. Uit het eerdere project VR4CH van MoMu, Datable en meemoo bleek al dat Visual Recognition Services erg goed zijn in het maken van een basisbeschrijving voor een beeld, maar zijn ze ook geschikt voor andere toepassingen?

Onze rol

Meemoo (toen nog PACKED) zorgde voor de inhoudelijke aansturing van dit project van initiatiefnemer FOMU. We werkten een methodologie uit voor het vergelijken van VRS in registratieprocessen en zorgden samen met de technische partner Datable voor de uitvoering en ondersteuning van de implementatie. De contentpartners evalueerden de testresultaten. Tenslotte hielp meemoo bij de publicatie van het eindrapport op kennisplatform CEST door FOMU.

De stappen per use case waren:

  1. Het verzamelen van de set testbeelden

    • er werd zoveel mogelijk gewerkt met beelden die bereikbaar waren via een URL;

    • indien dit niet het geval was, werden ze op een tijdelijke server geplaatst;

    • reeds aanwezige metadata werden verzameld en gestructureerd. 

  2. De training van de VRS voor sommige use cases.

  3. Het opzetten van een architectuur met verschillende softwarecomponenten voor het automatiseren van de methodologie, m.n. 

    • de tagging of categorisering van de beelden door één of meerdere VRS (training & classificatie): beelden en metadata uit o.a. DAM-systemen en registratiesystemen worden via tijdelijke opslag op een FTP-server aangeboden aan verschillende Virtual Recognition Services (Google Vision, Microsoft Azure, Clarifai, Everypixel)

    • het verzamelen, structureren en valideren van de resultaten: tussentijdse opslag van de resultaten in MongoDB, communicatie tussen de verschillende componenten en verwerken van data via KNIME, beoordelen van de resultaten in een viewer (Fotorama), validatie (beoordelen van de gegevens en manuele verwerking van de gegevens) in Google Sheets.

    • het importeren van de resultaten in de registratiesystemen: via KNIME worden gevalideerde resultaten van automatische classificatie geïmporteerd in de bestaande registratiesystemen.

de architectuur voor het automatiseren van de methodologie (zie hoger)

De registratoren van de contentpartners vergeleken de resultaten van de automatische tagging met hun eigen metadata en beoordeelden de relevantie en juistheid van de tags.

Besluit

De meerwaarde van VRS ten opzichte van manuele registratie zat in de efficiëntie bij grote (en uniforme) volumes zoals bij Netwerk Oorlogsbronnen. Aan de hand van minimale training werd hier op korte tijd een perfect resultaat neergezet, en was een VRS dus veel goedkoper én sneller dan een manuele registrator.

In andere gevallen vereisten het trainen van de VRS, het opstellen van workflows per use case en het valideren nog een grote menselijke tussenkomst. Volledige automatisering is daar dus niet aan de orde, maar het samenspel van mens en machine levert wel meerwaarde op. Zo was er bv. bij FOMU tijdswinst doordat de VRS foto’s groepeerde waarop dezelfde persoon voorkwam, waarna vrijwilligers vervolgens aangaven over welke persoon het ging. Op die manier konden toch telkens bruikbare resultaten worden geïntegreerd in de registratiesystemen. Je kan de resultaten per pilootproject ontdekken in ons eindrapport op CEST.

De gebruikte technologie is publiek toegankelijk en betaalbaar, maar de leercurve is vrij steil. Voor het uitwerken van een model per use case in een trial-and-error proces zullen veel musea dus nog een externe expert moeten inschakelen. Niettemin is de technologie veelbelovend en doen collectiebeherende instellingen er goed aan om te kijken hoe deze technologie ingepast kan worden in hun werking.

Partners

FOMU (initiatiefnemer), MoMu, Netwerk Oorlogsbronnen, Erfgoedcel Brugge & Stadsarchief Brugge, Datable bvba. Het project werd gerealiseerd met een subsidie voor cultureelerfgoedproject van de Vlaamse Overheid.

Heb je een vraag?
Contacteer Nastasia Vanderperren
Medewerker Expertise
We halen de pagina op, even geduld...