VR4CH: beeldherkenningsservices in de cultureelerfgoedsector

Wat kunnen online beeldherkenningsservices (VRS, visual recognition services) betekenen voor beeldcollecties met cultureel erfgoed? In 2018 zochten we dit uit samen met contentpartner Modemuseum Antwerpen (MoMu) en de firma Datable.

Uitdaging

De manuele registratie van museale objecten, archieven en andere erfgoedcollecties is een arbeidsintensief proces. Dit is doorgaans beperkt tot de registratie van administratieve en formele gegevens. Inhoudelijke metadata zijn niet altijd aanwezig, terwijl dit vaak de gegevens zijn aan de hand waarvan mensen collecties willen doorzoeken. Samen met MoMu en Datable startten we een verkennend onderzoek om deze lacune eenvoudig, tijds- en kostenefficiënt op te vullen. Artificiële intelligentie (AI) is daarbij een veelbelovende piste. We zochten uit of de erfgoedsector gebruik kan maken van geautomatiseerde software om te helpen bij de registratie.

Hoewel beeldherkenningssoftware al vaak wordt ingezet bij de ontsluiting van commerciële beeldbanken, gebeurt dit in de erfgoedgemeenschap nog weinig. Deze toepassingen zijn vaak niet haalbaar of bruikbaar voor erfgoedorganisaties, omdat ze niet beschikken over de middelen en expertise om dergelijke services in het dagelijkse beheer van de collectie in te schakelen.

Resultaat van upload op een model dat werd getraind om onderscheid te maken tussen kant en merklappen © Clarifai

Doel

Met dit project wil MoMu, met ondersteuning van Datable en meemoo (vroeger PACKED) visual recognition services inzetten om na te gaan in hoeverre beeldcollecties van musea efficiënter en beter kunnen worden beschreven en ontsloten, zonder grote investeringen.

Onze rol

Meemoo ondersteunde dit verkennend onderzoek en pilootproject met zijn expertise en faciliteerde de inzetbaarheid van het project naar de erfgoedsector toe. Hiervoor zetten we een pilootproject op met beeldmateriaal uit de studiecollectie en museale collectie van het MoMu. De beeldherkenningsservices kregen de opdracht om 164 beelden van descriptoren (beschrijvende tags) te voorzien. Een deel van de beelden was al voorzien van basisgegevens als titel, materiaal en objectnaam. De resultaten werden daarna onderling met elkaar vergeleken.

Het project VR4CH (Visual Recognition for Cultural Heritage) liep van 2018 tot 2019 en kwam tot stand dankzij een subsidie van de Vlaamse Gemeenschap in het kader van Innovatieve Partnerprojecten.

Aanpak

Visuele herkenningstechnologie wordt op meerdere platformen aangeboden als ‘Software as a Service’ (SaaS, ook wel ‘software als online dienst’). Voor dit project kozen we ervoor Microsoft Computer Vision, Google Cloud Vision en Clarifai te testen en te vergelijken, omdat deze dienstverleners een voldoende uitgebreid platform, een relatief eenvoudige API en goede documentatie aanbieden. Bovendien zijn dit cloud-based VRS, waarmee je zonder verdere configuratie of training aan de slag kunt. Via deze platformen kan je ook een aantal gratis calls doen, waarbij je het beeld in kwestie naar de VRS verstuurt en een antwoord terug krijgt in de vorm van descriptoren. Dit verlaagt de drempel voor organisaties die beperkte middelen ter beschikking hebben of eerst met de technologie willen experimenteren.

Conclusie

De sterktes van VRS:

  • De technologie werkt sneller én goedkoper dan een menselijke registrator.

  • Vooral bij het geven van een basisbeschrijving van beelden is VRS succesvol.

  • De fijnmazigheid van de beschrijvingen is onverwacht hoog. Zo kan een VRS verschillende onderdelen van een object apart beschrijven waardoor de resultaten zeker volstaan voor een indicatieve, globale beschrijving van erfgoedcollecties.

  • VRS reikt ook onderwerpen en categorieën aan die veelal buiten de traditionele scope van registratie vallen, zoals kleur en sfeer (bv. ‘fashion’ of ‘glamour’).

Bij meer gespecialiseerde beschrijvingen scoort een beeldherkenningsservice beduidend lager dan menselijke registratoren. VRS mist namelijk de gespecialiseerde, technische en historische kennis en context van een domeinexpert om een object gedetailleerd en correct te beschrijven op basis van één beeld.

Afhankelijk van de noden en verwachtingen is het zeker het proberen waard om aan de slag te gaan met een VRS. Wanneer een zekere foutenmarge acceptabel is, leveren deze services vaak voldoende bruikbare resultaten op. Bovendien kan je de snelheid van visuele herkenningsservices combineren met de precisie van menselijke registratoren. Deze aanpak kan collectiebeherende instellingen helpen om hun beschikbare tijd en middelen voor registratie op een efficiëntere manier in te zetten en zo hun eventuele registratie-achterstand te verkleinen.

Bij het gebruik van beeldherkenningstechnologie is het belangrijk om enerzijds te werken met modellen die het best aansluiten bij de inhoud van het beeldmateriaal en de verwachte uitkomst, en anderzijds een drempel in te stellen om het aantal fouten te verkleinen op basis van de waarschijnlijkheidsscore van de descriptoren. Resultaten kunnen verder worden verbeterd door:

  • de descriptoren manueel te controleren;

  • automatisch te filteren om ongewenste of irrelevante descriptoren te verwijderen;

  • met clusters te werken om beelden te classificeren op inhoudelijke of visuele kenmerken en/of ze te verifiëren aan de hand van een trefwoordenlijst in functie van verrijking van de data.

>> Lees het volledige eindrapport op CEST.

Betrokken partners

ModeMuseum Antwerpen (MoMu), Datable & meemoo (vroegere PACKED)
Subsidiënt: de Vlaamse Gemeenschap