7/2021

Metadataroadmap: de route naar een verbeterde metadatainfrastructuur

  • Rapport

Als je dit rapport open geklikt hebt, hoeven we je vast niet meer te overtuigen van het belang van metadata. Je weet dat ze essentieel zijn voor de doorzoekbaarheid en duurzame bewaring van eender welk archief of collectie. Metadata zijn de motor voor verschillende vormen van ontsluiting en ze maken het mogelijk voor contentpartners om hun eigen archiefmateriaal te cureren. Ook voor meemoo zijn metadata cruciaal voor de creatie en uitvoering van efficiënte interne processen en dienstverlening.

De hoeveelheid data die instroomt in ons archiefsysteem is de voorbije jaren sterk toegenomen. Doordat er meer contentpartners bij ons aansluiten met nieuwe (types) collecties blijven metadata groeien en veranderen. Ook aanvullingen op bestaande metadata en nieuwe inzichten in het algemeen spelen een belangrijke rol. Neem daarbij de nieuwe informatie die uit AI en machine learning zal komen, en je weet dat we voor een uitdaging staan.

De meeste van onze contentpartners hebben bovendien hun eigen collectiebeheersystemen en een eigen structuur waarin ze informatie over hun collecties organiseren. Het model dat we in 2016 ontwikkelden en bleven uitbreiden, is daardoor niet meer zo uniform als wenselijk is. Wij nemen met deze roadmap de minder zichtbare en eerder onderbelichte rol van dataintegrator op: we uniformiseren de verschillende metadata zodat ze op een eenduidige manier toegankelijk worden.

Verschillende platformen en applicaties - van meemoo, leveranciers en contentpartners - organiseren de data bovendien op basis van de functionaliteit die ze bieden aan de gebruiker. Ze zijn vaak niet voorzien om hun data op grote schaal uit te wisselen en vormen daarom zogenaamde datasilo’s. Dit leidt onvermijdelijk tot een moeilijke transfer tussen verschillende platformen met complexe en foutgevoelige datatransformaties als gevolg.

Hoe lossen we dit op?

Verschillende oorzaken dus, die van de complexe taak van dataintegratie één van de grootste uitdagingen maken in verschillende domeinen. Om onze historische achterstand weg te werken en ons voor te bereiden op steeds meer metadata (denk aan datastromen die uit AI-trajecten kunnen voortkomen) zetten we een roadmap uit rond een metadatainfrastructuur. Die moet het mogelijk maken om deze hoeveelheid en verscheidenheid aan metadata correct te beheren en te verwerken.

De focus van de roadmap is het verduurzamen, robuuster maken en uniformiseren van:

  • metadataopslag en -organisatie: het kiezen van databasetechnologie en -raamwerk;

  • de machineleesbare voorstelling van metadata: het ontwerp en gebruik van datamodellen en -formaten;

  • de integratie van metadata met gebruikersapplicaties: de manier waarop (interne) tools of ontsluitingsplatformen metadata kunnen zoeken, toevoegen, wijzigen en opvragen.

Deze roadmap vertaalt doelstellingen uit ons strategisch plan in concrete, high level infrastructuurdoelstellingen. In vijf concrete horizons trachten we de huidige en toekomstige collectie aan metadata om te bouwen tot een duurzaam en toegankelijk collectief geheugen voor meemoo, partners en gebruikers.

Horizon 1: meetbare en valideerbare metadatakwaliteit

De kwaliteit van metadata is contextafhankelijk. Wat metadata geschikt maken voor de werking van het archiefsysteem verschilt van de vereisten die de ontsluitingsplatformen, digitalisering of digitale instroom aan metadata stellen. We vertrekken dus van een contextgebonden definitie en classificatie.

Een classificatie deelt verschillende metadata in volgens de functionaliteit die ze mogelijk maken (bv. “vindbaar in Het Archief voor Onderwijs” of “kan gedigitaliseerd worden door de digitaliseringsfirma”). Een definitie omvat de lijst van meetbare parameters die binnen de classificatie een indicatie van kwaliteit kunnen leveren (bvb. “de aanwezigheid van trefwoorden verhoogt de vindbaarheid in Het Archief voor Onderwijs”).

Die definitie en classificatie maken het mogelijk om een metadatakwaliteitsraamwerk op te zetten dat per categorie relevante metrieken en de onderliggende meetbare parameters verzamelt. De scores die hieruit voortkomen, vertellen ons hoe “goed” de metadata van een bepaalde collectie het doen. Een eerste uitwerking van een dergelijke metriek is de volledigheid van een bepaald veld: voor welke objecten werd dit veld ingevuld, en voor welke niet?

We rollen ook de validatie per toepassing verder uit: elk proces of elke tool moet kunnen nagaan of de aangeleverde metadata aan de specifieke verwachtingen voldoen.

Horizon 2: breed gedragen metadatamodel

Metadata beperken zich niet enkel tot wat in een systeem vasthangt aan een bepaald object. Het gaat veel breder en kan elke mogelijke vorm van kennis ondersteunen. We kunnen metadata bewaren over de speelduur van een video-object, maar ook over de organisatie die het beheert of over de personen die in een video voorkomen.

Figuur 1: zo zou een modulair datamodel er kunnen uitzien. Dit is evenwel illustratief: de figuur toont geen finale keuzes van domeinen, modellen of andere.

Die brede waaier aan kennis willen we zo volledig mogelijk meenemen in ons metadatamodel. Alles wat we binnen meemoo weten over archiefobjecten en hun context moet geconnecteerd zijn en potentieel expliciet en doorzoekbaar gemaakt worden. We voorzien de mogelijkheid (zoals de voorzieningen, de tools en de processen) om kennis om te zetten in metadata, al gaan we nog niet bij alle soorten informatie tot uitvoering over.

We zien metadatamodellering niet enkel als een IT-artefact, maar introduceren deze praktijk over de verschillende teams heen. We hanteren daarbij de taal van de organisatie en de sectoren: geen tabellen, XML, nodes en edges, maar een intuïtieve voorstelling van concepten, entiteiten en relaties die binnen de werking gebruikt worden.

Voor het beschrijven van deze brede kennis hanteren we een modulair datamodel dat bestaat uit:

  • een specifiek submodel per relevant domein (bv. preserveren, digitaliseren, gebruiken) die de metadata die in dit domein ontstaan in de diepte beschrijven;

  • een breed kernmodel met de algemene begrippen die in de submodellen terugkomen;

  • metamodellen om de opgebouwde kennis te annoteren zoals gebruiksrecht (wie mag er wat met de metadata of het materiaal?) of dataherkomst (wie heeft metadata toegevoegd of gewijzigd en wanneer?).

Metadata worden dus opgebouwd aan de hand van de concepten uit het specifieke submodel en het brede kernmodel. Bij objecten uit ingestroomde digitale collecties worden de modellen van de contentpartners hiernaar gemapt. Het resultaat kan een combinatie van concepten uit het kernmodel en een of meer domeinmodellen bevatten. De metadata zelf kunnen dan worden geannoteerd met concepten uit de metadatamodellen en vormen een soort meta-metadata.

We hergebruiken zoveel mogelijk bestaande standaarden (zoals Dublin Core, MPEG, PREMIS of OSLO) of autoritatieve thesauri (bv. VIAF of ISO 639 taalcodes). Contentpartners die deze standaarden of thesauri vandaag al inzetten, kunnen zo de mapping verlichten en sneller aansluiten.

De datamodellen worden in eerste instantie ontwikkeld om onze dienstverlening en processen te ondersteunen, zowel voor instroom als ontsluiting. Om alle partijen zo goed mogelijk verder te helpen, bekijken we ook hoe de domeinen met directe implicaties op onze (content)partners - zoals descriptieve metadata, gebruiksrecht, of het bepalen van de rechtenstatus - regelmatig met hen afgestemd kunnen worden.

Binnen meemoo moeten de onderliggende modellen ook editeerbaar en uitbreidbaar zijn voor collega’s met variërende niveaus van technische kennis, bv. met een tool. Inzetten op interne procedures en documentatie voor het toepassen van de datamodellen, het maken van modellen, thesauri, lijsten, etc. verzekeren dat we deze praktijken binnen onze organisatie over de lange termijn en onafhankelijk van personeelsverloop kunnen bewaren.

Horizon 3: duurzame data-integraties

Een concrete implementatie van de modellen uit Horizon 2, samen met het verbinden van de metadata aanwezig in de verschillende tools en platformen, resulteren in de bouw van één gezamenlijke knowledge graph. Een graph is een beschrijvingsmodel dat eruit ziet als een wijdvertakt netwerk van verbanden en dat makkelijk uitbreidbaar is.

Figuur 2: De Knowledge Graph biedt een universele kijk op metadata die vervat zit in de onderliggende bronnen. Platformen en integraties van partners hoeven zo de specifieke systemen niet te kennen en te gebruiken om met metadata aan de slag te gaan.

We steunen hiervoor op een graafmodel (RDF) en de bijbehorende technologie: graafdatabases, ontologie en datamanagementtools, mappingtools en integraties met andere softwarebibliotheken. De Knowledge Graph unificeert kennis door zowel de metadata, thesauri, gecontroleerde lijsten, als de domeinmodellen samen en uniform toegankelijk te maken. Zo ontstaat er een universele kijk op metadata, zijn metadata steeds omringd door context die betekenis geeft en onderbouwen we onze doelstellingen rond linked data vanuit de kern.

Afnemers kunnen hiervan gebruikmaken door dat deel van de Knowledge Graph waar zij in geïnteresseerd zijn te selecteren. Het Archief voor Onderwijs zou bijvoorbeeld metadata kunnen selecteren op basis van het kernmodel, het domeinmodel “Onderwijs”, de LOM-thesauri en de licentie die toelaat het materiaal te gebruiken voor onderwijsdoeleinden.

De Knowledge Graph heeft dus twee lagen:

  • de modelleringslaag: de concepten en relaties die er bestaan (bv. een video, een titel en een video kan een titel hebben) - dit is de materialisatie van het resultaat uit H2.

  • de instantie van de modelleringslaag: de datamodellen worden toegepast om metadata te creëren (bv. deze video heeft de titel "Uitzending Het Journaal 10/10").

Horizon 4: uniforme toegang tot metadata

Alles wat we binnen meemoo weten over archiefobjecten en hun context, moet via onze archiefinfrastructuur zo optimaal mogelijk toegankelijk zijn. Dit creëert een eenduidige kijk op de data, maakt organisatiebrede analyses mogelijk en biedt uitvoerige context aan AI-gebaseerde of andere trajecten die metadata creëren of verrijken.

Hiervoor worden PIDs uitgebreid naar persistente URI’s die - mits de nodige toegang - opvraagbaar zijn en locatieonafhankelijk de huidige kennis over die entiteit weergeven. De volledige collectie aan metadata is gezamenlijk en onafhankelijk van bestaande softwareapplicaties doorzoekbaar met een eenvoudige visuele interface.

Software-integraties kunnen deze metadatacollectie mits de nodige toegang of in lijn met de gebruiksrechten ook bevragen in een standaard zoektaal (bv. GraphQL, openCypher of SPARQL) of exporteren in gestandaardiseerde dataformaten (bv. het downloaden van metadata als linkeddatasets). Om de algemene vindbaarheid verder te verhogen, worden relevante metadata ook structureel ingebed in publieke webpagina’s (hetarchief.be, andere platformen en websites) op een door zoekmachines leesbare manier.

Er is ook aandacht voor een toegankelijke en gevalideerde instroom naar onze metadatacollectie. We voorzien koppelingen met veel gebruikte standaarden (bv. METS of Adlib XML) of populaire werkwijzen bij de contentpartners en ondersteunen deze met de juiste softwareapplicaties. Daarbij aansluitend bouwen we een volledig proces van metadatamigratie uit, die de bestaande metadata uit het MAM migreert. Met een opleidingstraject ondersteunen we contentpartners bij het aanpassen naar de nieuwe manieren waarop metadata kunnen instromen.

Horizon 5: verankering van het archief in een lokaal metadatanetwerk van cultureel erfgoed

In kader van de verbetering van de vindbaarheid van archiefmateriaal, de ontsluiting naar nieuwe domeinen en de linkeddatadoelstellingen, is de gestage uitbouw van een netwerk met externe databronnen die de metadata kunnen verrijken cruciaal. Deze infrastructuur maakt dat mogelijk.

Hoe we hier te werk gaan en meebouwen aan een gezamenlijke linkeddatapublicatiestrategie, is de laatste bouwsteen van onze roadmap, maar misschien wel een van de meest beloftevolle. Het stelt ons in staat om metadata decentraal te beheren. Dat betekent dat metadata niet langer gemigreerd of gemapped hoeven te worden, maar dat meemoo in staat is om de metadata rechtstreeks uit de bron (bv. bij de contentpartner of externe bronnen) te gebruiken. Het omgekeerde is natuurlijk ook mogelijk: andere partners kunnen, mits de juiste toegangsrechten, gebruikmaken van de door meemoo beschikbaar gestelde metadata.