Toegang & hergebruik Linked (open) data

Auteur(s):

Bart Magnus
11/2019

WikidataCon 2019

  • Verslag

Eind oktober trok onze meemoo-collega Bart Magnus naar Berlijn voor WikidataCon 2019. De conferentie focuste zowel op Wikidata als op Wikibase. Na een aantal jaren met data van Vlaamse cultuurorganisaties op Wikidata te hebben gewerkt, richtten wij onze aandacht ook op Wikibase. De conferentie kwam op een ideaal moment om onze eerste ervaringen te delen en om antwoorden te zoeken met en bij andere gebruikers.

Wikidata is de vrije en meertalige kennisbank die zorgt voor de centrale opslag van de gestructureerde gegevens ter ondersteuning van Wikipedia, Wikimedia Commons en andere wiki's van de Wikimedia-beweging. Ze is zeer geschikt voor linked open data die door een brede gemeenschap van mensen mag hergebruikt en bewerkt of verrijkt worden. Dat is zeer zinvol, maar niet de enige mogelijke manier om linked open data op te slaan en te publiceren. Heel wat organisaties beschikken immers over informatie die niet geschikt is voor Wikidata. Deze is bijvoorbeeld te specifiek of moet volledig door de organisatie gecontroleerd kunnen worden.

Wikibase is een verzameling van applicaties en bibliotheken voor het creëren, beheren en delen van gestructureerde gegevens. Nu deze achterliggende software voor iedereen herbruikbaar is, ontstaan er mogelijkheden om sommige data in een eigen lokale versie van Wikibase te publiceren. Het voordeel is dat je data in je lokale Wikibase volledig zelf beheert. Zo controleer je bijvoorbeeld wie data mag toevoegen of bewerken. Je kan Wikibase, net als Wikidata, als een open data repository gebruiken en de data voor iedereen toegankelijk maken. Indien wenselijk - bijvoorbeeld omwille van privacygevoeligheid van data - kan je de toegang ook beperken.

Meemoo zette een eigen Wikibase-testomgeving op om te kunnen experimenteren. Ons doel was om uit te zoeken wat het potentieel van Wikibase kan zijn voor Vlaamse cultuurorganisaties. Onze ervaringen met Wikidata en onze nieuwsgierigheid naar Wikibase lichtten we op de conferentie toe met een poster.

Hieronder vind je een selectie van interessante inzichten uit WikidataCon 2019.

Strategieën voor GLAMs

Andrew Lih (Wikimedia-strateeg bij The Metropolitan Museum of Art, New York) focuste in zijn presentatie op strategieën voor GLAMs om vanuit hun collectie bij te dragen aan Wikidata en Wikimedia Commons, de centrale beeldbank voor Wikipedia, Wikidata en andere wiki's van de Wikimedia-beweging. Meer informatie kan je hier vinden.

De presentatie ging onder meer in op de workflows voor beeld- en datadonatie en sneed vervolgens de mogelijkheden en uitdagingen van machine learning aan. De Wikidata Depiction Game resulteerde in meer dan 7.000 menselijke validaties van automatisch getagde kunstwerken en leidde tot ongeveer 5.000 effectieve edits in Wikidata. Veel van deze edits hadden betrekking op werken uit de collectie van The Met. Dit is voor The Met maar een eerste stap in de omgang met machine learning als onderdeel van de organisatiestrategie rond open data en crowdsourcing.

Andrew Lih gaf een bondig overzicht van rapporteringstools waarmee je kan opvolgen wat er op de Wikimedia-platformen met geüploade data en beelden gebeurt. De recent geïntroduceerde Structured Data on Commons opent een aantal nieuwe mogelijkheden voor de omgang met beelden. Zo is het mogelijk om gestructureerde data aan afbeeldingen op Wikimedia Commons toe te kennen. Door de meertaligheid van de gestructureerde data (afkomstig uit Wikidata) draagt Structured Data on Commons bij tot een betere vindbaarheid van geüploade afbeeldingen.

Ter illustratie: de tool Vizquery Commons maakt het mogelijk om in de gestructureerde data te zoeken met een SPARQL-query (of zoekvraag) en de resultaten te visualiseren.

Interessante tools en games

1. Monumental

Met Monumental kan je bouwkundig erfgoed in een bepaalde streek ontdekken. De tool combineert informatie uit Wikidata, Wikimedia Commons en Wikipedia in een vloeiende interface. Als voorbeeld zoomden we in op een stukje Brussel. Wanneer je doorklikt op een item, krijg je de tweede afbeelding te zien. Vervolgens krijg je een selectie van properties uit Wikidata en een kaart te zien.

Brussel

Selectie van properties

Kaart Brussel

2. TABernacle

Met TABernacle voeg je iconografische informatie over kunstwerken toe aan Wikidata. Via de game-interface behoud je het overzicht en kan je op korte tijd veel informatie toevoegen. De selectie van werken die je te zien krijgt, bepaal je zelf aan de hand van een SPARQL-query.

In dit voorbeeld vroegen we bijvoorbeeld de werken op uit de collectie van Mu.ZEE die op Wikidata staan en die een gelinkte afbeelding op Wikimedia Commons hebben. Mu.ZEE kun je door om het even welke andere collectie vervangen. Een zeer leuke manier voor musea om hun fysieke en virtuele bezoekers aan de slag laten gaan met hun collectie. Alle data in Wikidata zijn gepubliceerd onder een CC0-licentie en zijn dus zonder restricties herbruikbaar, ook door de collectiebeherende instellingen zelf.

3. Wikidata Art Depiction Explorer

Wikidata Art Depiction Explorer is een nieuwe laagdrempelige tool om mensen iconografische informatie over schilderijen te laten toevoegen aan Wikidata. Je kunt willekeurige schilderijen uit verschillende collecties bekijken en indien mogelijk iconografische info toevoegen, maar je kunt ook per collectie browsen aan de hand van het Q-nummer van een museum.

In onderstaand voorbeeld kozen we voor de schilderijen uit Museum M die op Wikidata beschreven staan en een gelinkte afbeelding in Wikimedia Commons hebben. Wanneer je doorklikt op een schilderij kan je informatie toevoegen en opslaan. Vervolgens kan je een volgend schilderij kiezen.

4. ISA-tool

De ISA-tool nodigt je uit om in spelvorm gestructureerde data aan beelden op Wikimedia Commons toe te voegen. Met de tool kan je campagnes aanmaken om beelden binnen een bepaalde categorie van gestructureerde metadata te (laten) voorzien. Tijdens de conferentie was er een ISA-challenge met beelden van Berlijn. Ook liep er ten tijde van WikidataCon 2019 een campagne om de beelden van de fotowedstrijd Wiki Loves Heritage België 2019 van gestructureerde data te voorzien.

Wikibase: bijgeleerd en uitgeklaard

Naast klassieke presentatieformats was er op WikidataCon 2019 ook ruimte om goede praktijken uit te wisselen en van elkaar te leren. Dit waren de momenten bij uitstek om een antwoord te vinden op onze vragen over Wikibase. Zo hadden we vragen bij de mogelijkheid tot het hergebruiken van Wikidata-properties in een eigen Wikibase.

Dat was in 2019 al mogelijk met de Wikibase-Import-extensie, maar nog niet echt op een laagdrempelige manier. Bovendien betreft het een eenmalige import. Een volgende uitdaging was dus om het mogelijk te maken om de properties na het importeren ook in sync te houden. Om grote hoeveelheden data naar Wikidata op te laden is het handig om Quickstatements, een tool voor batch upload, te gebruiken. Deze tool werkt eveneens op je eigen lokale Wikibase.

Een ander veelbesproken onderwerp bij het gebruik van Wikibase was federated queries. Net als Wikidata heeft je eigen Wikibase een SPARQL-endpoint waarmee je de data kan bevragen. Een uitdaging daarbij is om binnen eenzelfde SPARQL-query zowel je eigen data als die van een andere Wikibase te combineren. Op zich was het ten tijde van deze conferentie reeds mogelijk om in één query meerdere SPARQL-endpoints aan te spreken. Er moest echter nog een goede oplossing komen om verschillende Wikibases tegelijk te bevragen die beide P-nummers als properties gebruiken. Dit om te voorkomen dat er verwarring ontstaat uit welke Wikibase je een property wil gebruiken in een query.

Er zijn al heel wat voorbeelden van organisaties die aan de slag zijn gegaan met Wikibase, waarvan de meerderheid is geregistreerd in het Wikibase Registry. Op WikidataCon 2019 viel heel wat te leren uit hun eerste ervaringen.

Wie Wikibase eens wil uitproberen kan gebruik maken van een soort vrijblijvende Wikibase-speeltuin. Aangezien dit een testopstelling is, zijn je data publiek toegankelijk en kun je er ook niet vanuit gaan dat ze er zullen blijven inzitten. Het is echter wel een ideale omgeving om vrijblijvend het één en ander uit te proberen.

Workflows

Goede tools voor uploads in bulk van data en beelden zijn belangrijk voor cultuurorganisaties om aan de slag te gaan op Wikimedia-platformen of in een eigen Wikibase. In een specifieke GLAM meet-up werden de noden onder de loep genomen. Wikimedia Sweden nam in 2019 de wereldwijde coördinatie voor GLAMs in handen en ontwikkelden initiatieven die samenwerkingen tussen Wikimedia-platformen en GLAM-instellingen vergemakkelijken en verduurzamen.

De continue ontwikkelingen in Wikibase en Wikimediaplatformen als Wikimedia Commons en Wikidata zorgen ervoor dat ook de bijhorende tools mee moeten evolueren. Door de intrede van Structured Data on Commons is het bijvoorbeeld wenselijk dat data uit exports van collectiebeheersystemen ook rechtstreeks aan beelden gekoppeld kunnen worden en niet enkel aan Wikidata-items.

De opkomst van lokale Wikibases doet de vraag rijzen naar gebruiksvriendelijke tools om ook in bulk met data aan de slag te gaan in Wikibase. De tools die er vandaag zijn voor uploads naar Wikidata en Wikimedia Commons komen maar deels tegemoet aan de noden die Structured Data on Commons en lokale Wikibase instances genereren.

Een interessante piste tijdens de discussie ging over het potentieel van Open Refine, een open source desktop-applicatie voor het opschonen van gegevens en het omzetten naar andere formaten. Die heeft vandaag een Wikidata reconciliation service voor het normaliseren van data en een Wikidata-extensie voor het schrijven naar Wikidata. Het is technisch ook al mogelijk om via OpenRefine een reconciliation service op je eigen Wikibase te laten draaien en vervolgens met QuickStatements grote hoeveelheden data te uploaden.

OpenRefine lijkt de meest voor de hand liggende tool om de upload van beelden met gestructureerde data naar Wikimedia Commons te ondersteunen. Het zou collectiebeherende organisaties die data en beelden willen uploaden in staat stellen om het hele proces voor beide platformen met één tool te doorlopen. We duimen alvast mee op Github!

Bovenstaande was maar een greep uit het geheel. Wie heel het programma wil ontdekken, met daarbij ook per sessie links naar documentatie en video-opnames, kan hier terecht.