Workshop Jupyter Notebooks: leren werken met XML-bestanden van OCR

30 nov 2022

In het kader van de Collegagroep Digitalisering van Periodieken nodigen we op 30 november Mirjam Cuper van KB Lab uit. Zij zal ons onderdompelen in Jupyter Notebooks, een programma waarmee je via programmeertaal Python op een snelle én efficiënte manier informatie uit grote hoeveelheden XML-bestanden leert halen. Klaar om in XML-bestanden van OCR te vliegen? Schrijf je dan snel in!

Waaraan kan je je verwachten?

De structuur van XML-bestanden herbergt een schat aan informatie. Ze kunnen historische gegevens bevatten over uitgevers, drukkers en auteurs, naast metadata over de digitalisering. Hoe je informatie uit deze XML-bestanden kan halen vergt echter enige kennis. Jupyter Notebooks stelt je in staat te werken met de programmeertaal Python. Hiermee kan je snel en efficiënt informatie uit grote hoeveelheden XML-bestanden halen, maar de gegevens ook omzetten naar een leesbaar en bruikbaar formaat.

Dagplanning

Concreet ziet de workshop er als volgt uit:

  • 09u30 - verwelkoming met koffie en thee

  • 10u00 - korte verkenning van Python en Jupyter Notebooks

  • 10u30 tot 12u00 - theoretische achtergrond van XML

    • Structurele opbouw van XML-bestanden

    • Verkenning van de methodes om XML-bestanden te bevragen met Python

  • 12u00 tot 13u00 - lunch

  • 13u00 tot 16u00 - aan de slag met Jupyter Notebooks

    • Verschillende verwerkingsstappen van XML-bestanden

    • Verwerven, herstructureren en opslaan van informatie uit XML-bestanden

Praktische informatie

Voor wie?

Deze workshop is bedoeld voor medewerkers van alle cultureelerfgoedorganisaties met een interesse in het thema. Er is plaats voor 12 deelnemers, snel zijn is de boodschap!

Waar en wanneer?

Deze workshop vindt plaats op 30 november 2022 van 9u30 tot 16u op het meemoo-kantoor. Hoe je ons het makkelijkst bereikt?

Benodigdheden

Voor deze workshop heb je een eigen laptop met installatie van Anaconda nodig. Anaconda installeert zowel Jupyter Notebooks als Python 3, zo kan je voorbereid van start.

Herbeleef de workshop

Kon je er niet bij zijn? Of blik je graag nog eens terug? Neem dan gauw een kijkje in het verslag van de Vlaamse Erfgoedbibliotheken.

De collegagroep

Met de Collegagroep Digitalisering van Periodieken brengen de Vlaamse Erfgoedbibliotheken, FARO en meemoo professionals uit de sector samen om kennis uit te wisselen en ervaringen rond dit thema te delen. Het is een groep waar medewerkers van organisaties die al actief bezig zijn met digitalisering minder ervaren collega’s ondersteunen.

Bronvermelding: De Werker, collectie Amsab-ISG, 1931, CC0

Meer lezen?

We halen de pagina op, even geduld...