Workshop Jupyter Notebooks: leren werken met XML-bestanden van OCR

6 okt 2022 | Gent

In het kader van de Collegagroep Digitalisering van Periodieken nodigen we op 6 oktober Mirjam Cuper van KB Lab uit. Zij zal ons onderdompelen in Jupyter Notebooks, een programma waarmee je via programmeertaal Python op een snelle én efficiënte manier informatie uit grote hoeveelheden XML-bestanden leert halen. Klaar om in XML-bestanden van OCR te vliegen? Schrijf je dan snel in!

Waaraan kan je je verwachten?

De structuur van XML-bestanden herbergt een schat aan informatie. Ze kunnen historische gegevens bevatten over uitgevers, drukkers en auteurs, naast metadata over de digitalisering. Hoe je informatie uit deze XML-bestanden kan halen vergt echter enige kennis. Jupyter Notebooks stelt je in staat te werken met de programmeertaal Python. Hiermee kan je snel en efficiënt informatie uit grote hoeveelheden XML-bestanden halen, maar de gegevens ook omzetten naar een leesbaar en bruikbaar formaat.

Dagplanning

Concreet ziet de workshop er als volgt uit:

  • 09u30 - verwelkoming met koffie en thee

  • 10u00 - korte verkenning van Python en Jupyter Notebooks

  • 10u30 tot 12u00 - theoretische achtergrond van XML

    • Structurele opbouw van XML-bestanden

    • Verkenning van de methodes om XML-bestanden te bevragen met Python

  • 12u00 tot 13u00 - lunch

  • 13u00 tot 16u00 - aan de slag met Jupyter Notebooks

    • Verschillende verwerkingsstappen van XML-bestanden

    • Verwerven, herstructureren en opslaan van informatie uit XML-bestanden

Praktische informatie

Voor wie?

Deze workshop is bedoeld voor medewerkers van alle cultureelerfgoedorganisaties met een interesse in het thema. Er is plaats voor 12 deelnemers, snel zijn is de boodschap!

Waar en wanneer?

Deze workshop vindt plaats op 6 oktober 2022 van 9u30 tot 16u op het meemoo-kantoor. Hoe je ons het makkelijkst bereikt?

Benodigdheden

Voor deze workshop heb je een eigen laptop met installatie van Anaconda nodig. Anaconda installeert zowel Jupyter Notebooks als Python 3, zo kan je voorbereid van start.

Inschrijven?

Je kan je plekje nog tot en met 29 september reserveren via deze link. Deelname is gratis. Zijn er bovendien specifieke XML-formaten die je aan bod wil zien komen? Of heb je specifieke informatie die je uit jouw XML wilt halen? Geef het zeker aan via het formulier.

De collegagroep

Met de Collegagroep Digitalisering van Periodieken brengen de Vlaamse Erfgoedbibliotheken, FARO en meemoo professionals uit de sector samen om kennis uit te wisselen en ervaringen rond dit thema te delen. Het is een groep waar medewerkers van organisaties die al actief bezig zijn met digitalisering minder ervaren collega’s ondersteunen.

Bronvermelding: De Werker, collectie Amsab-ISG, 1931, CC0

We halen de pagina op, even geduld...