CLARIAH Toogdag 2018

Met het eind van het project CLARIAH in zicht, vond vrijdag 9 maart de jaarlijkse Toogdag plaats in de Koninklijke Bibliotheek (KB) in Den Haag. Verschillende leden van de CLARIAH-gemeenschap vertelden welke stappen er de afgelopen jaren gezet zijn en wat er nog staat te gebeuren voor de afronding begin 2019.

Lily Knibbeler, de algemeen directeur van de KB, heet de ca 90 aanwezigen welkom in dezelfde zaal waar een dag eerder de onderzoeksagenda van de KB werd gepresenteerd. Deze agenda bouwt voort op de activiteiten van CLARIAH. Het hoofd Onderzoek, Martijn Kleppe, is dan ook aanwezig vandaag en zal bereikbaar zijn voor geïnteresseerden.

“Het project CLARIAH focust op drie typen data uit drie verschillende disciplines”, vertelt Lex Heerma van Voss, hoofdaanvrager van CLARIAH, in zijn openingswoord. “Die abstractie was zinvol om de aanvraag te structureren, maar die grenzen zijn natuurlijk niet zo scherp te trekken. Je creëert grenzen die je vervolgens zelf weer moet zien te overstijgen.” De laatste tijd is hier hard aan gewerkt en Heerma van Voss ziet dan ook dat de samenwerking tussen de verschillende werkpakketten in de loop der tijd is gegroeid. Ook de onderzoeksprojecten die zichzelf vandaag zullen presenteren tonen die cross-over. Het werk ligt op schema en het door NWO aangeboden jaar uitloop zal niet nodig zijn. Inmiddels is de vervolgaanvraag voor CLARIAHPLUS ingediend, waarmee tot en met 2023 doorgewerkt zal kunnen worden. In dat vervolg wordt CLARIAH uitgebreid met disciplines die zich bezighouden met tekstinhoudelijke analyse, waarbij samenwerking met het Nationaal Archief en de KB een belangrijke rol zal spelen. “Ik durf nog niet te juichen dat het nieuwe voorstel nu geaccepteerd zal worden, maar anders gebeurt dat later wel. Ik nodig u dus hierbij ook alvast uit voor de Toogdag 2019!”

publiekOnderzoeksprojecten – pitches #1

Verspreid over de ochtend zullen alle onderzoeksprojecten een korte pitch geven, waarna tijdens de lunch een demonstratiemarkt zal plaatsvinden. Tijdens deze markt kunnen aanwezigen met de betrokkenen in gesprek gaan.

  • De eerste pitch komt van Marens Engelhard, de directeur van het Nationaal Archief (NA). Hij is momenteel niet direct betrokken bij de projecten binnen CLARIAH, maar ziet wel veel mogelijkheden voor wederzijdse samenwerking. Engelhard wijst op de vele data, collecties en kennis die bij het NA aanwezig zijn.
  • Nico Randeraad (MU) vertelt over 2TBI, waarin data over de bezoeken van sociale wetenschappers aan internationale congressen tussen 1840 en 1915 worden verrijkt en gelinkt in de CLARIAH-infrastructuur.
  • CrossEWT maakt cultuurhistorisch onderzoek mogelijk naar de veranderende perceptie van WO2-getuigenissen in Nederland, zo vertelt Norah Karrouche (VU). De verwachte uitkomst is dat de thema’s in die getuigenissen door de jaren heen wel veranderen, maar dat deze niet variëren tussen verschillende media.
  • In ACAD (Erwin Komen, RU) wordt gewerkt aan de ontwikkeling van automatische coherentiedetectie in het Nederlands. Taalkundigen zullen via een webinterface kunnen zoeken op het gebruik van bepaalde signaalwoorden in bepaalde condities.
  • In M&M (Rob Wegter, RUG) maken onderzoekers gebruik van video-annotatie om historisch onderzoek te doen in grote audiovisuele collecties. Hierbij willen ze de ontwikkeling van een genre, in dit geval de autobiografische documentaire, reconstrueren.

Overzicht WP2

In werkpakket 2 wordt gewerkt aan de generieke infrastructuur die alle data en tools in CLARIAH toegankelijk maakt. Gertjan Filarski, als hoofd Technologie verantwoordelijk voor de ontwikkeling van de infrastructuur, vergelijkt de infrastructuur met een olieraffinaderij. De data zijn hierin de olie die wordt gemijnd en verrijkt om vervolgens via een uitgebreid buizenstelsel bij het tankstation (=public access) aan te komen. De infrastructuur is gedistribueerd, wat inhoudt dat elke dataprovider verantwoordelijk blijft voor de eigen data. Daarnaast biedt de infrastructuur ook toegang tot data van buiten CLARIAH.

Marnix van Berchum geeft een demonstratie van Anansi, de centrale hub voor data en functionele faciliteiten in CLARIAH. Momenteel bevat Anansi data over ongeveer 92 duizend personen, 5 duizend locaties en 700 duizend concepten. Van Berchum laat zien dat de gebruiker in Anansi data kan importeren (via ResourceSync of manueel met tabulaire data), mappen, configureren en gebruiken. Dit kan via GUI of via data.anansi.clariah.nl, waarmee je ook je eigen portal kunt bouwen. Momenteel wordt Anansi nog volop verder geconfigureerd en wordt data nog meer samengevoegd, geharmoniseerd en gedesambigueerd.

Lodewijk Petram vertelt over de persoonsentiteiten die tot nu toe zijn ingevoerd. Het Huygens ING zorgt hierbij voor een kritische massa van momenteel zo’n 100 duizend personen, dat een sneeuwbaleffect in gang moet zetten waarin ook andere partijen data gaan toevoegen. Petram vertel dat het invoeren lastiger is dan was voorzien, doordat er veel gecureerd moet worden. Momenteel wordt nog gewerkt aan de ontwikkeling van een data linkage tool, zodat ook minder bekende personen gelinkt kunnen worden aan personen in Anansi.

Richard Zijdeman laat zien hoe het in Anansi mogelijk is om in je onderzoek rekening te houden met veranderende geografische grenzen. “Uit welk Amsterdam komt je opa?” Zijdeman laat zien hoe je de datasets CShapes en Gemeentegeschiedenis kunt doorzoeken met SPARQL-queries. Gekoppeld aan datasets kunt je zo bijvoorbeeld onderzoeken hoeveel mensen er gestaakt hebben in een bepaalde regio in een bepaalde periode.

opengazamOnderzoeksprojecten – pitches #2

  • Berry van der Molen (UU) vertelt hoe hij in DReAM gebruikmaakte van de MediaSuite voor zijn onderzoek naar historische drugsdebatten in tekst (KB) en audiovisuele (B&G) data. “De MediaSuite dwong om heel precies en kritisch te werken, dat is winst.”
  • In HHuCap onderzoekt Richard Zijdeman (Huygens ING) sociale mobiliteit, dat voorheen vooral onderzocht werd aan de hand van huwelijks- en overlijdensaktes. Door niet alleen data, maar ook tekst (bv personeelsadvertenties in kranten en beroepsomschrijvingen in het biografisch portaal) te gebruiken, krijg je een ander beeld van sociale mobiliteit.
  • In HUMIGEC onderzoekt Jelle van Lottum (Huygens ING) hoe migranten in de 18e eeuw bijdroegen aan de Nederlandse economie. Hij kijkt specifiek naar Nederlandse versus buitenlandse zeelieden in de Nederlandse maritieme arbeidsmarkt. Hiervoor gebruikt hij de VOC Opvarenden en de Prize Paper Dataset. Momenteel wordt de tool getest die de personen in deze datasets desambigueerd; deze zal in Anansi worden geïntegreerd.
  • “Het Syrisch is historisch gezien een van de belangrijkste talen van het Midden-Oosten – vergelijkbaar met het Latijn hier”, vertelt Wido van Peursen (VU) van LinkSyr. In dit project link hij Syrische teksten aan taalkundige bronnen en entiteiten.
  • Christian Olesen (UvA) voegt in MIMEHIST de Jean Desmet-collectie van filmmuseum EYE toe aan de CLARIAH-infrastructuur. Deze collectie bevat naast beeldmateriaal ook veel documenten en foto’s. Uiteindelijk zal gezamenlijk onderzoek van deze bronnen mogelijk worden.
  • Katrien Depuydt (IvdNT) werkt in NAMES aan de ontwikkeling van een gouden standaard voor varianten van persoonsnamen, gebaseerd op de namen uit het LINKS-project.
  • In CoDoSiS test Henk van den Heuvel (RU) de CLARIN-tools Qbet en TICCL door registers over slavernij in Suriname te koppelen. In het project worden zowel namen (van slaven, moeders, plantages) en data (geboorte, overlijden, mutaties) gekoppeld.

Overzicht WP3

Werkpakket 3 - Taalkunde kan gezien worden als de opvolger van CLARIN-NL, vertelt Sjef Barbiers, leider van WP3. De vier losse thema’s binnen dit werkpakket gaan gaandeweg steeds meer in elkaar overlopen: (1) data, metadata en archivering; (2) search; (3) verrijking en conversie; (4) tools.  Barbiers geeft een overzicht van de tools en standaarden die binnen deze vier thema’s ontwikkeld zijn. Momenteel wordt gewerkt aan een workspace waarin alles is geïntegreerd. Hierbij kan de gebruiker zijn eigen bronnen uploaden, deze verwerken en analyseren, zodat de resultaten beschikbaar komen en duurzaam kunnen worden opgeslagen. Deze workspace zal ook weer verbonden worden aan de VRE’s uit andere werkpakketten.

responsOnderzoeksprojecten – pitches #3

  • Sabrina Sauer (VU) onderzoekt in NarDis hoe onverwachte gebeurtenissen zoals een natuurramp of een aanslag leiden tot veel media-aandacht. Hiervoor gebruikt ze DIVE+, waarmee ze de verschillende narratieven wil vormgeven.
  • Marcel Broersma (RUG) vertelt hoe hij in het project ReSpoNs kijkt hoe de opkomst van sociale media de stijl van traditionele media verandert. Specifiek kijkt hij naar sportverslaggeving, waarbij lezers tegenwoordig vaak de uitslag al weten, en zelfs hebben gezien. Broersma gebruik hiervoor het krantenarchief van Delpher en het televisie-archief van Beeld & Geluid.
  • Broersma is ook betrokken bij NEWSGAC, waarin gebruik wordt gemaakt van automatische genre-classificering met behulp van machine-learning. Dit past hij specifiek toe om de verschuiving van verzuilde verslaggeving naar factbased journalistiek te onderzoeken.
  • Ook Marieke van Erp (VU) vertelt over twee projecten. Het eerste is SERPENS, dat bedoeld is om historische ecologen te helpen met een database over de perceptie van dieren door de tijd heen. Als voorbeeld noemt ze wolven: vroeger waren die slecht, nu juichen we als er eentje gespot is. SERPENS gebruikt Delpher als databron.
  • Het tweede project is EviDENce, dat pas onlangs van start is gegaan. Dit project onderzoekt geweldsbeschrijvingen in ego-documenten, zoals dagboeken, brieven en getuigenissen. Zijn deze in de loop der tijd veranderd?
  • De pitches worden afgesloten door Martin Reynaert van Open GaZam, waarin wordt gewerkt aan het beschikbaar maken van gazetteers (geografische indexen) in Linked Open Data. Het project richt zich op twee vroegmoderne gazetteers en zal aansluiten bij Pelagios Commons, dat zich hier ook mee bezighoudt.

Lunch en Demo's

eva liliana berry na
katrien jesse lunch widdo

 

Overzicht WP4 en 5

cowRichard Zijdeman toont DataLegend (www.datalegend.net), de werkomgeving van werkpakket 4 – Sociaal-economische geschiedenis. Deze bestaat uit drie tools:
(1) Druid is de workspace die compleet is vernieuwd en is gekoppeld aan Anansi. Elke dataset heeft hierin een eigen landingspage gekregen met aanvullende informatie;
(2) CoW, die data omzet van cvs naar linked data. Eerder diende Qber hiervoor, maar dit werkte niet praktisch als er veel categorieën waren. De ‘motor’ van Qber is verwerkt tot CoW, waarbij de gebruiker zowel kan werken met code als via een interface;
(3) GRLC, die SPARQL-queries opslaat op github en via een API uitserveert. Het is in het geval van privacygevoelige informatie mogelijk om een query te delen zonder het endpoint zichtbaar te maken.

Julia Noordegraaf vertelt over Mediasuite, de werkomgeving van werkpakket 5 – Mediastudies. Voor de mediasuite is een interface gemaakt, met o.a. een workspace waar je je user projects kunt opslaan en beheren. Je kunt data en tools bookmarken, annoteren en exporteren. Daarnaast heeft er veel data-integratie plaatsgevonden, van o.a. de Desmet-collectie, de Oral History-collectie van DANS en de KB. Momenteel vindt er spraakherkenning plaats over de 500 duizend uur aan AV-materiaal, zodat gebruikers ook inhoudelijk kunnen zoeken. Deze ASR zal ook worden aangebonden als service voor eigen opnames. Dit jaar zullen nog versies 3 en 4 gereleast worden, zal er een summerschool van WP5 plaatsvinden, wordt gewerkt aan een CLARIAH-brede workspace, worden social media  en oral history-onderzoek geïntegreerd, en wordt meegewerkt aan verschillende cross-CLARIAH projecten. Momenteel is het afspelen van AV-materiaal alleen nog mogelijk via een VPN-verbinding met Beeld en Geluid, maar binnenkort kunnen anderen hier ook bij.

Zijdeman en Noordegraaf hebben samen een hypothetische use case uitgewerkt die alle werkpakketten overlapt en zo de mogelijkheden van CLARIAH illustreert. Centraal hierin staat de kritische ontvangst van Nederlandse films: hoe verhoudt deze zich tot het succes van de film? Er bestaan veel vooroordelen over Nederlandse films. Om dit te onderzoeken zou je kunnen kijken naar:
- Populariteit, aan de hand van bezoekcijfers of vertoningsdata. Deze laatste zijn te vinden de CinemaContext-database en filmladders, die via PICCL mee te nemen zijn.
- Productiecontext, zoals de betrokken acteurs en regisseur. Dit is te vinden in de Mediasuite.
- Ontvangst door media en publiek, aan de hand van recensies in kranten via Delpher (OCR en sentiment mining). Ook kan in de Mediasuite de ontvangst in kranten worden vergeleken met die op radio en tv.
- Inhoud, zoals de verhaallijn en de personages. Op bijvoorbeeld IMDB zijn plotsamenvattingen te vinden, maar deze kunnen ook zelf worden geannoteerd.

Netwerk Digitaal Erfgoed (NDE)

keynoteWilbert Helmus is coördinator van het werkpakket Bruikbaar van Netwerk Digitaal Erfgoed (NDE). Helmus vertelt dat wetenschappers een belangrijke gebruikersgroep vormen binnen NDE en dat NDE daarmee een belangrijke link heeft met CLARIAH. NDE bouwt zo veel mogelijk voort op bestaande netwerken en wil vooral partijen samenbrengen en hergebruik stimuleren. Hij stelt voor dat NDE en CLARIAH optimaal gebruikmaken van de vele links en overlap die er tussen beide projecten is.

Ook Enno Meijers (KB en NDE) is overtuigd dat het NDE en CLARIAH elkaar veel te bieden hebben. Met name werkpakket 2 sluit aan bij werkpakket Bruikbaar van NDE. Meijers stelt dat de processen voor data-integratie nu nog niet altijd even efficiënt verlopen. Om dit te verbeteren zullen de linked data-principes op twee niveaus moeten worden gestimuleerd:
(1) Op het niveau van de databron moeten instellingen zich meer bewust zijn van het belang van linked data, zodat ze hier rekening mee houden als ze een nieuw pakket aanschaffen; zo past de markt zich vanzelf aan aan de nieuwe standaarden;
(2) Op het niveau van het netwerk, waar moet worden voortgebouwd op eerder werk van bijvoorbeeld OpenSKOS, zodat gewerkt wordt in een gedeeld netwerk van cross-disciplinaire termen.

Het semantische web is nog een droom, zo stelt Meijers. Voordat je linked data vindbaar kan zijn, moet je het eerst aanmelden bij Datahub. DBPedia speelt een belangrijke rol aan de ontwikkeling van het semantische web, en CLARIAH speelt daar weer vanuit Nederland een belangrijke rol in, waarbij CLARIAH en het NDE hun krachten bundelen. Meyers signaleert nog een ander probleem: iedereen maakt alleen forwardlinks en geen backwardlinks. Hij draagt hiervoor verschillende oplossingen aan waarvan een virtuele integratie met LDF (Linked Data Fragments) het meest praktisch is. Door samen te werken met ontwikkelingen in andere domeinen, dragen CLARIAH en NDE bij aan langetermijnoplossingen. “NDE is geen project, maar een commitment, zodat uiteindelijk de maatschappelijke waarde van alles wat we hebben beter zichtbaar wordt”, zo sluit Meijers zijn betoog af.

 

Erica Renckens

Tatataal