Wat is DRONGO eigenlijk?

DRONGO is het grootste talenfestival van Nederland!

Met zo’n zestig exposanten en duizenden bezoekers is het DRONGO talenfestival binnen drie jaar het belangrijkste talenfestival van Nederland en Vlaanderen geworden. Op Drongo kun je het plezier en de schoonheid van taal ontdekken en zien wat jouw kansen zijn als je meerdere talen spreekt!

Na het succes van 2013 en 2014 was het dit jaar uitgebreid tot een festival van maar liefst 2 dagen. Op het festival was een keur aan demonstratieprojecten, taalapps en taal-leermiddelen aanwezig: dikwijls in combinatie met de onderzoekers die deze producten gemaakt cq ontwikkeld hadden.

CLARIN op Drongo

Ook CLARIN-NL was ditmaal goed vertegenwoordigd. Zo hadden Hugo Quené en Arjan van Hessen een lab-stand op vrijdagmiddag waar het D-LUCEA-project en de resultaten ervan gepresenteerd werden.

D-LUCEA

Het University College Utrecht verzorgt een uitsluitend Engelstalige opleiding. De studenten, die uit verschillende delen van de wereld naar Utrecht komen, hebben een zeer gevarieerde achtergrond. Niet alleen hebben ze vele verschillende talen als “moedertaal”, maar velen zijn ook opgegroeid in een meertalig gezin of in een meertalige omgeving. Sommige studenten zijn thuis opgegroeid met de ene taal (of met meerdere talen), en met weer andere talen op school en/of in hun buurt.

Eenmaal gearriveerd in Utrecht ontstaat er dus een heel interessante situatie waarin studenten van verschillende achtergronden allemaal Engels moeten gebruiken als hun eerste of tweede of zoveelste taal. Een fantastische kans om te onderzoeken hoe het Engels van de ene student door het Engels van andere studenten beïnvloed wordt, en hoe het Engels van de studenten zich door de tijd ontwikkelt.

Hoe spreekt een student vlak na aankomst in Utrecht, hoe halverwege de opleiding en hoe bij het afstuderen na drie jaar? Om hier iets over te kunnen zeggen zijn spraakdata nodig. In het D-LUCEA-project worden daarom regelmatig spraakopnames gemaakt van deze studenten. Op de lab-stand lieten Hugo en Arjan bezoekers een 5 minuten durend experiment uitvoeren waarin bezoekers moesten bepalen welk van 2 vergelijkbare spraakopnames uit het begin van het eerste studiejaar was (als de student net was aangekomen) en welke uit het einde van het eerste jaar wanneer ze al 9 maanden waren ondergedompeld in de Engelstalige opleiding.

Engels als Lingua Franca

Je verwacht dat dit een simpele taak zou zijn: pas aangekomen studenten spreken natuurlijk een soort steenkool-Engels met een zwaar accent, dat na 9 maanden vervangen was door een soort Oxbridge accent. Maar het bleek nog lastig om twee identieke zinnen van dezelfde spreker goed te ordenen. Hoewel er meestal duidelijke verschillen te horen waren, was het zelfs voor native-English luisteraars lastig om de test goed te doen. Ten eerste omdat het niveau van het Engels van de eerstejaars al hoog was (anders word je niet aangenomen), en ten tweede omdat de studenten elkaar beïnvloeden, waardoor het Engels na 9 maanden wellicht vloeiender maar niet altijd Engelser is geworden: studenten hebben als het ware hun eigen UCU-English accent ontwikkeld.

De presentatie (met de 2x 6 geluidsopnamen) zijn te vinden op de website van het D-LUCEA-project.

PaQu

Op zaterdag liet Jan Odijk zien hoe CLARIN het mogelijk gemaakt heeft makkelijk en snel naar grammaticale eigenschappen, grammaticale verbanden en zelfs hele constructies te zoeken. Hij illustreerde dat aan de hand van een achttal constructies in het Nederlands die een ‘goede’ (normatieve) variant en een ‘foute’ (niet-normatieve) variant hebben. Bijvoorbeeld: je moet (volgens de norm) groter dan zeggen en je mag niet groter als zeggen. Maar wat doen mensen echt? Daarop gaf Jans presentatie een antwoord; zowel voor de geschreven taal (door te zoeken in LASSY-klein) als voor de gesproken taal (door te zoeken in het Corpus Gesproken Nederlands). Je kan ook zelf de resultaten zien in de presentaties door te klikken op de frequentiegetallen ga je vanzelf naar de zoekinterface en krijg je de gevonden voorbeelden zelf te zien! De bijbehorende poster geeft nog wat meer context en wat achtergrondinformatie. De achterliggende applicatie is PaQU, ontwikkeld door de Rijksuniversiteit Groningen, gedeeltelijk in het kader van CLARIN-NL. 

Opkomst

Zowel op vrijdag als op zaterdag was een grote opkomst, en de CLARIN-NL stand had veel aanloop van allerlei mensen die een interesse in taal hadden. En dat ondanks de zware concurrentie die we hadden van de Kamasutra beurs in de hal ernaast!

Jan Odijk, Hugo Quené, Arjan van Hessen

 

 

Op 30 juni j.l. werd de kick-off van work package 3 (WP3, taalkunde) van CLARIAH-CORE gehouden op het Meertens-instituut. Er waren zo’n 30 personen aanwezig die betrokken zijn bij de uitvoering van WP3.

De organisaties die meedoen aan WP3 zijn Meertens, INL, Vrije Universiteit, Radboud Universiteit, Universiteit Utrecht en Universiteit Groningen.

De bijeenkomst werd geopend door Sjef Barbiers, de leider van WP3. Gertjan Filarski gaf een presentatie over WP2, het technische werkpakket binnen CLARIAH-CORE, en de relatie ervan met WP3. Het algemene plan voor WP3 beschrijft wat er nodig is aan infrastructurele voorzieningen voor een taalkundig onderzoeker, in ieder stadium van het onderzoek. Het schetst wat er al is (bijv. gemaakt door eerdere projecten zoals CLARIN-NL en CLARIAH-SEED), en wat er nog bijgemaakt of verbeterd moet worden.

Voor iedere betrokken organisatie was er een presentatie over wat er gedaan gaat worden in CLARIAH-CORE. Grofweg kunnen de taken ook ingedeeld worden per thema.
De voornaamste thema’s zijn:

  • data en metadata
  • interoperabiliteit
  • zoeken en analyse
  • verrijking van data.

Na de presentaties werd er een algemene discussie gehouden en werden verschillende concrete afspraken gemaakt. Mijn indruk was dat het een zeer nuttige bijeenkomst was, die iedere betrokkenen een globaal overzicht van heel WP3 gaf, en die ook een aantal potentiële problemen of divergerende richtingen blootlegde, zodat die in een vroeg stadium expliciet gemaakt worden en besproken kunnen worden. De bijeenkomst werd afgesloten met een borrel.

 

Jan Odijk

Dag I

Dit jaar werd de tweede Digital Humanities Benelux gehouden op 8 en 9 juni in Antwerpen (de eerste was vorig jaar in Den Haag). Ik beschrijf (ontzettend subjectief natuurlijk) hier enkele hoogtepunten hiervan.

William NoelDe keynote spreker William Noel had een inspirerende en overtuigende voordracht waarin hij liet zien hoe het delen van data kan leiden tot onverwacht nieuwe gebruik en nieuwe verrijkingen van de data. Make your data promiscuous  was zijn slogan.

De andere keynote spreker, Elena Pierazzo, kon mij minder bekoren. In het reguliere programma waren bijdragen uit vele hoeken van de geesteswetenschappen, zo breed dat ik mij enigszins ontheemd voelde op deze conferentie (zoals trouwens ook op  andere Digital Humanities conferenties). Het volledige programma is hier te vinden.

Zeker vermeldenswaard is de presentatie over het initiatief van Stef Scagliola et al. om een overzicht te maken van Digital Humanities projecten in Nederland (hopelijk later uitgebreid naar heel Europa), een project dat nu ook door CLARIAH financieel ondersteund wordt. Ik vond de  sessie over Linked Open Data ook bijzonder interessant, en wijs met name op het door CLARIN geïnitieerde Traveling CLARIN Campus project Talk of Europe (Hollink et al.).

De postersessie werd gehouden op het terras van de Antwerp Zoo, samen met een borrel, wat een zeer aangename ervaring was. Helaas was ik vergeten me in te schrijven voor het diner, waarvan ik weet dat het erg goed is (wat mij de volgende dag ook bevestigd werd) en de erbij behorende avondwandeling door de Antwerp Zoo. Hierover kan ik dan ook niets berichten. 

Dag II

De volgende dag waren er opnieuw presentaties en posters over allerlei onderwerpen, o.a. over resultaten van CLARIN-NL en CLARIN Vlaanderen (MIMORE en GrETEL, Augustinus et al.). Heel bijzonder vond ik de presentatie van Ben Verhoeven et al. over de Riddlerbot: A Next Step on the Ladder Towards Computational Creativity waarin hij een twitter bot (@TheRiddlerBot) beschreef die zelfs raadsels opstelt en formuleert.

De afsluitende panelsessie moest ik helaas voortijdig verlaten: er werden in de inleidende praatjes wat dingen gezegd die hopelijk zouden provoceren (bijv.  Antal van den Bosch: iedere geesteswetenschapper moet leren programmeren), maar ik weet niet of en hoe die in de verdere discussie aan bod zijn gekomen. 

De volgende DH Benelux wordt gehouden in 2017, in Luxemburg.

 

Jan Odijk

sparqlRDFOp 13 april kwamen in de Koninklijke Bibliotheek circa 40 onderzoekers en bibliotheekmedewerkers samen om te leren werken met het SPARQL interface dat in het najaar van 2014 voor de Short Title Catalogue Netherlands (STCN) ontwikkeld is.

Met dat interface en de onderliggende RDF graph die tegelijk met dat interface gemaakt werd, kunnen veel complexere zoekacties worden uitgevoerd in de 204.000 titels die de STCN omvat. Van die titels zijn tal van aanvullende gegevens in de STCN opgenomen: plaats van uitgave, auteur, taal, aanwezigheid van illustratie etc. etc. Er kan met het nieuwe interface gezocht worden op pieken in de productie, op regionale spreiding van bepaalde literaire genres, op omvang van de uitgegeven boeken, etc. etc.

Na een korte introductie over de omzetting van de STCN naar RDF, begon de SPARQL uitleg. Aan de hand  van een voor deze workshop gemaakte handleiding, werden stap voor stap de belangrijkste commando’s doorgenomen. Na een uur of twee had iedereen de beginselen onder de knie. Ter plekke probeerden sommigen ook al uit wat de nieuwe zoektool voor hun eigen onderzoek op zal leveren.

De workshop werd afgesloten met een korte presentatie door INVENiT: een VU-project dat gegevens uit de STCN beoogt te koppelen aan prentenmateriaal zoals dat aanwezig is in de catalogus van het Rijksprentenkabinet (Rijksmuseum). In de aanloop naar de workshop heeft het INVENiT team de RDF graph van de KB overgenomen, om verder samenwerken in de toekomst mogelijk te maken. 

Peter Boot (Huygens Instituut voor Nederlandse Geschiedenis), Marieke van Delft, Juliette Lonij (KB) en Els Stronks (UU) bedanken CLARIN voor de financiële steun voor deze workshop.

De handleiding van de workshop vindt u hier
en een andere blog over de bijeenkomst op de website van Literatuur & Samenleving (VU).

 

Vrijdagmiddag 13 maart vond bij Beeld en Geluid in Hilversum de officiële kickoff plaats van CLARIAH: het infrastructuurprogramma voor de Geesteswetenschappen en een van de gehonoreerde projecten van de Nationale roadmap grootschalige onderzoeksfaciliteiten. Meer dan 140 gasten waren getuige van de presentatie van de plannen voor de ontwikkeling van een digitale infrastructuur voor de geesteswetenschappen.

Jan MullerJan Müller, directeur van Beeld en Geluid, opende de middag met een welkomstwoord en een mooie presentatie waarin liet hij zien hoe de plannen van CLARIAH op het gebied van mediastudies aansluiten bij de langetermijnvisie van zijn instituut. Dit zal de samenwerking de komende jaren zeker ten goede komen.

Na zijn welkom werd een leuke video afgespeeld die de toekomst van CLARIAH moest verbeelden. Tijdens de opening was het een video, maar in werkelijkheid is het een tool waarmee je zelf in de CLARIAH-sfere kunt rondlopen.

Brieven als buit

Hierna gaf dagvoorzitter Henk Wals het woord aan Lex Heerma van Voss, de hoofdaanvrager van CLARIAH. Hij toonde de potentiële mogelijkheden van CLARIAH met een voorbeeld uit zijn eigen onderzoekspraktijk.
De dataset Brieven als buit is oorspronkelijk samengesteld door taalwetenschappers die onderzoek wilden doen naar alledaags taalgebruik in de 17e en 18e eeuw. Doordat de buitgemaakte brieven uit Nederlandse schepen met hun annotaties en metadata online toegankelijk zijn gemaakt, is de dataset ook voor andere onderzoekers en andere geesteswetenschappelijke disciplines toegankelijk.
Heerma van Voss gebruikte de brieven voor een onderzoek naar vriendschap en liefde in de 17e en 18e  eeuw. Tot nu toe werd het beeld hierover bepaald door enkele dagboekjes van hoge heren die bijhielden van wie ze nog een gunst te goed hadden - vriendschappelijke en liefdesrelaties als strategische ruilhandel. Maar de brieven van de zeelieden geven een ander beeld. Onder het gewone volk was zeker sprake van eerlijke liefde en vriendschap, al was die met name in de 17e eeuw nog vooral van praktische aard.

Opzet CLARIAH

Het primaire doel van CLARIAH is om data zo in te richten dat ze ook voor andere onderzoekers bruikbaar zijn. De komende jaren zal daarom de focus liggen op de ontwikkeling van een samenhangende infrastructuur. Dit betekent dat er minder calls zullen zijn dan bij CLARIN-NL.

De drie pijlers

Hierna was het woord aan de vertegenwoordigers van de drie pijlers binnen CLARIAH: tekstuele data, audiovisuele data en gestructureerde data.

  • Hans Bennis verving Sjef Barbiers, de inhoudelijk leider van de tekstuele tak. Bennis liet zien waar CLARIAH staat in het netwerk van instituten en initiatieven in de wereld van het digitaal erfgoed, zoals onlangs gepresenteerd in de Nationale strategie digitaal erfgoed. Grote datasets maken het mogelijk om nauwkeurig antwoord te geven op specifieke vragen. Zo kan the nature of human language in kaart gebracht worden.
  • Jan Luiten van Zanden presenteerde de mogelijkheden die CLARIAH biedt voor gestructureerde data, die veel worden gebruikt in het sociaaleconomisch onderzoek. Zowel Clio Infra als de Historisch Steekproef Nederland (HSN) zijn waardevolle projecten, maar kennen ook elk hun beperkingen. Door de micro- en macrodata uit deze projecten te verbinden - zoals CLARIAH doet in het zaaiproject HSN - is het mogelijke nieuwe onderzoeksvragen te beantwoorden.
  • Julia Noordegraaf beschreef de plannen voor de audiovisuele data die met name worden gebruikt in de mediastudies. De hoeveelheid data groeit enorm, maar is vaak lastig toegankelijk voor de wetenschap vanwege de aard van het materiaal. Beeld is moeilijk doorzoekbaar, vaak liggen er auteursrechten op en het materiaal is verspreid over verschillende platforms, waardoor het moeilijk is om de onderlinge samenhang te zien. CLARIAH wil hier verandering in brengen met de ontwikkeling van verschillende tools voor (en in samenspraak met) wetenschappers.

Zaaigeldprojecten

Vlak voor de pauze lanceerde Antal van de Bosch officieel Nederlab, een NWO Groot-project dat ook een bijdrage heeft ontvangen uit het CLARIAH zaaigeld. Via Nederlab kunnen onderzoekers en studenten alle gedigitaliseerde Nederlandstalige teksten van ca. 800 tot heden gezamenlijk doorzoeken en analyseren met binnen Nederlab ontwikkelde, gebruiksvriendelijke tekstanalysesoftware. Zo biedt Nederlab een laboratorium voor onderzoek naar de veranderingspatronen in de Nederlandse taal en cultuur.

In de pauze konden de gasten de posters van deze en de overige vier zaaigeld-projecten bekijken en in gesprek gaan met de ontwikkelaars.

Keynote

Arianna BettiDe kickoff werd afgesloten met een keynote van filosofe Arianna Betti. Zij ging in op de voorwaarden voor een succesvolle revolutie in de geesteswetenschappen. De interpretatie van de data die voortkomen uit computationele methoden is nu nog geheel aan de onderzoeker. Idealiter ontwerpen we een model van het concept dat we bestuderen, zodat de computer kan bijdragen aan de interpretatie van de data.

Foto's

In de loop van deze week zullen we de foto's van de kick-off online zetten.

Presentaties

CLARIN Closing Event
CLARIAH Kick-Off
Jan Müller
Lex Heerma van Voss
Hans Bennis Jan Luiten van Zanden Julia Noordegraaf
Jan Odijk
Arianna Betti