1 / 26

CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen

CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen. Ineke Schuurman CCL, K.U.Leuven ineke.schuurman@ccl.kuleuven.be Studiedag ICT in de Humane Wetenschappen Leuven 27-03-2009. CLARIN?. ESFRI-project European Strategy Forum on Research Infrastructures

teness
Download Presentation

CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven ineke.schuurman@ccl.kuleuven.be Studiedag ICT in de Humane WetenschappenLeuven27-03-2009

  2. CLARIN? ESFRI-project European Strategy Forum on Research Infrastructures The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location. Eerste roadmap (2006): 34 projecten gehonoreerd, waaronder …

  3. Over CLARIN Social Science & Humanities • CLARIN (Common LAnguage Resources and technology INitiative) www.mpi.nl/clarin plus • CESSDA-PPP (Council of European Social Science Data Archives) www.nsd.uib.no/cessda • DARIAH (DigitAl Research Infrastructure for the Arts and Humanities) www.dariah.eu • ESSPrep (The European Social Survey) www.europeansocialsurvey.org • SHARE-PREP (Survey of Health, Ageing and Retirement in Europe) www.share-project.org

  4. Doel CLARIN Doel: Het beschikbaar maken van tools en resources uit de taal- en spraaktechnologie (TST) voor alle onderzoekers in de humane en sociale wetenschappen (HSW), i.e. voor iedereen die onderzoek doet waarin taal (geschreven, gesproken, multi-mediaal) centraal staat. Dekking: Alle talen die in de betrokken Europese landen worden gesproken en/of bestudeerd (±100)

  5. CLARIN (looptijd) Looptijd CLARIN: 01-01-2008 -- … • Voorbereidingsfase 2008-2010 • Constructiefase 2011-2014 • Exploitatiefase 2015-… 1e fase: Europese + nationale fondsen 2e en 3e fase: enkel nationale fondsen Naast Europees CLARIN-project ook vele nationale CLARIN-projecten

  6. CLARIN (opzet) Pan-Europees project • meeste lidstaten EU zijn betrokken • Partners en leden • Partners: ‘Europese’ luik (32 in 22 landen) • Leden: nationale luiken (119 (151) in 32 landen) Voor België: • partner en nationaal coördinator: K.U.Leuven (CCL) • leden: ESAT, itec, LIIR (Leuven), CNTS (Antwerpen), ELIS, LT3 (Gent), ETRO (Brussel) Nationale fondsen: EWI (dus Vlaanderen, niet België)

  7. CLARIN schematisch • Alle landen betrokken bij CLARIN-EU, maar niet alle • officieel • in even grote mate CLARIN- nat.1 CLARIN-EU CLARIN-nat13 CLARIN-nat 22 CLARIN-nat 30

  8. CLARIN inventarisatie Eén van de taken in de eerste fase: • Inventarisatie: welke tools en resources zijn voorhanden voor de verschillende talen (specifiek voor die talen, of ‘taalneutraal’) • Stand 25-03-2009: • 768 resources (woordenboeken, treebanks, corpora, …), monolinguaal en multilinguaal • 132 tools (tokenizers, parsers, spraakherkenners, …) Nuttig, maar slechts één (klein) onderdeel van het bouwen van een onderzoeksinfrastructuur !! VRAAG: Hoe maak je dit alles bereikbaar en bruikbaar ?

  9. CLARIN voorbereidingsfase Hoe-vraag (techniek) • Hoe maak je dit alles bereikbaar en bruikbaar voor niet-TST’ers? Wat-vraag (kruisbestuiving TST – HSW) • Hoe maak je dit alles interessant en bruikbaar voor HSW’ers? Waar is behoefte aan? Mogelijkheid om laatste te achterhalen: Door samen aan de slag te gaan. Probleem: geen CLARIN-EU -fondsen hiervoor

  10. CLARIN: behoefte? • Waar is behoefte aan? • En vooral: Bestaat er al behoefte? E-science duikt meer en meer op: • Uitrusting voor nodig (tools en resources) • Aangepaste opleiding • Momenteel nog ‘ver van m’n bed’ voor veel onderzoekers Moeilijk voor hen te bepalen wat ze willen/nodig hebben • Probleem: hoe kom je met alle HSW-onderzoekers in contact? Alle hulp welkom!

  11. CLARIN: behoefte? Eén duidelijke behoefte tekent zich al af: veel meer digitale, machine-readable, teksten, vooral ook (iets) oudere teksten van Vlaamse oorsprong

  12. ClARIN meer technisch Vraag: hoe stel je alles ter beschikking aan de HSW’er? Van ‘Redt u zich maar’ naar ‘Alsjeblieft!’ • Hoe vind je wat je zoekt? • Hoe werkt het? • Mag je er wel mee werken? • ‘Maar toen ik het vorige week gebruikte kreeg ik andere resultaten’

  13. CLARIN: (infra)structuur

  14. CLARIN Centra • Ideaal: alles bijeen • Realiteit: zal nooit lukken, bv omdat landen hun ‘cultureel erfgoed’ niet uit handen willen geven • Dus: per land één of meer centra waar tools en resources worden beheerd (vgl TST-centrale). Alle centra werken nauw samen waardoor gebruiker niet merkt dat hij met meerdere centra te maken heeft.

  15. Verschillende typen (5) centra in infrastructuur: Sommige heel centraal, met *gegarandeerd* lange levensduur Andere bieden bv alleen eigen spullen aan, of zijn geen lid van CLARIN (maar bieden wel dingen aan die voor CLARIN essentieel zijn) Gebruiker ziet enkel de ‘buitenkant’, hij wordt niet vermoeid met interne organisatie CLARIN centra

  16. Elke gebruiker krijgt één ‘identiteit’ (toegekend door bv de universiteit) Tussen de identity provider en service provider worden afspraken vastgelegd over rechten en plichten Gebruiker kan ongestoord z’n gang gaan zonder zich steeds opnieuw aan allerlei administratieve details te moeten storen Gebruiker kan virtuele collectie bouwen van spullen op verschillende plaatsen (want toegang etc is al geregeld) CLARIN: trust domain

  17. Essentieel: stabiele referenties Voor gebruiker (bv in artikel) Voor CLARIN zelf Klassieke URL’s niet stabiel genoeg CLARIN: gebruiker vermeldt PID, wanneer je daarop klikt kom je via een PID-service terecht bij bv het bedoelde paper. Er wordt dus met een ‘tussenstation’ gewerkt. Alleen daar hoeven veranderingen in URL’s bijgehouden te worden. Deze taak wordt uitgevoerd door een centrum met gegarandeerd lange levensduur! CLARIN: Persistent IDentifier service

  18. Praktijk: iedereen defineert begrippen vanuit eigen taal, theoretische achtergrond Die begrippen moeten worden gerelateerd aan geregistreerde definities om interacties mogelijk te maken Gebaseerd op ISOcat, TC3/SC4, ISO 12620 CLARIN: concept registry service

  19. Tools en resources moeten zo beschreven worden dat ze ‘opspoorbaar’ zijn (mens en machine!) Er kan een profiel worden gemaakt en bijgehouden voor gebruiker, om hem te helpen bij zoektocht Idem voor bepaalde subdomeinen (sign language, virtual reality, specch generation’,…) CLARIN: Component Metadata

  20. ‘virtuele collecties’ (met bv elementen van verschillende herkomst, domeinen) kunnen worden geconsolideerd, en krijgen dan bv een identity (metadata, pid) Kan voor een bepaalde gebruiker, of voor een bredere groep Voor interoperabiliteit zijn mogelijk bv wrappers nodig CLARIN: virtual collection

  21. Tools: kort bestaan Resources: moeten blijvend ter beschikking staan: vensters op culturen en talen ‘Reproduceerbaarheid’ van onderzoek inhoud (Eindhoven corpus!) ‘vorm’ (drager, archief) Essentieel onderdeel CLARIN! CLARIN: long term preservation

  22. CLARIN is op zoek naar standaarden en ‘best practice’ (SBP) op velerlei gebied Leidraad voor nieuwe tools, resources Aanpassingen aan oude Leidraad voor wrappers. ‘transfer regels’, etc Om te komen tot CLARIN: standaarden, best practice

  23. CLARIN: juridisch • IPR e.d. moet op Europees niveau worden geregeld, nu zijn er vele verschillende nationale regelingen, waarvan implicaties niet steeds duidelijk te overzien zijn. • Los daarvan nog hele resem andere problemen: • Wat is bv de status van een spraakcorpus in een Afrikaanse taal waarvan de mensen die het materiaal hebben verschaft en toestemming voor gebruik hebben gegeven, de conse-quenties niet kunnen overzien (omdat ze niet vertrouwd zijn met ICT)? • Waar CLARIN-EU uitgaat van IPR e.d. voor onderzoek, wil Vlaanderen het graag wat meer open trekken. Wat zijn daarvan de implicaties?

  24. CLARIN en governance • 2e en 3e fase CLARIN: enkel nationale fondsen • Die moeten dus worden verzekerd !!! • Voor het Nederlands: deels bi-nationaal? Wat zijn de voors en de tegens? • Dragen nationale overheden ook bij aan de kosten van de grote, centrale centra in andere landen? Waarom wel/niet? Wat zijn de consequenties? • En wat als bepaalde BLARK-tools en resources ontbreken voor een bepaalde taal? Wat behoort voor HSW tot zo’n BLARK? (BLARK: Basic LAnguage Resources tool Kit)

  25. Contact: Ineke Schuurman http: //www.ccl.kuleuven.be/CLARIN CLARIN has received funding fromthe European Community's Seventh Framework Programmeunder grant agreement n° 212230 CLARIN-Vlaanderen wordt gefinancierd door Department Economie, Wetenschap en Innovatie van de Vlaamse Gemeenschap

More Related