1 / 24

Valodas resursu un rīku pārskats: pašreizējā situācija (WP5)

Valodas resursu un rīku pārskats: pašreizējā situācija (WP5). Everita Andronova LU MII CLARIN seminārs 2009.gada 2.aprīlī. WP5 uzdevums.

felix
Download Presentation

Valodas resursu un rīku pārskats: pašreizējā situācija (WP5)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Valodas resursu un rīku pārskats: pašreizējā situācija (WP5) Everita AndronovaLU MII CLARIN seminārs 2009.gada 2.aprīlī

  2. WP5 uzdevums • Apzināt valodas rīkus un resursus, lai izvērtētu konkrētās valodas potenciālu un noskaidrotu, kāda ir minimālā valodas resursu kopa, kas nepieciešama humanitāro un sociālo zinātņu pētniekiem, un izvirzītu priekšlikumus, kādi resursi ir stratēģiski svarīgi • CLARIN projekta WP5 ir 6 apakšgrupas, Latvijas pārstāvji (I. Auziņa, I. Skadiņa un E. Andronova) piereģistrējušies 5, bet seko līdzi visāmdarba grupām

  3. WP5.1 (Rīki) darba grupas mērķi 1. inventarizēt galvenos valodas apstrādes rīkus (lematizators, morfoloģiskais analizators, vārdšķiru noteicējs, sintaktiskais analizators, īpašvārdu, akronīmu u. tml. noteicējs) 2. inventarizēt galvenās valodas resursu apstrādes platformas 3. izveidot valodas apstrādes rīku taksonomiju 4. izpētīt šo rīku ievades /izvades formātus un lietotāju saskarnes 5. izpētīt valodas apstrādes rīku specifikāciju (valod(ne)atkarība, atkarība no temata, rīka izmantošanai nepieciešamie resursi) 6. iezīmēt veidus, kā valodas apstrādes rīkus integrēt valodas infrastruktūrā 7. noteikt kritērijus valodas rīku kvalitātes novērtēšanai

  4. WP5.1. rezultāti CLARIN krātuvē ir reģistrēti 132 valodas apstrādes rīki. Ir piereģistrēti 4 latviešu valodas rīki (sal. : lietuviešu valodai – 1, bet igauņu – 0): 1 – „Tilde” – latviešu valodas morfoloģiskais analizators un formu veidotājs 3 – LU MII – rīki, kas izstrādāti SemTi-Kamols projektā: - daļēji automātisks korpusa anotēšanas rīks, kurā ir morfoloģiskais analizators un gramatiskais analizators - vienkāršu paplašinātu teikumu gramatiskais analizators - morfoloģiskā analizatora tīmekļa serviss

  5. WP5.2 (Leksiskie resursi) darba grupas mērķi • inventarizēt leksiskos resursus (vienvalodas / divvalodu, multimediju, terminoloģiskos datus u. c.) • izpētīt esošos valodas resursu standartus, pielāgot tos un izteikt priekšlikumus izmaiņām • izveidot resursu taksonomiju • izpētīt valodas resursu kodēšanas formātus • izpētīt citas valodas rīku pazīmes (datu veidi, pārklājums) • iezīmēt veidus, kā valodas resursus integrēt valodas infrastruktūrā • noteikt kritērijus valodas resursu kvalitātes novērtēšanai

  6. WP5.3 (Korpusi) darba grupas mērķi • inventarizēt valodas korpusus (vienvalodas /divvalodu (sastatīti), speciālie /vispārīgie, marķētie u. c.) • izpētīt esošos valodas resursu standartus, pielāgot tos un izteikt priekšlikumus izmaiņām • izveidot resursu taksonomiju • izpētīt korpusu kodēšanas formātus • iezīmēt veidus, kā valodas korpusus integrēt valodas infrastruktūrā • noteikt kritērijus, kā novērtēt valodas korpusu kvalitāti

  7. Valodas resursu aptaujas rezultāti CLARIN valodas resursu apskatā kopā reģistrēti 822 (valodas) resursi (01.04.09.). No tiem 32latviešu valodas resursi, tas ir, ~ 4% no kopējā skaita (sal. igauņu valodai reģistrēti 24 resursi, bet lietuviešu valodai – 14) Latviešu valodas resursu izstrāde nenotiek tikai Latvijā (reģistrēti 29 resursi) , bet arī: - Vācijā (Titus projekts un Wortschatz projekts) - Itālijā (JRC-Acquis korpuss) - ir sadarbības projekti (Rēzeknes Augstskola un Milānas Universitāte)

  8. Latvijas resursu izstrādātāji • Daugavpils Universitātes Mutvārdu vēstures centrs • Latvijas Nacionālā bibliotēka • Liepājas Universitāte • LU Filozofijas un socioloģijas institūts • LU Literatūras, folkloras un mākslas institūts • LU Matemātikas un informātikas institūts • LU Sociālo zinātņu studējošo fonds • LZA Terminoloģijas komisija • Rēzeknes Augstskola • Tilde • Tulkošanas un terminoloģijas centrs

  9. Problēmas / Atziņas Anketēšanas efektivitāte: izsūtītas 42 / saņemtas 8+(2) anketas • Labāk uzrunāt konkrētus cilvēkus un uz vietas noskaidrot esošos resursus • Resursu sagatavotāju / lietotāju dažādais sagatavotības līmenis (no .txt failiem līdz korpusam / no MS Word līdz sarežģītām datu bāzēm) • Vēlme sakārtot savus resursus, bet nepieciešams padoms un/ vai tehnisks atbalsts • Cilvēku atsaucība konkrētiem pasākumiem

  10. Kāds ieguvums no CLARIN krātuves? • Iespēja popularizēt latviešu valodas resursus, to uzskaitījums atrastos vienuviet, nevis izbārstīts pa daudzu institūciju mājas lapām • Iespēja ieinteresēt humanitāro un sociālo zinātņu pētniekus izmantot latviešu valodas datus, piem., veicot areālpētījumus vai pētījumus konkrētās jomās (par noteiktu laika periodu, procesiem u.c.) • Iespēja atrast sadarbības partnerus jauniem projektu pieteikumiem

  11. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Terminoloģija (3 resursi): - ne vien latviešu, bet arī angļu, franču, vācu, latīņu un krievu valodā (TTC terminu datu bāze, ~200 000) - ne vien latviešu, bet arī angļu, franču, vācu, krievu valodā (AkadTerm, 790 000) - arī angļu, igauņu, franču, vācu, ungāru, lietuviešu valodā (Eurotermbank, 1,9 milj./25 valodās)

  12. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Teksti: • folklora (pasakas un teikas; ticējumi; sakāmvārdi) • raksti par folkloristiku (http://www.korpuss.lv/feb/) • latviešu literatūra (http://www.letonika.lv/literatura/; http://www.korpuss.lv/klasika/)

  13. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Vārdnīcas - skaidrojošās: • Mūsdienu latviešu valodas vārdnīca (http://www.tezaurs.lv/mlvv/, ~20 000 šķirkļu) • Latviešu literārās valodas vārdnīca (http://www.tezaurs.lv/llvv/, 64 000 šķirkļu) • Latviešu valodas vārdnīca (http://www.tezaurs.lv/lvv/, 30 000 šķirkļu) • ME vārdnīca (http://www.ailab.lv/MEV/, 132 000 šķirkļu (no tiem 77 175 pamatsējumos)

  14. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Vārdnīcas – tulkojošās: • igauņu – latviešu valodas vārdnīca (http://eesti.letonika.lv/,26 000 šķirkļu) • latviešu –lietuviešu valodas internetvārdnīca (http://www.letonika.lv/LvLt/,43 000 šķirkļu) Periodika (http://www.periodika.lv/, 45 000 avīžu numuru)

  15. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Valodas korpusi – diahroniskie: • 1586.g. katehisms un 16.gs. tēvreizes (http://titus.uni-frankfurt.de/indexe.htm?/texte/texte2.htm#lett) • 16.-18.gs. tekstu korpuss “SENIE” (www.korpuss.lv/senie/; 1milj. vārdl.)

  16. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Valodas korpusi – sinhroniskie: • līdzsvarots mūsdienu latviešu valodas korpuss “Miljons” (www.korpuss.lv/) • morfoloģiski marķēts paraugkorpuss “Plāns ledus” (www.korpuss.lv/, 16 746 vārdl.) • avīžu tekstu korpusā balstīts meklētājs Wortschatz(http://corpora.informatik.uni-leipzig.de/)

  17. Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Paralēlie teksti: • ar Trados Translator's Workbench sastatītu latviešu-angļu un angļu-latviešu dokumentu datu bāze (TTC) • JRC-Acquis paralēlais korpuss (http://langtech.jrc.it/JRC-Acquis.html; 22 valodupāri)

  18. Latviešu valodas resursi, kas ir piereģistrēti sagatavošanas stadijā Audiomateriāli, kas vēl jāatšifrē, un teksti: • dzīvesstāstu materiāli • dialektoloģisko ekspedīciju vākums • folkloras ekspedīciju materiāli • Kurzemes kultūrvēsturiskais materiāls LiepU Kurzemes Humanitārā institūta Kurzemes folkloras un valodas centrā – vidusdialekta un lībiskā dialekta dati • Rēzeknes Augstskolā savāktie latgaliešu folklorasmateriāli (20 000 vienības) un etnolingvistiskās aptaujas materiāli Austrumlatvijā (8646 aptaujas)

  19. Latviešu valodas resursi, kas ir piereģistrēti sagatavošanas stadijā • Daugavpils Universitātes Mutvārdu vēstures centra (DU MVC) mutvārdu vēstures avotu krājums(~ 600 dzīvesstāstu, ~ 800 h), latviešu, krievu, baltkrievu un poļu valodā • Nacionālās mutvārdu vēstures projekts (LU FSI) – unikāli ieraksti arī no latviešiem Norvēģijā, Zviedrijā, Anglijā, ASV Latvijas Universitātes Sociālo zinātņu fakultātes studentu noslēguma darbu datu bāze (http://datubaze.ema.lv)

  20. Kāpēc iesaistīties CLARIN infrastruktūrā? WP5.4 darba grupa Basic Language Resources Toolkit (BLARK), kuras mērķi: • izvērtēt esošās BLARK specifikācijas dažām valodām • noteikt minimālo nepieciešamo valodas resursu kopu, lai varētu veikt (galvenokārt sociālo un humanitāro zinātņu (SHZ)) pētījumus pēc iespējas vairākās valodās • ziņot par katras valodas situāciju valodas resursu infrastruktūrā • ieteikt, kādi svarīgi resursi trūkst attiecīgajai valodai • apspriest stratēģiju, kā šos trūkstošos resursus novērst, ņemot vērā citu valstu CLARIN dalībnieku pieredzi • noteikt kritērijus, kā izvērtēt valodas resursu un rīku kvalitāti

  21. Kāpēc iesaistīties CLARIN infrastruktūrā? WP5.5 (Taksonomijas) darba grupas mērķi: 1. apskatīt esošās pieejas, kā valodas resursus sistematizēt 2. ieteikt resursu sistēmu, ņemot vērā esošos resursus un lietotāju prasības 3. koordinēt savu darbību ar WP2 darba grupu, jo īpaši metadatu jautājumā 4. ieteikt metodes un rādītājus resursus kvalitātes noteikšanai

  22. Kāpēc piedalīties CLARIN infrastruktūrā? WP5.6 (LR Integration) darba grupas mērķi: 1. novērtēt esošo tīmekļa servisu 2. izvēlēties lietotāju scenārijus, lai pārbaudītu un parādītu lietojumu gadījumus, kā izmantot resursus un rīkus šāda scenārija īstenošanai 3. izvēlēties atbilstošus valodas resursu un apstrādes rīku standartus, kas jāievieš tīmekļa servisā 4. novērtēt tehniskās problēmas

  23. WP5 turpināmie darbi 2009 • piedalīties BLARK darba grupā, lai noteiktu latviešu valodas minimālo resursu kopu un lai rekomendētu trūkstošo resursu izstrādi. • turpināt papildināt CLARIN krātuvi ar datiem par latviešu valodu. • organizēt praktiskus seminārus latviešu valodas resursu veidotājiem un lietotājiem.

  24. Paldies par uzmanību! everita.andronova@lumii.lv

More Related