1 / 25

Učni korpus govorjene slovenščine

Učni korpus govorjene slovenščine . Jana Zemljarič Miklavčič JOTA,15. 3. 2005 . Napovednik. Govorni korpusi Zbiranje gradiva Trans kribiranje Označevanje Konverzija (Knut Hofland) Uporabnost učnega korpusa Perspektive. Govorni korpusi.

storm
Download Presentation

Učni korpus govorjene slovenščine

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Učnikorpus govorjene slovenščine Jana Zemljarič Miklavčič JOTA,15. 3. 2005

  2. Napovednik • Govorni korpusi • Zbiranje gradiva • Transkribiranje • Označevanje • Konverzija (Knut Hofland) • Uporabnost učnega korpusa • Perspektive

  3. Govorni korpusi • so računalniške zbirke transkribiranih posnetkov spontanega govora • govorni korpusi proti korpusom govora • za preverjanje hipotez o jeziku in opis jezika, predvsem v leksikografiji in slovnici • učenje jezika • sinteza in razpoznavanje govora • posebne potrebe

  4. Govorni korpusi

  5. Gradnja učnega korpusa (UKGS) Namen: • spoznati metode zbiranja, shranjevanja in dokumentiranja govorjenih besedil • razviti in testirati načela transkribiranja • določiti in testirati korpusne oznake • pokazati nekatere možnosti za uporabo korpusa za jezikovne opise in analizo

  6. Gradnja učnega korpusa (UKGS) Potek: • zbiranje gradiva • transkribiranje in označevanje • konverzija • popravljanje transkripcij in oznak • konverzija

  7. Posnetki UKGS

  8. Govorci UKGS ID Spol Leto roj. Izobr. Regija Prvi jezik Govorni polož. Poklic G02 m1965U Ljo slovformalni profesor G12 f 1969 S G slov neformalni administr. Del.

  9. Sestava UKGS Glede na besedilnovrstno taksonomijo • velikost: 15.000 pojavnic • dialogi proti monologom: 94 % : 6 % • javna besedila proti zasebnim: 19,5 % : 80,5 % • osebni stik proti besedilom medijev: 31 % : 69 % • posneto z vednostjo govorcev proti naskrivaj: 5,6 : 94,4 % • neformalna proti formalnim besedilom: 35,5 % : 64,5 %

  10. Transkribiranje Osnovna načela: • priporočila mednarodnih organizacij za standardizacijo korpusov (TEI, EAGLES) • razširjena ortografska transkripcija • osnovna enota je izjava, ki jo omejuje premor ali menjava govorcev • brez ločil • velika začetnica samo v lastnih imenih

  11. Transcriber

  12. Praat

  13. Težave pri transkribiranju Problematika zadeva predvsem zapis • pogovornih/dialektalnih besed • tujejezičnih besedilnih delov • spremljevalnih zvokov (smeh, kašelj) • prekrivnega govora • premorov

  14. Nekaj konkretnih problemov • [a je scal] <nst>scalo</nst> • [pet kosov eden] <nst>kosov</nst> ?? • [pa un kurc kva je že … ] kurc, kurac?? • [mogoče imam celo kle] <nst>kle<nst>/tukaj • [imamo mi posla i bez toga] <tj: hrv>imamo mi posla i bez toga</tj> • [karradera]<tj:katalon><?>karradera</?>/tj>

  15. Nekaj konkretnih problemov • [una rdeča zemlja], [si slišal kaj je un Michael], [pa un kurc kva je že … ] oni/ona/ono ??? • [tadrobna zemlja],[izhodišče zataglavne fjorde] tadrobna, taglavne ali ta drobna, ta glavne • [vsak dan smo šli za ene dve ure hodit], [sem pa danes spila že ene tri kofete ], [glih pred ene dvema mescema]

  16. <pavza> <ime> <neraz> <?>besedilo</?> – <repet/> <okr>beseda</okr> [besedilo] kratka pavza nadomešča lastno osebno ime nerazumljivi govor nezanesljiva transkripcija lažni začetek, okrnjena beseda (nepotrebna) ponovitev nestandardna beseda ali oblika kratica ali okrajšava prekrivni govor Transkripcijske oznake 1

  17. <nst>beseda</nst> <tj: norv>besedilo</tj> <nv>smeh</nv> (opis) <??>besedilo</??> <shift=poud>besedilo</> <shift=vpr>besedilo</> nestandardna beseda tuja beseda ali besedilo neverbalni dogodki zvoki v ozadju neprepoznavni govorec poudarjeni del besedila del besedila z izrazito vprašalno intonacijo Transkripcijske oznake 2

  18. Označevanje Glava posnetka UKGS • ni lematiziran • ni morfosintaktično označen

  19. Wordpad dokument wordpad <Turn speaker="spk1" startTime="155.211" endTime="161.469"> <Sync time="155.211"/> <shift=vpr>;si slišal kaj je oni Michael <?>;Moore</?>; <neraz>; ali kaj imajo nekaj za študente v Ameriki</shift=vpr>; </Turn> <Turn speaker="spk2" startTime="161.469" endTime="162.15"> <Sync time="161.469"/> ne </Turn> <Turn speaker="spk1" startTime="162.15" endTime="164.894"> <Sync time="162.15"/> bog ve kaj ane verjetno je spet proti Bushu kaj </Turn> <Turn speaker="spk2" startTime="164.894" endTime="165.364"> <Sync time="164.894"/> ja </Turn>

  20. Konverzija Knut Hofland Aksis (Oddelek za kulturo, jezik in JT) Univerza v Bergnu http://torvald.aksis.uib.no/talem/jana/

  21. Konkordance

  22. Konkordance

  23. Kritični pogled na UKGS • oportunistične metode zbiranja • besedila niso cela, zaključena • pomanjkljiva demografska sestava govorcev • nepopoln zajem besedil glede na taksonomijo • nujno brisanje osebnih podatkov iz posnetkov • ni lematiziran in označen na besedni/sklad. ravni • transkripcijska načela • <repet/> • <shift=vpr> • <shift=poud> • <nst> • <nv>smeh</nv>

  24. Perspektive za *KGS • *1-milijonski korpus • = 100 ur posnetkov (50 demo + 50 kont) • = 2000 ur transkribiranja • = 10 ljudi, 5 mesecev po 40 ur/mesec • + pregledovanje in označevanje • + konverzija • + popravljanje • = 3 leta, 10,5 milijona SIT (44.000 €)

  25. Učnikorpus govorjene slovenščine BATMULT talekorpus jana.zemljaric@ff.uni-lj.si

More Related