1 / 24

Puudepangad ( treebanks )

Puudepangad ( treebanks ). Heli Uibo TÜ arvutiteaduse instituut. Ülevaade. Mis on treebank (TB) ? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid, visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network

toviel
Download Presentation

Puudepangad ( treebanks )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Puudepangad (treebanks) Heli Uibo TÜ arvutiteaduse instituut

  2. Ülevaade • Mis on treebank (TB)? • Milleks TB-sid vaja on? • TB-des kasutatavad süntaksimudelid • TB-de loomise ja kasutamise vahendid, visualiseerimine • Kuulsamad TB-d maailmas • Nordic Treebank Network • Eesti keele süntaksipuude pank – mis on olemas ja mida vaja teha?

  3. Mis on puudepank? • Puudepank (inglise k. treebank) on süntaktiliselt (+ semantiliselt) märgendatud tekstikorpus. • Korpuse tekstid võimalikult loomulikku päritolu, näiteks ajalehetekstid, suuline kõne. • Märgendus peab võimaldama iga lause jaoks konstrueerida puu, seega peab kasutatav süntaksimudel kirjeldama lause osade vahelisi sõltuvussuhteid.

  4. Milleks puudepanku vaja on? • Keeletarkvara testimine, sh. eriti • süntaksianalüsaatorid • leksikograafi abivahendid • masintõlge • küsimus-vastussüsteemid • lingvistiliste teooriate paikapidavuse kontroll • masintõlkesüsteemide arendamine (eeldab paralleel-puudepanka, millest tuletatakse struktuuride transformatsioonireeglid)

  5. Puudepankades kasutatavad süntaksimudelid • Dependency Grammar erinevad realisatsioonid • Head-driven Phrase Structure Grammar (HPSG) = puustruktuur + tippude tunnusstruktuurid

  6. Puudepanga loomine • Eesmärk on lingvistiline korrektsus, seepärast toimub märgendamine • täielikult käsitsi või • poolautomaatselt (näiteks esmalt rakendatakse tekstile süntaksianalüsaatorit, märgendust parandavad ja täiendavad eksperdid)

  7. Puudepanga kasutamine • Päringud: • Millistes kontekstides esines antud struktuur? Jne. • Paralleelpuudepankades: Kuidas tõlgiti mingi struktuur ühest keelest teise?  masintõlkesüsteemid • Keeletarkvara arendamine • parserid • leksikograafi abivahendid • masintõlge • küsimus-vastussüsteemid

  8. Visualiseerimisvahendid • Märgendatud teksti põhjal joonistatakse välja süntaksipuu • Ka puudepanga arendamise tarkvara võib olla graafilise kasutajaliidesega - hõlbustab lingvisti tööd

  9. Kuulsamad puudepangad maailmas • Penn Treebank – Univ of Pennsylvania • Prague Treebank (tšehhi k.) • Verbmobil (saksa) • TiGer (saksa) • LinGO – CSLI, Stanford (HPSG)

  10. Nordic Treebank Network • Osalejad: • Rootsi: Växjö, Göteborgi, Stockholmi, Uppsala Ülikool, KTH (Stockholm) • Norra: NTNU (Trondheim), Bergeni ja Oslo Ülikool • Taani: CBS (Copenhagen Business School), SDU (Univ. of Southern Denmark) • Island: Islandi Ülikool • Soome: CSC (Scientific Computing Ltd.), Espoo • Eesti: Tartu Ülikool

  11. Nordic Treebank Network • Eesmärgid: • Dokumenteerida olemasolevad ressursid ja jooksvad projektid korpuste süntaktilise märgendamise alal. • Toetada keeletehnoloogia-alast doktoriõpet Põhjamaades. • Luua väike paralleel-puudepank. • samad tekstid, tõlke-relatsioonis • sama märgendussüsteem • Toetada suuremate puudepankade loomist Põhjamaade keelte jaoks. • Rahvusvaheline koostöö.

  12. Nordic Treebank Network • Tegevused: • Rahvusvaheline konverents TLT 2003 (Treebanks and Linguistic Theories) 14.-15. nov. 2003 Växjö’s • PhD kursused: • 2004 kevadel ja sügisel • Teemad (esialgsed): • Treebanks for spoken language (Jens Allwood) • Dependency structures in treebanks (Sabine Kirchmeier-Andersen) • Treebanks: Formats, Tools and Usage (Martin Volk)

  13. Nordic Treebank Network • Ressursside ja projektide dokumenteerimine • Ühiselt kasutatava puudepanga arendamise tarkvara hankimine/kirjutamine • Esimene kohtumine 17.-18. sept. 2003

  14. Eesti keele süntaksipuude pank – mis on olemas? • kitsenduste grammatikal (constraint grammar) põhinevad • morfoloogiline ühestaja (T. Puolakainen), valib sõnavormi morfoloogilistest tõlgendustest välja ühe ja õige (rakendatakse pärast morf. analüsaatorit) • süntaksianalüsaator (K. Müürisep) = shallow syntactic parser, määrab sõnade süntaktilised funktsioonid lauses • Tulemused (2000. a. lõpp): • recall = 99.2%, precision = 89.6%, kui sisendis pole vigu (käsitsi üle kontrollitud) • recall = 96.4%, precision = 78.1%, kui sisend on automaatselt morfoloogiliselt analüüsitud.

  15. Eesti keele süntaksipuude pank – mis on olemas? • kitsenduste grammatika järgi morfoloogiliselt ja süntaktiliselt märgendatud ja ühestatud korpus mahuga ca 123 000 sõna, (ilukirjandus 106 500 + ajalehed 10 000 + juura 6000) • eelmärgendamiseks on kasutatud programme estmorf (H.-J. Kaalep), estyhmm (Markovi peitmudelil põhinev statistiline morf. ühestaja, H.-J. Kaalep, T. Vaino) ja CGP (constraint grammar parser, K. Müürisep)

  16. Eesti k. puudepank – mis olemas? • Märgendamine viiakse lõpule käsitsi • lõplik morfoloogiline ühestamine pärast programmide estmorf ja estyhmm rakendamist; • lõplik süntaktiline ühestamine pärast programmi CGP rakendamist. • Metoodika: • Ühte ja sama teksti ühestavad sõltumatult kaks lingvisti. • Tulemusi võrreldakse automaatselt. • Kui mõlemad lingvistid on määranud sõnale sama süntaktilise funktsiooni, siis loetakse see õigeks. • Kui hinnangud lahknevad, siis probleemi arutatakse ja lahendatakse erimeelsused.

  17. Eesti keele kitsenduste grammatika süntaksianalüsaatori märgendid • SUBJ – alus • OBJ – sihitis • +FMV, -FMV, +FCV, -FCV – öeldise märgendid • PRD – öeldistäide • ADVL – määrus • NN>, <NN – nimisõnaline ees- ja järeltäiend • AN>, <AN – omadussõnaline ees- ja järeltäiend • P>, <P – kaassõnafraasi laiend • Q>, <Q – kvantorifraasi laiend

  18. Näide märgendatud lausest Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ on ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr // @+FMV elu elu+0 //_S_ com sg gen // @NN> vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN> omapära oma_pära+0 //_S_ com sg nom // @PRD $, $, //_Z_ Com //

  19. Näide märgendatud lausest (järg) selle see+0 //_P_ dem sg gen // **CLB @P> vastu vastu+0 //_K_ post #gen // @ADVL ei ei+0 //_V_ aux neg // @NEG tohi tohti+0 //_V_ mod indic pres ps neg #FinV #Intr // @+FCV kätt käsi+tt //_S_ com sg part // @OBJ tõsta tõst+a //_V_ main inf #NGP-P // @-FMV $. $. //_Z_ Fst //

  20. Fraasistruktuuripuu (1. osalause) S NP VP N auxV N mitmekesisus on omapära Adj vaieldamatu N elu

  21. Fraasistruktuuripuu (2. osalause) S PP VP N P neg modV cV selle vastu ei tohi N V kätt tõsta

  22. Probleem: puu joonistamiseks ei piisa CG-tüüpi pindsüntaktilisest analüüsist • Võimalik lahendus: üleminek FDG-le (Functional Dependency Grammar) – sõltuvussuhted paremini väljendatud, seejuures võimalik ka fraasistruktuuri taastamine sõltuvusstruktuurist FDG realisatsioon: Connexor OY (T. Järvinen jt.) www.conexor.fi/demos

  23. Linke • http://www.bultreebank.org/Proceedings.html– Proceedings of The First Workshop on Treebanks and Linguistic Theories (TLT 2002) Sozopol, Bulgaaria • http://wodan.let.rug.nl/vannoord_bin/alpino –Alpino treebank (Groningeni Ülikool, hollandi k., näitelaused olemas) • http://www.speech.kth.se/~bea/treebank.html–Beata Megyesi lingid • http://faculty.washington.edu/dillon/GramResources/GramResources.html– resources for studying English syntax online

  24. Lõpetuseks Eesti keele puudepank ootab tegijaid (põhitöö 2004-..., aga tausta võib uurima hakata varem).

More Related