1 / 27

Kaj početi s korpusom FidaPLUS : Horuk v nove čase

Kaj početi s korpusom FidaPLUS : Horuk v nove čase. Špela Arhar, Filozofska fakulteta, Amebis spela.arhar@amebis.si. Jota, 4. 12. 2006. Zasnova predavanja : referenčni korpusi, FIDA , Nova beseda, FidaPLUS: - o projektu FidaPLUS, - kako do gesla za delo s korpusom,

jaegar
Download Presentation

Kaj početi s korpusom FidaPLUS : Horuk v nove čase

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kaj početi s korpusom FidaPLUS: Horuk v nove čase Špela Arhar, Filozofska fakulteta, Amebis spela.arhar@amebis.si Jota, 4. 12. 2006

  2. Zasnova predavanja: • referenčni korpusi, • FIDA, Nova beseda, • FidaPLUS: - o projektu FidaPLUS, - kako do gesla za delo s korpusom, - kaj s FidoPLUS početi. Jota, 4. 12. 2006 2

  3. Kaj je korpus? Po določenih kriterijih urejena elektronska zbirka realnih besedil. Jota, 4. 12. 2006 3

  4. Referenčni korpus: • jezik vsakdanje rabe (pisni / govorni), • obsežnost, • sodobna besedila, • en jezik, • široka namenskost. kakšna je raba jezika tukaj in zdaj Jota, 4. 12. 2006 4

  5. Recimo: Kateri pridevniki se najpogosteje pojavljajo s samostalnikom “mati”? Jota, 4. 12. 2006 5

  6. Jota, 4. 12. 2006 6

  7. Jota, 4. 12. 2006 7

  8. Jota, 4. 12. 2006 8

  9. Odnos referenčnikorpus – jezikovni priročniki: • Jezikovni priročniki nastajajo na osnovi korpusnih podatkov: • primeri realne jezikovne rabe, • kaj je v resnici tipično v jeziku, • hitra in enostavna obdelava podatkov. 2 Raba korpusa dopolnjuje rabo jezikovnih priročnikov (sodobnejša besedila, možnost preučevanja konteksta, različne možnosti iskanja informacij ...). Jota, 4. 12. 2006 9

  10. Referenčni korpusi za slovenščino: • FIDA <http://www.fida.net/>, • Nova beseda <http://bos.zrc-sazu.si/s_beseda.html>, • FidaPLUS <http://www.fidaplus.net/>. Jota, 4. 12. 2006 10

  11. Zgodba o FIDI: • nastajala med 1997 ter 2000, • Filozofska fakulteta, IJS, DZS, Amebis, • za potrebe slovenistične redakcije Oxfordovega ang-slo slovarja, • financirala DZS ter Amebis -> nikoli v celoti prosto dostopna. Jota, 4. 12. 2006 11

  12. Jota, 4. 12. 2006 12

  13. Jota, 4. 12. 2006 13

  14. Jota, 4. 12. 2006 14

  15. Zgodba o Novi besedi: • na začetku je bila Beseda, • 1999: 3 mio besed, leposlovje, • 2005: 162 mio besed, dodani drugi žanri, • Inštitut za slovenski jezik Frana Ramovša ZRC SAZU, • ni lematizirana, ni uravnotežena. Jota, 4. 12. 2006 15

  16. Jota, 4. 12. 2006 16

  17. Jota, 4. 12. 2006 17

  18. Jota, 4. 12. 2006 18

  19. Jota, 4. 12. 2006 19

  20. Radi bi imeli referenčni korpus, ki je : • velik, • sodoben, • uravnotežen, • lematiziran, • prosto dostopen, • ima zmogljiv in uporabniku prijazen konkordančnik • ter navodila za uporabo le-tega. Jota, 4. 12. 2006 20

  21. O gradnji korpusa: Projekt Jezikovni viri za slovenščino. Financiranje Ministrstvo za šolstvo in šport, DZS in Amebis. Gradnja korpusa Filozofska fakulteta, Amebis, Fakulteta za družbene vede in Inštitut Jožef Stefan. April 2005–december 2006. Časovni okvir Jota, 4. 12. 2006 21

  22. Rezultati projekta (1): Obseg korpusa 700 mio besed - neuravnotežen 500 mio besed - uravnotežen Ažurnost besedila, nastala med 1995 in 2006, plus besedila iz korpusa FIDA Različni tipi pisnega jezika vsakodnevne rabe:časopisi, revije,učbeniki, leposlovje, internetna besedila, besedilni drobiž ... Jota, 4. 12. 2006 22

  23. Rezultati projekta (2): Izboljšava lematizacije: Lematizacija je pripisovanje osnovne (slovarske) oblike besednim oblikam v besedilu. • Razdvoumljanje lem(je – <biti>/<jesti>;lev - <lev>/<lev>), • večji slovar besednih oblik + ugibanje neznanih lem na osnovi končnic (blablaškega – <blablaški>). Jota, 4. 12. 2006 23

  24. Rezultati projekta (3): Konkordančnik ASP32 • nova statistična orodja za iskanje kolokatorjev(logaritem verjetnosti), • uporabniku prijaznejši vmesnik. Jota, 4. 12. 2006 24

  25. Rezultati projekta (4): Prosta dostopnost: • brezplačna registracijaprek interneta. Informacije za uporabnike: • informacije o korpusu (besedilodajalci, korpusne statistike, o projektu ...), • natisljiv priročnik o delu s korpusom, • uporabniška pomoč. Jota, 4. 12. 2006 25

  26. prava stvar Jota, 4. 12. 2006 26

  27. Hočem korpus FidaPLUS! kdaj december 2006 kje www.fidaplus.net VPRAŠANJA? spela.arhar@amebis.si Jota, 4. 12. 2006 27

More Related