1 / 20

Korpus: niso ga samo besede

Korpus: niso ga samo besede. Nataša Logar Univerza v Ljubljani Fakulteta za družbene vede natasa.logar@fdv.uni-lj.si. 1 Projekt Sporazumevanje v slovenskem jeziku www.slovenscina.eu. Čas: junij 2008  december 2013 Konzorcij: Amebis, d. o. o., Kamnik

tirzah
Download Presentation

Korpus: niso ga samo besede

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpus: niso ga samo besede Nataša Logar Univerza v Ljubljani Fakulteta za družbene vede natasa.logar@fdv.uni-lj.si

  2. 1 Projekt Sporazumevanje v slovenskem jezikuwww.slovenscina.eu • Čas: junij 2008december 2013 • Konzorcij: Amebis, d. o. o., Kamnik Institut “Jožef Stefan”, Odsek za tehnologije znanja Univerza v Ljubljani, FDV ZRC SAZU, Inštitut za slovenski jezik F. R. Trojina, zavod za uporabno slovenistiko • Vodja projekta: Miro Romih • Koordinator projekta: Simon Krek

  3. Financiranje Projekt delno financirata Evropska unija iz Evropskega socialnega sklada ter Ministrstvo za šolstvo in šport Republike Slovenije. Projekt se izvaja v okviru Operativnega programa razvoja človeških virov za obdobje 2007–2013, katerega razvojne prioritete so: razvoj človeških virov in vseživljenjskega učenja; prednostne usmeritve pa: izboljšanje kakovosti in učinkovitosti sistemov izobraževanja in usposabljanja 2007–2013.

  4. Cilji 1.referenčni korpus in leksikalna baza slovenskega jezika s slovničnim analizatorjem 2. jezikovne tehnologije kot del didaktičnih pristopov v vzgojno-izobraževalnih procesih 3. pedagoška korpusna slovnica in slogovni priročnik

  5. 2 Gradnja pisnega korpusa SSJ • Merila gradnje (* specifikacija) < = Korpus je enovita, standardno označena in notranje strukturirana zbirka avtentičnih besedil, nastala po vnaprej določenih merilih in z določenim ciljem, dostopna v elektronski obliki in opremljena z orodji, ki omogočajo večplastno iskanje in statistično obdelavo podatkov.

  6. velikost  prenosnik  objavljenost  avtor  tema  okolje, ki mu je besedilo namenjeno  branost  zvrst ...

  7. Izhodišče FIDA + FidaPLUS + ... => cilj: nov pisni korpus v obsegu do 1 milijarde besed, zapisan v standardu XML TEI P5, lematiziran,v celoti oblikoskladenjsko označen, v določenem delu skladenjsko razčlenjen in s prepoznavo lastnih imen * čas gradnje: junij 2008december 2013

  8. 100-milijonski del < bolj načrtno strukturiran < očiščena besedila < tudi skladenjsko označen ostali del < bolj odprta merila zajemanja Velikost do 1 milijarde besed

  9. Tema • aktualni dogodki • gospodarstvo, politika • vzgoja, izobraževanje • narava, dom • ljudje, družina, moški, ženske • zdravje, hrana • posel, finance • prosti čas, razvedrilo, moda • šport • kultura, umetnost • religija, duhovnost • računalništvo, avtomobilizem ...

  10. Avtorstvo • razpršenost, vplivnost • podatek v glavi pri enobesedilnih dokumentih # spol, starost, število, tip, regijska pripadnost Ciljna publika • raven izobrazbe # spol, starost, (regijska pripadnost)

  11. Branost • ključni kazalnik besedilne recepcije • za knjižno in periodično gradivo relevantna branost zadnjih let (2006); za spletne strani obiskanost (novičarski portali) in ugled (podjetja, ustanove)

  12. Prenosnik * FidaPLUS:tiskani 98,4 % govorni 0,4 % elektronski 1,2 % > • tiskani • periodično • knjižno • elektronski • novičarski portali z visoko branostjo • predstavitvene spletne strani podjetij in ustanov • (govorni)

  13. Objavljenost/internost/zasebnost • vključena objavljena in interna besedila Čas izdaje/nastanka • produkcija: < novi besedilodajalci: po letu 1995 < stari besedilodajalci: po letu 2005 • recepcija (branost, obisk spletnih strani) < vključitev tudi starejših besedil z visoko branostjo

  14. Prevedenost/izvirnost • vključitev prevedenih del (knjig), različni jeziki izvirnika Lektoriranost * FidaPLUS: pripis kategorije 89 % > oznaka nelektorirano 0,6 % => opuščena kategorija

  15. Zvrst * FidaPLUS: umetnostna: 3,5 % pesniško: 2 % prozno: 94 % dramsko: 2 % neumetnostna: 96,5 % strokovna: 10 % nestrokovna: 90 % Taksonomija pisnega korpusa SSJ > ...

  16. Korpus SSJ: tisk knjižno leposlovje stvarna besedila periodično časopis revija drugo internet

  17. Taksonomija pisnega korpusa SSJ z okvirnimi deleži:

  18. < deloma subjektivne odločitve < uporabnik: podatki o korpusu => ustrezno vrednotenje in interpretacija

  19. Stabej (1998: 98): Pravzaprav ne gre toliko za samo objektivizacijo kot za ponujanje možnosti uporabniku korpusa, da glede na razpoložljive podatke o korpusu /.../ selektivno izbira in vrednoti jezikovne podatke. Z drugimi besedami, korpus je sicer zaznamovan s teoretskimi prepričanji in ustreznimi odločitvami svojih snovalcev, vendar lahko uporabniki to zaznamovanost razberejo in navsezadnje tudi presežejo.

More Related