210 likes | 325 Views
Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10. A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczk ó Tibor, Rákosi György & Tóth Ágoston
E N D
Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.
A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczkó Tibor, Rákosi György & Tóth Ágoston Debreceni Egyetem, Angol-Amerikai Intézet {laczkot|rakosigy|tagoston}@delfin.unideb.hu
a prezentáció vázlata kutatási előzmények, nemzetközi beágyazottság az elméleti és implementációs keret fő vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezelő rendszer kifejlesztése
1.1 kutatási előzmények, nemzetközi beágyazottság elméleti keret: lexikai-funkcionális grammatika (LFG) (l. később) (alkalmazott nyelvészeti) számítógépes implementációs platform: LFG alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti környezet’) (l. később) Parallel Grammar –Párhuzamos Nyelvtan – egy nemzetköziLFG alapú nagyszabású számítógépes nyelvtanfejlesztő projekt Palo Alto Research Center, PARC (Kalifornia) Powerset (Microsoft), San Francisco (Kalifornia) bővebb információk: http://www2.parc.com/isl/groups/nltt/default.html
1.2kutatási előzmények, nemzetközi beágyazottság aktív, erőteljesnemzetköziegyüttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők a magyar LFGalapú XLE-s számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el a Palo Alto Research Center-ben (PARC) Fulbright kutatói ösztöndíj (Stanford University, PARC – 2005/2006)
1.3 kutatási előzmények, nemzetközi beágyazottság 2008: Lexical-Functional Grammar Research Group (‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén állandó tagok: Laczkó Tibor (vezető kutató) Rákosi György (kutató) Tóth Ágoston (kutató) Csernyi Gábor (PhD hallgató) további (alkalmi) tagok: PhD hallgatók a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram (Hungarian Grammar ‘Magyar Grammatika’)
1.4 kutatási előzmények, nemzetközi beágyazottság a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai kapcsolat: LFG-konferenciák, rendszeres ParGram-os workshopok (évente 2) jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül folyik a fejlesztőmunka célok: egy magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése az eredmények implementálása a HunGram keretében empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása a TÁMOP-pályázat illeszkedése a programhoz
1.5 kutatási előzmények, nemzetközi beágyazottság a közeljövő ParGram-os/HunGram-os tervei 2010. október: ParGram workshop a PARC-ban, résztvevő: Laczkó Tibor 2 prezentáció egy adott (közös) szöveg magyar fordításának HunGram-os elemzése (urdu mese) a HunGram legújabb eredményei ParGram workshop Debrecenben 2011 tavaszán + egynapos tematikus nemzetközi LFG-s konferencia angol nyelvű kötet
2.1 elméleti és implementációs keret Elméleti keret: Lexikai-Funkcionális Grammatika ● Alapítók: Joan Bresnan (Stanford) Ron Kaplan (PARC/Powerset, Inc.) ● Fő jellemzők: • erős lexikalizmus • modularizmus • párhuzamos architektúra • formalizált szabályrendszer • implementálhatóság: generálás és elemzés ● Főbb reprezentációs szintek: • c-struktúra (összetevős szerkezet, lineáris sorrend) • f-struktúra (funkcionális/grammatikai információk)
c-struktúra fonológia(nyelvspecifikus) szórend lexikon (erőteljes) f-struktúra szemantika (univerzális) grammatikai viszonyok 2.2 elméleti és implementációs keret
2.3 elméleti és implementációs keret TOKENIZÁLÓ MORFOLÓGIAI ELEMZŐ LEXIKON SZINTAXIS, SZEMANTIKA tokenizálás morfológiai elemzés lexikai kikeresés elemzés Számítógépes implementáció ● XLE (Xerox Linguistic Environment) A ParGram-projekt céljaira a PARC-ban létrehozott keret LFG-alapú számítógépes nyelvtanának kifejlesztésére. ● Moduláris felépítés
2.5 elméleti és implementációs keret Elsődleges nyelvtanírási feladatok ● Tokenizálás, morfológiai elemzés A meglévő tokenizáló és morfológiai elemző alrendszer alkalmazása, szükség szerinti fejlesztése. ● A lexikon létrehozása és folyamatos fejlesztése Lexikai tételek létrehozása a morfológián túli nyelvtanilag releváns jegyek tárolására (argumentumszerkezet, kollokációs megkötések, stb.). Manuális munka (sablonok felhasználásával). ● Nyelvtanfejlesztés A szükséges leíró jellegű, de elméletileg megalapozott szabályrendszer kidolgozása és kódolása az XLE-keretben. A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák kiküszöbölése.
2.6 elméleti és implementációs keret Nyelvtanírás ●Fő célok → Egy teljes körű, a korpusz mondataihoz (esetleges minimális manuális korrekcióval) megfelelő elemzést generálni képes nyelvtan megírása és implementációja. → Ezzel párhuzamos elméleti kutatómunka, egy LFGalapú átfogó magyar nyelvtan kéziratának előkészítése. ● A nyelvtan jelen készültségi fázisa: - főnévi csoport kezelése (különösen a birtokos szerkezet és elliptikus szerkezetek) - névutós kifejezések elemzése - egyszerű mondatok elemzése (folyamatban)
3.1 HG-1: korpusz Cél: HG-1 korpusz létrehozása • 1,5 millió szavas treebank • automatikus annotációval ellátva a készülő magyar LFG nyelvtan XLE-s implementációjának felhasználásával • egy alkorpusz kézi egyértelműsítése / annotációja morfológiai és mondattani címkékkel • szövegek forrása: • Hunglish korpusz: nem annotált magyar-angol párhuzamos korpusz; • Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem használjuk); • saját gyűjtésű „nyers” korpusz: főleg szépirodalom, technikai dokumentációk, hírek
3.2 HG-1: programozási feladatok 1) Automatikus mondatokra bontás. 2) Mondatok elemeztetése a készülő nyelvtannal feltöltött XLE elemzővel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat összes lehetséges elemzését kódolva). <s id=“a1” txt=“Csak kevés víz van a korsóban.” src=“fájlnév#pos-pos”> <e> There is only a little water in the pitcher. </e> <pl> <-- f-struktúra, c-struktúra., morfológia --> </pl > </s>
3.3 HG-1: programozási feladatok 3) Alkorpuszok kezelése: korpuszfájlok darabolása és egyesítése, indexelés, statisztikák készítése (faszélesség, -mélység, szavak és mondatok száma), az XLE-ből kapott PROLOG-kódból kinyerhető összes lehetséges elemzés c-struktúrájának elkészítése és tárolása.
3.4 HG-1: programozási feladatok 4) Kiválasztott alkorpusz kézi egyértelműsítése ill. annotációja saját fejlesztésű, grafikus felületű szerkesztőprogrammal. Funkciók: • ábrázolás (ágrajz) • ágrajz kézi szerkesztése • bármelyik automatikusan generált elemzés kiindulópontként választható • a többszavas kifejezések lexikai egységként megjelölhetők, a morfológiai címkék megváltoztathatók • az ágrajzon élek és csomópontok létrehozhatók és törölhetők • a felhasználó által helyesnek vagy rossznak ítélt elemzések megfelelő feljelölése • megjegyzések elhelyezésének lehetősége
3.5 HG-1: programozási feladatok Ekkor egy mondat így jelenik meg az XML dokumentumban: <s id=“a1”txt=“Csak kevés víz van a korsóban.”src=“fájlnév#pos-pos”> <pl> <-- XLE kimenet: csomagolt f-str, c-str, morfológia --> </pl> <e> There is only a little water in the pitcher. </e> <a id=“1” t=“a”c=“y”> <-- fa #1 --> </a> <a id=“2” t=“a” c=“u”> <-- fa #2 --> </a> <a id=“3” t=“m”> <-- fa #3 --> </a> <r>Megjegyzés</r> </s>
3.6 HG-1: programozási feladatok ... <graph root="s5_507"> <terminals> <t id="s5_1" word="csak" pos="ADV" lem="csak" morph="+Adv"/> <t id="s5_2" word="kevés" pos="NUMBER" lem="kevés" morph="+NumPron +Sg +Nom"/> <t id="s5_3" word="víz" pos="N" lem="víz" morph="+Noun +Sg +Nom"/> <t id="s5_4" word="van" pos="V" lem="van" morph="+Verb +PresInd +Indef +Sg +3P"/> <t id="s5_5" word="a" pos="D" lem="a" morph="+Art +Def"/> <t id="s5_6" word="korsóban" pos="N" lem="korsó" morph="+Noun +Sg +Ine"/> </terminals> <nonterminals> <nt id="s5_500" cat="NPdet"> <edge idref="s5_2"/> <edge idref="s5_3"/> </nt> <nt id="s5_501" cat="DP"> <edge idref="s5_500"/> </nt> <nt id="s5_502" cat="DPonly"> <edge idref="s5_1"/> <edge idref="s5_501"/> </nt> <nt id="s5_503" cat="D'"> <edge idref="s5_5"/> <edge idref="s5_6"/> </nt> <nt id="s5_504" cat="DP"> <edge idref="s5_503"/> </nt> <nt id="s5_505" cat="Vposbar"> <edge idref="s5_4"/> <edge idref="s5_504"/> </nt> <nt id="s5_506" cat="VPpos"> <edge idref="s5_502"/> <edge idref="s5_505"/> </nt> <nt id="s5_507" cat="S"> <edge idref="s5_506"/> </nt> </nonterminals> </graph> ...
3.7 HG-1: programozási feladatok 5) On-line lekérdezési felület • szóra vagy lemmára keresés reguláris kifejezésekkel • keresés szűrése morfológiai jegyekre és a keresett szót tartalmazó összetevőre (szűrés beállítása űrlap segítségével) • a találatok KWIC konkordanciaként való megjelenítése • a konkordanciából kiválasztott mondat ágrajzának megjelenítése • később bővíthető (pl. kollokációk keresése) Felhasználási lehetőségek: nyelvoktatás, nyelvtanulás, lexikográfia, elméleti nyelvészet