Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczkó Tibor, Rákosi György & Tóth Ágoston Debreceni Egyetem, Angol-Amerikai Intézet {laczkot|rakosigy|tagoston}@delfin.unideb.hu

a prezentáció vázlata kutatási előzmények, nemzetközi beágyazottság az elméleti és implementációs keret fő vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezelő rendszer kifejlesztése

1.1 kutatási előzmények, nemzetközi beágyazottság elméleti keret: lexikai-funkcionális grammatika (LFG) (l. később) (alkalmazott nyelvészeti) számítógépes implementációs platform: LFG alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti környezet’) (l. később) Parallel Grammar –Párhuzamos Nyelvtan – egy nemzetköziLFG alapú nagyszabású számítógépes nyelvtanfejlesztő projekt Palo Alto Research Center, PARC (Kalifornia) Powerset (Microsoft), San Francisco (Kalifornia) bővebb információk: http://www2.parc.com/isl/groups/nltt/default.html

1.2kutatási előzmények, nemzetközi beágyazottság aktív, erőteljesnemzetköziegyüttműködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevők a magyar LFGalapú XLE-s számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el a Palo Alto Research Center-ben (PARC) Fulbright kutatói ösztöndíj (Stanford University, PARC – 2005/2006)

1.3 kutatási előzmények, nemzetközi beágyazottság 2008: Lexical-Functional Grammar Research Group (‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén állandó tagok: Laczkó Tibor (vezető kutató) Rákosi György (kutató) Tóth Ágoston (kutató) Csernyi Gábor (PhD hallgató) további (alkalmi) tagok: PhD hallgatók a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram (Hungarian Grammar ‘Magyar Grammatika’)

1.4 kutatási előzmények, nemzetközi beágyazottság a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai kapcsolat: LFG-konferenciák, rendszeres ParGram-os workshopok (évente 2) jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül folyik a fejlesztőmunka célok: egy magyar LFG nyelvtan megalkotása és „valósághű lexikon” fejlesztése az eredmények implementálása a HunGram keretében empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása  a TÁMOP-pályázat illeszkedése a programhoz

1.5 kutatási előzmények, nemzetközi beágyazottság a közeljövő ParGram-os/HunGram-os tervei 2010. október: ParGram workshop a PARC-ban, résztvevő: Laczkó Tibor 2 prezentáció egy adott (közös) szöveg magyar fordításának HunGram-os elemzése (urdu mese) a HunGram legújabb eredményei ParGram workshop Debrecenben 2011 tavaszán + egynapos tematikus nemzetközi LFG-s konferencia  angol nyelvű kötet

2.1 elméleti és implementációs keret Elméleti keret: Lexikai-Funkcionális Grammatika ● Alapítók: Joan Bresnan (Stanford) Ron Kaplan (PARC/Powerset, Inc.) ● Fő jellemzők: • erős lexikalizmus • modularizmus • párhuzamos architektúra • formalizált szabályrendszer • implementálhatóság: generálás és elemzés ● Főbb reprezentációs szintek: • c-struktúra (összetevős szerkezet, lineáris sorrend) • f-struktúra (funkcionális/grammatikai információk)

c-struktúra fonológia(nyelvspecifikus) szórend lexikon (erőteljes) f-struktúra szemantika (univerzális) grammatikai viszonyok 2.2 elméleti és implementációs keret

2.3 elméleti és implementációs keret TOKENIZÁLÓ MORFOLÓGIAI ELEMZŐ LEXIKON SZINTAXIS, SZEMANTIKA tokenizálás morfológiai elemzés lexikai kikeresés elemzés Számítógépes implementáció ● XLE (Xerox Linguistic Environment) A ParGram-projekt céljaira a PARC-ban létrehozott keret LFG-alapú számítógépes nyelvtanának kifejlesztésére. ● Moduláris felépítés

2.4 elméleti és implementációs keret

2.5 elméleti és implementációs keret Elsődleges nyelvtanírási feladatok ● Tokenizálás, morfológiai elemzés A meglévő tokenizáló és morfológiai elemző alrendszer alkalmazása, szükség szerinti fejlesztése. ● A lexikon létrehozása és folyamatos fejlesztése Lexikai tételek létrehozása a morfológián túli nyelvtanilag releváns jegyek tárolására (argumentumszerkezet, kollokációs megkötések, stb.). Manuális munka (sablonok felhasználásával). ● Nyelvtanfejlesztés A szükséges leíró jellegű, de elméletileg megalapozott szabályrendszer kidolgozása és kódolása az XLE-keretben. A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák kiküszöbölése.

2.6 elméleti és implementációs keret Nyelvtanírás ●Fő célok → Egy teljes körű, a korpusz mondataihoz (esetleges minimális manuális korrekcióval) megfelelő elemzést generálni képes nyelvtan megírása és implementációja. → Ezzel párhuzamos elméleti kutatómunka, egy LFGalapú átfogó magyar nyelvtan kéziratának előkészítése. ● A nyelvtan jelen készültségi fázisa: - főnévi csoport kezelése (különösen a birtokos szerkezet és elliptikus szerkezetek) - névutós kifejezések elemzése - egyszerű mondatok elemzése (folyamatban)

3.1 HG-1: korpusz Cél: HG-1 korpusz létrehozása • 1,5 millió szavas treebank • automatikus annotációval ellátva a készülő magyar LFG nyelvtan XLE-s implementációjának felhasználásával • egy alkorpusz kézi egyértelműsítése / annotációja morfológiai és mondattani címkékkel • szövegek forrása: • Hunglish korpusz: nem annotált magyar-angol párhuzamos korpusz; • Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem használjuk); • saját gyűjtésű „nyers” korpusz: főleg szépirodalom, technikai dokumentációk, hírek

3.2 HG-1: programozási feladatok 1) Automatikus mondatokra bontás. 2) Mondatok elemeztetése a készülő nyelvtannal feltöltött XLE elemzővel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat összes lehetséges elemzését kódolva). <s id=“a1” txt=“Csak kevés víz van a korsóban.” src=“fájlnév#pos-pos”> <e> There is only a little water in the pitcher. </e> <pl> <-- f-struktúra, c-struktúra., morfológia --> </pl > </s>

3.3 HG-1: programozási feladatok 3) Alkorpuszok kezelése: korpuszfájlok darabolása és egyesítése, indexelés, statisztikák készítése (faszélesség, -mélység, szavak és mondatok száma), az XLE-ből kapott PROLOG-kódból kinyerhető összes lehetséges elemzés c-struktúrájának elkészítése és tárolása.

3.4 HG-1: programozási feladatok 4) Kiválasztott alkorpusz kézi egyértelműsítése ill. annotációja saját fejlesztésű, grafikus felületű szerkesztőprogrammal. Funkciók: • ábrázolás (ágrajz) • ágrajz kézi szerkesztése • bármelyik automatikusan generált elemzés kiindulópontként választható • a többszavas kifejezések lexikai egységként megjelölhetők, a morfológiai címkék megváltoztathatók • az ágrajzon élek és csomópontok létrehozhatók és törölhetők • a felhasználó által helyesnek vagy rossznak ítélt elemzések megfelelő feljelölése • megjegyzések elhelyezésének lehetősége

3.5 HG-1: programozási feladatok Ekkor egy mondat így jelenik meg az XML dokumentumban: <s id=“a1”txt=“Csak kevés víz van a korsóban.”src=“fájlnév#pos-pos”> <pl> <-- XLE kimenet: csomagolt f-str, c-str, morfológia --> </pl> <e> There is only a little water in the pitcher. </e> <a id=“1” t=“a”c=“y”> <-- fa #1 --> </a> <a id=“2” t=“a” c=“u”> <-- fa #2 --> </a> <a id=“3” t=“m”> <-- fa #3 --> </a> <r>Megjegyzés</r> </s>

3.6 HG-1: programozási feladatok ... <graph root="s5_507"> <terminals> <t id="s5_1" word="csak" pos="ADV" lem="csak" morph="+Adv"/> <t id="s5_2" word="kevés" pos="NUMBER" lem="kevés" morph="+NumPron +Sg +Nom"/> <t id="s5_3" word="víz" pos="N" lem="víz" morph="+Noun +Sg +Nom"/> <t id="s5_4" word="van" pos="V" lem="van" morph="+Verb +PresInd +Indef +Sg +3P"/> <t id="s5_5" word="a" pos="D" lem="a" morph="+Art +Def"/> <t id="s5_6" word="korsóban" pos="N" lem="korsó" morph="+Noun +Sg +Ine"/> </terminals> <nonterminals> <nt id="s5_500" cat="NPdet"> <edge idref="s5_2"/> <edge idref="s5_3"/> </nt> <nt id="s5_501" cat="DP"> <edge idref="s5_500"/> </nt> <nt id="s5_502" cat="DPonly"> <edge idref="s5_1"/> <edge idref="s5_501"/> </nt> <nt id="s5_503" cat="D'"> <edge idref="s5_5"/> <edge idref="s5_6"/> </nt> <nt id="s5_504" cat="DP"> <edge idref="s5_503"/> </nt> <nt id="s5_505" cat="Vposbar"> <edge idref="s5_4"/> <edge idref="s5_504"/> </nt> <nt id="s5_506" cat="VPpos"> <edge idref="s5_502"/> <edge idref="s5_505"/> </nt> <nt id="s5_507" cat="S"> <edge idref="s5_506"/> </nt> </nonterminals> </graph> ...

3.7 HG-1: programozási feladatok 5) On-line lekérdezési felület • szóra vagy lemmára keresés reguláris kifejezésekkel • keresés szűrése morfológiai jegyekre és a keresett szót tartalmazó összetevőre (szűrés beállítása űrlap segítségével) • a találatok KWIC konkordanciaként való megjelenítése • a konkordanciából kiválasztott mondat ágrajzának megjelenítése • később bővíthető (pl. kollokációk keresése) Felhasználási lehetőségek: nyelvoktatás, nyelvtanulás, lexikográfia, elméleti nyelvészet

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

Presentation Transcript

Workshop Interactional Foundations for Language LAGB, University of Leeds, 1 September 2010 organizers: Kasia Jaszczol

ASMC PDI 2010 Nashville, TN Workshop #57 X (you are here)

WHO Workshop on Assessment of Bioequivalence Data Addis Ababa, August 2010 BE Study Assessment – Practical Issues

ANYAGCSERE CSONTBETEGSÉGEK 2003. Semmelweis Egyetem I. Belklinika

Pre-conference workshop, National AgrAbility Training 2010, October 11, 2010 Charleston, West Virginia Presented by Will

Sima Dezső Óbudai Egyetem 20 14 május

Kaseya Advanced Workshop

Application Workshop December 3, 2010

Kovács Éva Margit Nemzeti Közszolgálati Egyetem Közigazgatás-tudományi Kar kovacseva @ uni-nke.hu

MUSE International Tuesday Workshop – Session 805 June 2, 2010, 1:00P – 3:30P

Southall Initiative for Integrated Care Stakeholder Workshop

HYPERTONIA

SZÁMÍTÓGÉPES GYÁRTÁS ÉS RENDSZEREI – RAPID PROTOTYPING

Welcome to the Job Search Workshop

Data in the Classroom CSU Fresno November 1, 2010

Dr. Csaba Zsolt FÉRFI NEMI SZERVEK Semmelweis Egyetem Humánmorfológiai és Fejlődésbiológiai

District Choice State Testing (DCST) Training Workshop

Optimalizálási feladatok a termelés tervezésében és irányításában

Gyógyszeripar, Gyógyszerkutatás Új trendek 1990-2010

EDCM Development Workshop

IT Strategy Workshop Training