180 likes | 343 Views
SISTEMI ZA OBRADU PRIRODNOG JEZIKA. Natural language processing systems. Obrada prirodn og jezika - OPJ (Natural Language Processing - NLP ). jedna od oblasti ra č unarske lingvistike (Computational Linguistics) koja se bavi analizom govornog ili pisanog jezika
E N D
SISTEMI ZA OBRADU PRIRODNOG JEZIKA Natural language processing systems
Obrada prirodnog jezika - OPJ (Natural Language Processing - NLP) jedna od oblasti računarske lingvistike (Computational Linguistics) koja se bavi analizom govornog ili pisanog jezika deli se u faze: leksička analiza, morfo-sintaksna analiza i semantička analiza računarska analiza prirodnog, ljudskog jezika opterećena je mnogim problemima izazvani kompleksnošču samog jezika (višeznačnost, sinonimija...) ide se ka tome da se razviju takvi sistemi za OPJ koji omogućuju strukturisanje velikih celina tekstualnih informacija sa pogledom na pronalaženje određene informacije tehnike OPJ primenjuju se u mnogim oblastima istraživanja kao što su: mašinski prevodi, obrađivanje i sumiranje teksta prirodnog jezika, korisničkasučelja, pronalaženje informacija preko više jezika, prepoznavanje govora, veštačka inteligencija i ekspertski sistemi itd.
Konferencije posvećene istraživanjima OPJ • ACL – Association of Computational Linguistics • EACL – European Association of Computational Linguistics • COLING – International Conference on Computational Linguistics • MUCs – Message Understanding Conferences • TRECs – Text Retrieval Conferences • ACM-SIGIR (Association of Computing Machinery – Special Interest Group on Information Retrieval) conferences
Literatura o sistemima OPJ • ARIST - Annual review of information science and technology • Computational linguistics • Natural language engineering • Information processing and management • Journal of the American Society for information Science and technology • Journal of documentation • International journal of medical informatics • Journal of chemical information and computer science
Automatska apstrakcija i sumiranje teksta FRUMP(Fast Reading Understanding and Memory Program) program brzog pregledanja novina razvijen u Jejlovom projektu veštačke inteligencije radi na relativno slobodnom domenu novinskih članaka i rutinski razume priče koje nikada nije ranje video koristi strukturu podataka koja se zove „nacrt skripta“ da bi organizovao svoje znanje o svetu - opisuje odgovarajuće sekvence događaja u određenom kontekstu semantička analiza teksta nije samostalna zato što je semantički oblik koncepta sa kojim će se susresti u velikoj meri predvidljiv semantička šema obezbeđuje već gotove okvire za predstavljanje objekata, ideja, događaja ili aktivnosti koje su tipične za određenu oblast (izveštaji o avionskim nesrećama, ratovi, uspostavljanje diplomatskih veza…)
Automatska apstrakcija i sumiranje teksta Konceptualni analizatori • Anatole V. Gershmanopisuje radni okvir za procesore prirodnog jezika koji uzimaju tekstove na prirodnom jeziku kao ulaz i daju pregled konceptualne zavisnosti njihovog značenja na određenom nivou detalja • analizator prolazi kroz rečenicu s leva na desno pokušavajući da pronađe konceptualizaciju koja formira okosnicu, stub prikazivanja značenja za tu rečenicu; jednom kada se nađe konceptualni okvir rečenice, analizator koristi predviđanja koja dolaze sa okvirom da bi analizirao ostatak rečenice odozgo na dole • konceptualna analiza je zasnovana na rečniku koji za svaku reč sadrži informaciju o tome šta ta reč znači i kako se koristi Generator izveštaja berze • još jedan primer automatskog generisanja teksta koji uzima jednostavne činjenice sa berzanskog displeja kao ulaz i proizvodi izveštaje prirodnog jezika
Automatska apstrakcija i sumiranje teksta RUBRIC (RUle-Based Retrieval of Information by Computer) • sistempronalaženjapotpunogtekstazasnovanognapravilukoje se običnoprikazuje u formi „ako USLOV onda POSLEDICA“ • znanje o zahtevimapronalaženja je šifrovanokaoskuppravilasavrednostimaočekivanegreške - u datomzahtevupronalaženja, tekstdokumenta je činjenicazakojusistemmožedaodredirelevantnost tog dokumenta • sastoji se oddvamodula: modulpreprocesoraimodulsistema • modulpreprocesorauzimatekstslobodnogformataizkolekcijedokumenataigradibazupodataka, štoprvenstvenopredstavljainvertovanustrukturustabalarečikoje se pojavljuju u kolekcijidokumenata - svakarečimajedanulaz u strukturui prate je kontekstualneinformacijekaoštosu u komdokumentuinakommestu se pojavljuje • modulsistemapodrazumeva korisničkosučelje, alateipodsistemepronalaženja
Automatska apstrakcija i sumiranje teksta SCISOR ( System for Conceptual Information Summarization) • je sistem pronalaženja informacija koji čita vesti iz mrežnog izvora vesti, izvlači informacije iz tekstva i odgovara na pitanja o tome šta je pročitao • da bi se prevazišla jedna značajna mana sistema OPJ, tj. nemogućnost leksikona da pokrije sve reči i fraze u tekstu, usvojene su dve metode: primena strategije obrade teksta koja je tolerantna na nepoznate reči i praznine, i automatsko usvajanje leksičke informacije iz teksta • sistem kombinuje potpuni parserTRUMP (Transportable Understanding Mechanism Package) odozdo na gore koji kombinuje reči u fraze i rečenice, proverava specifična ograničenja i određuje jezičke odnose, i delimični parserkoji brzo pregledava od vrha na dole, prelazi preko nepoznatih reči ili konstrukcija i ignoriše neke kompleksnosti jezika • od ukupnog broja od 729 vesti u jednom danu SCISOR je postigao preko 90% prosečnog razumevanja i preciznosti u svom određivanju o čemu se radilo u tim pričama
Ekstrakcija informacija deo je šire oblasti - otkrivanjeznanjaiiskopavanje(mining) informacija podrazumeva izvlačenje ili ekstrakciju korisnih delova tekstualnih informacija iz tekstova na prirodnom jeziku primenom raznih tehnika, izvučene informacije se mogu koristiti u brojne svrhe: npr. da se pripreme sažeci tekstova, da se popune baze podataka, da se dopune prazna mesta u okvirima, identifikuju ključne reči i fraze za pronalaženje informacija itd. neki od sistema koji koriste tehnike izvlačenja informacija su: Construe, razvijen za Reuters, koji klasifikuje nove vesti; softver Construe je potom generalizovan u komercijalni proizvod nazvan TCS (Text Categorization Shell) PROMETHEE, sistem koji izvlači leksičko sintaksičke obrasce koji se odnose na specifične konceptualne odnose iz tehničkih korpusa MITA (Metlife’s Intelligent Text Analyzer), koji izvlači informacije iz aplikacija životnog osiguranja
Analiza podjezika neki sistemi obrade prirodnog jezika su napravljeni da bi obrađivali tekstove korišćenjem određenih malih podjezika da bi se smanjila veličina operacija i priroda kompleksnosti može da se odnosi na oblast određene teme ili na specifične tipove dokumenata kao što su patent tekstovi SINTESSI (Integrated System for Italian Text) prototip sistema za interpretaciju italijanskih tekstova o istraživanjima automobila, koje je objavio Fijatov istraživački centar u Torinu TICA sistem koji izdvaja informacije iz apstrakata u oblasti neorganske titrimetičke analize RESEARCHER analizira patentne apstrakte i kreira hijerarhijsku prezentaciju znanja o informacijama sadržanih u patentima LEXITRAN projekat koji je pokušao da primeni tehnike obrade prirodnog jezika da izgradi tehnološke leksikone za dokumente patenata indeksiranja koji su klasifikovani u Međunarodnom patent klasifikacionom sistemu (IPC - International Patent Classification)
Korisnička sučelja prirodnog jezika ponekad se termini „front-end“ ili „gateway“ koriste sinonimno sa terminom „interface“ glavni cilj sučelja prirodnog jezika je razumevanje korisnika i njegovog problema sa jedne strane, i razumevanje dokumenata i opisa dokumenata koji su bitni za funkcionisanje sistema sa druge strane prihvata upite ili komande na prirodnom jeziku, prevodi izjave prirodnog jezika u odgovarajuće akcije za sistem i šalje podatke u sistem (obično sistem pronalaženja), što onda rezultuje odgovarajućim odgovorima na komande ili upite olakšavaju zadatak komuniciranja sa izvorom informacija, omogućavajući sistemu da odgovori na širok spektar „ulaza“(ulazni podaci) da bi proizveo što prilagođeniji „izlaz“(izlazni podaci) inteligentno sučelje je ono koje koristi neku vrstu baze znanja i prilagodljivo je novim ili jedinstvenim situacijama
Korisnička sučelja prirodnog jezika CANSEARCH • zasnovan na setovima pravila koji izvode odgovarajuće funkcije u skladu sa odabirima korisnika i internim porukama • ova pravila predstavljaju poznavanje oblika upita za pronalaženje referenci koje se odnose na terapiju raka iz baze podataka MEDLINE (Medical Literature Analysis and Retrieval System Online) • svaki korisnik može direktno da izabere termin dodirom ekrana terminala, prstom ili olovkom - sistem je zasnovan na pretpostavci da korisnici ne mogu tačno da znaju koje termine pretrage treba da koriste ali će ih prepoznati kada ih vide na ekranu • terminologija domena ovog predmeta je kodirana u MeSH (Medical Subject Headings), hijerarhijskom rečniku sinonima (tezaurus) koji se koristi za indeksiranje dokumenata u bazi MEDLINE
Korisnička sučelja prirodnog jezika PLEXUS • projekat dizajniran kao prototip alatke koja bi se koristila u javnim i akademskim bibliotekama, gde mu je namena da pomaže referensnom bibliotekaru da odgovara na pitanja korisnika • korisnički zahtevi se analiziraju po rečima: beznačajne reči se zamenjuju odgovarajućim prema listi “stopword”, a preostalim rečima se uklanjaju sufiksi korišćenjem glasovnog algoritma • sistem pokušava da izvuče značenje upita tako što mu pridružuje okvir ili kontekst - jednom kada se kontekst dodeli tom upitu, model upita je izgrađen i sastoji se od jednog ili više međusobno povezanih okvira, pri čemu svaki okvir predstavlja značajan termin u upitu i ima određen oblik i strukturu specifičnu za klasu određenog koncepta • termini su organizovani prema BSO (Broad System of Ordering)
Korisnička sučelja prirodnog jezika PLEXUS • kriterijumi dizajna za korisničko sučelje bili su sledeći: • korisnik treba da bude u mogućnosti da rukuje sistemom sam, bez pomoći ljudskog ili priručnog savetnika • unos podataka treba da bude kroz izjave prirodnog jezika i da ga vodi meni • sistem ne sme da se sruši ili da prikaže korisniku neuspelu poruku nakon prve poruke • sistem treba da bude sposoban da prihvati izjave od strane korisnika u bilo kom obliku – jednu jedinu reč, listu reči, fraze ili gramatičke rečenice • sučelje mora da bude sposobno da se bavi inteligentno terminima koje ne može da prepozna
Korisnička sučelja prirodnog jezika • određeni broj sistema “odgovaranje na pitanja” (question-answering systems) se razvija u poslednje vreme da bi se obebzbedili odgovori na pitanja prirodnog jezika direktno, a ne kroz informacije koje se odnose na to pitanje, a koje sadrži neki dokument • takvi sistemi često koriste razne operacije veštačke inteligencije i pronalaženja informacija korišćenjem alatki i tehnika OPJ da bi se dobio tačan odgovor iz izvornih tekstova - ako ne bi bio nađen odgovarajući tip odgovora onda bi bio pronađen pasus koji najbolje odgovara • ovaj pristup dobro funkcioniše sve dok tipovi upita koje prepoznaje sistem imaju široku pokrivenost i dok sistem može da klasifikuje pitanja dovoljno precizno • mane većine sučelja prirodnog jezika i sistema baza podataka su prvenstveno zbog njihove slabe interpretativne moći, što je prouzrokovano njihovom nemogućnošću da se bave nijansama u ljudskoj upotrebi prirodnog jezika
Internet, mrežai digitalne biblioteke – primene OPJ razvoj interneta i mreže doneo je značajno poboljšanje u načinu na koji kreiramo, tražimo i koristimo informacije – brz pristup velikom broju podataka sa druge strane, inovacije sa sobom nose određene poteškoće koje se tiču obrade i pronalaženja informacija prema jednom istraživanju iz 2001. došlo se do podatka da 55% internet korisnika nije sa engleskog govornog područja i da se ta cifra ubrzano povećava; uprkos tome oko 80% internet i digitalnobibliotečkih resursa su danas dostupni na engleskom jeziku potreba da se uspostavi višejezični informacioni sistem i CLIR(Cross-Language Information Retrieval) veštine
Internet, mreža i digitalne biblioteke – primene OPJ • postoje dve sfere interesovanja u ovoj oblasti: • prepoznavanje, manipulacija i prikazivanje informacija na više jezika – odnosi se na uvođenje tehnologije koja će omogućiti korisnicima da dođu do informacije na bilo kom jeziku da je ona sačuvana • pretraga i pronalaženje informacija preko više jezika - odnosi se na dozvoljavanje korisnicima da definišu informaciju koju žele na jeziku koji žele, dok se informacija traži na bilo kom jeziku na kome je sačuvana • kako manipulisati velikom količinom višejezičnih podataka? • na nivou korisničkih sučelja, mora da postoji sistem prevoda upita sa korisnikovog maternjeg jezika na jezik sistema; predloženi su razni pristupi za prevod upita: • pristup zasnovan na rečniku - koristi dvojezični rečnik da prebaci termine sa izvornog jezika na ciljani jezik • pristup zasnovan na korpusu - koristi paralelne korpuse za odabir reči, gde problem leži u domenu i opsegu korpusa
Internet, mreža i digitalne biblioteke – primene OPJ • veliki je izazov omogućiti korisnicima koji traže informacije iz digitalne biblioteke da pretraže velike kolekcije samo jednom koristeći jedan jezik • višejezični tezaurusi kao što je EuroVoc pomažu da se odgovori ovom izazovu olakšavanjem kontrolisanog pretraživanja vokabulara korišćenjem termina iz više jezika, i službe kao što je Inspec, koja obezbeđuje engleske abstrakte za dokumenta na drugim jezicima • potpuni automatski višejezični tezaurusi trenutno nisu ni dovoljno brzi ni dovoljno precizni da podrže interaktivno traženje informacija preko više jezika u digitalnim bibliotekama i na mreži • na sreću aktivno i ubrzano rastuća zajednica istraživača se ujedinila oko ovih i drugih sličnih problema da bi obezbedili pristup velikim višejezičnim kolekcijama