1 / 15

Napredne metode u pronalaženju informacija

Napredne metode u pronalaženju informacija. Cvetana Krstev čas 1. Šta je NLP – Natural Language Processing ?.

amena-ayala
Download Presentation

Napredne metode u pronalaženju informacija

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Napredne metode u pronalaženju informacija Cvetana Krstev čas 1

  2. Šta je NLP – Natural Language Processing? • Termin NLP - Natural Language Processing, odnosno obrada prirodnih jezika se obično koristi da označi funkcije hardverskih ili softverskih komponenata u računarskom sistemu koje analiziraju ili sintetizuju govorni ili pisani jezik. • Atribut ‘prirodni’ treba da ukaže da se radi o jeziku kojim ljudi komuniciraju u uobičajenom smislu, a ne o formalnim jezicima, kakvisu jezici matematičkih izraza ili kakvi su programski jezici.

  3. Šta je NLU – Natural Language Understanding? • Predmet oblasti NLU - Natural Language Understanding, odnosno razumevanje prirodnih jezika je ambiciozniji jer se od sistema koji podržavaju NLU očekuje da ‘razumeju’ prirodni jezik na sličan način kao ljudi. • Za polje IR – Information Retrieval, odnosno Pronalaženje informacija – funkcije NLU nisu od tolikog interesa kao funkcije NLP.

  4. Problemi realizacije sistema sa NLP funkcijama • Očigledno je da se računari mogu programirati da ‘razumeju’, npr. Java kod, u smislu da se može napisati interpreter koji će omogućiti da se program ispravno izvršava u prozoru veb prelistača. • Takođe se mogu napisati računarski programi koji rešavaju mnoge matematičke probleme i logičke zagonetke, koji dokazuju teoreme. • Ali računarska analiza ljudskog govora i pisanog teksta je opterećena mnogim problemima, koji su, šta više veoma zanimljivi za rešavanje.

  5. Jedan od problema u NLP – višeznačnost (ambiguity) • Lingvistička višeznačnost je često izvor zabave jer je opštepoznato da se mnoge sasvim obične reči (pa i rečenice) mogu interpretirati na više načina, što ljudima često prolazi neopaženo. • npr. reč bank u engleskom može da znači: banka, obala, klupa, ulog pri klađenju itd. • npr. reč šarka u srpskom može da znači: držač vrata, vrsta zmije • Ljude ovakve pojave retko zbunjuju jer uvek postoji kontekst u kome se reč pojavljuje koji razjašnjava značenje, kao i opšte znanje o svetu. • npr. čitalac engleskih novina će iz “the West Bank of Jordan” lako zaključiti da se radi o zapadnoj obali reke Jordan, a ne o banci. • npr. čitalac srpskih oglasa će iz “šarke za vrata i prozor” odmah zaključiti da se ne radi o zmiji.

  6. Neki smešni primeri na engleskom • Visiting aunts can be a nuisance • da li je dosadno posećivati tetke, ili su dosadne tetke koje dolaze u posetu? • John saw the man in the park with the telescope • da li je Džon video čoveka u parku pomoću teleskopa ili je čovek koga je Džon video imao teleskop? (čemu se pridružuju predloške fraze?)

  7. Razmljivo čoveku – problem za računar • She boarded the airplane with two suitcases. • She boarded the airplane with two engines. • čoveku je jasno da se predloška fraza u prvom slučaju odnosi na ‘Ona’, a u drugom slučaju na ‘avion’. Ali kako računar može to da zna? • Stigla odeća za bebe iz uvoza • čoveku je jasno da se predloška fraza ‘iz uvoza’ odnosi na ‘odeću’, a ne na ‘bebe’. Ali kako računar može to da zna? • To što čovek koji govori engleski i srpski može sasvim lako da razume ovakve rečenice se uopšte ne smatra dokazom neke njegove izvanredne inteligencije, ali to je za računar ipak veliki problem.

  8. Zašto je ovo zanimljivo? • Ovakvi problemi su svakako izazov za naučnike i istraživače, ali bi bili komercijalno nezanimljivi kada potražnja za informacijama ne bi predstavljala tržište sa najvećim rastom na planeti. • Više nije u pitanju manjak informacija (kao u ne tako davnoj prošlosti), već je problem u preopterećenosti informacijama i manjku alata za njihovo organizovanje, skladištenje i pronalaženje. • Većina informacija se i dalje izražava prirodnim jezikom, iako su na raspolaganju i slike, grafikoni, zvučni zapisi, tabele, filmske sekvence, matematičke jednačine.

  9. Odnos NLP i lingvistike • Sintaksa i semantika • U svojoj začetnoj knjizi iz 1957. godine Syntactic Structures, američki lingvista Noam Čomski je uočio razliku između rečenica koje su sintaksički neisparvne, kao • Furiously sleep ideas green colorless. • i rečenica koje su dobro formirane, ali su semantički neispravne, kao • Colorless green ideas sleep furiously. • Šta više, kasnije se mnogo govorilo o tome koliko je, i da li je, ova druga rečenica semantički neispravna, dok se neispravnost prve rečenice ne dovodi u pitanje.

  10. Sintaksa prema semantici • Ovakvo razdvajanje sintakse od semantike uticalo je na NLP tako da se uvrežilo verovanje da se sintaksička struktura rečenice može prvo analizirati – ne ulazeći u značenje – a tek zatim da se izvrši semantička analiza. • Primer sa avionom sa slajda 7 pokazuje da je ovakvo polazište dosta nategnuto, ali alternativna rešenja se teško formulišu i neefikasna su za primenu. • U formalnim jezicima, kakvi su prirodni jezici, odvajanje forme od značenja je uobičajeno; na primer, značenje programskog iskaza se može u potpunosti odrediti na osnovu njegove forme, što znači da za određivanje značenja izvanlingvistički i kontekstualni faktori nisu od značaja. • To nije slučaj sa prirodnim jezicima – da nije tako ne bi postojala poezija, metafora, igre reči, itd (kao najmanje).

  11. Pragmatika i kontekst • Pragmatika se obično definiše kao skup pravila koja rukovode time kako se jezik koristi. Na primer, • You owe me five dollars bi se pre moglo shvatiti kao zahtev da se dug vrati nego kao tvrđenje koje utvrđuje neke činjenice. • S druge strane, ako mašini za pretragu postavimo upit rečima • natural language processing šta mi zapravo tražimo: definiciju, reference na literaturu, stručnjake iz oblasti NLP, kurseve o NLP? “Inteligentna” mašina za pretragu bi možda to mogla da zaključi na osnovu prethodnih upita. Na primer, svaki od navedenih prethodnih upita bi mogao da uputi u drugom smeru: • what is NLP • AI textbook • Rochester University

  12. Kontekst i (prethodno) znanje o svetu • Upotreba i kontekst su isprepletani. Ponekad kontekst drastično menja nameru koja stoji iza nekog iskaza ili menja njegovo značenje. • Šta je potrebno znati o srpskom jeziku da bi se razmelo: • Bolje plata u ruci nego otpremnina na grani • (naslov iz Danasa, 1. IV 2009) • Od racionalizacije Gradske uprave po programu koji je sačinilo Ministarstvo za državnu upravu i lokalnu samoupravu neće biti ništa, pošto se za napuštanje posla uz otpremninu od oko 800.000 dinara prijavilo samo šestoro radnika uprave, ... • Onaj kome nije poznata poslovica teško da će tazumeti o čemu se radi.

  13. Dva pogleda na NLP • Mogu se razlikovati dva opšta pristupa rešavanju problema na koje se nailazi u NLP aplikacijama: • Jedan pristup se zasniva na vrsti lingvističke analize o kojoj je bilo govora. Taj pristup se nekad naziva simbolički jer se sastoji uglavnom od pravila za manipulaciju simbolima, tj. od gramatičkih pravila koja govore koji iskazi su dobro formirani, a koji ne. • Drugi pristup, koji je dobio zamah od 1990. godine, zasniva se na statističkoj obradi jezika, i ponekad se naziva i empirijskijer podrazumeva izvođenje jezičkih podataka iz relativno velikih jezičkih korpusa, kakvi su novinske vesti i veb stranice.

  14. Metodološko razlikovanje dva pristupa obradi prirodnih jezika • Obrada prirodnih jezika zasnovana na simboličkom pristupu koristi pristuo odozgo nadole (top-down) jer se poznati gramatički obrasci i veze između značenja primenjuju na tekst. • Empirijska obrada prirodnih jezika radi odozdo nagore (bottom-up) tražeći u samom tekstu obrasce i veze koji bi se mogli modelirati, pri čemu dobijeni rezultat ne mora obavezno da odgovara čistoj sintaksičkoj ili semantičkoj vezi.

  15. Razlikovanje dva problema po načinu rešavanja problema složenosti • Ova dva pristupa na različite načine rešavaju problem složenosti, odnosno neizvesnosti, kakav se pojavljuje, npr. kod višeznačnosti. • simbolički pristup rešava problem neizvesnosti uvođenjem novih pravila, ili kontekstualnih faktora, koja se na neki način moraju formalizovati. To je metodologija zasnovana na znanju(knowledge-based methodology) koja se zasniva na jezičkim stručnjacima koji treba da indentifikuju i opišu neke pravilnosti koje se javljaju u okviru nekog domena. • empirijski pristup, koji je kvantitativan, pripisuje verovatnoće alternativnim analizama teksta, i odlučuje se između njih koristeći statističke metode. • U praksi, retko se primenjuje samo jedan ili drugi pristup – postoje mnogi uspešni alati koji spajaju oba pristupa.

More Related