1 / 24

עיבוד שפות טבעיות - שיעור שני

עיבוד שפות טבעיות - שיעור שני. אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן. ידע לינגויסטי. מורפולוגיה תחביר סמנטיקה פרגמטיקה בשיעורים הבאים נבחן את הרמות השונות. Tokenization. הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. במילים הכוונה גם למספרים וכד' הגישה הנאיבית:

Download Presentation

עיבוד שפות טבעיות - שיעור שני

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. עיבוד שפות טבעיות - שיעור שני אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן 89-680

  2. ידע לינגויסטי • מורפולוגיה • תחביר • סמנטיקה • פרגמטיקה בשיעורים הבאים נבחן את הרמות השונות... 89-680

  3. Tokenization • הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. • במילים הכוונה גם למספרים וכד' • הגישה הנאיבית: • משפט מסתיים ב-'.','?','!‘ • מילה מופרדת ב- whitespace • אך המציאות:... 89-680

  4. Tokenization Issues • מהעושיםבמקרהשלspeechinput? • East Asian Languanges 89-680

  5. 89-680

  6. 89-680

  7. Sentence breaks • '.','?','!' ולפעמים גם ':',';','-','\n' • ~ 90% of periods are sentence breaks • State of the art: 99% accuracy • english capitalization can help • The Problem: period . • can denote a decimal point (5.6), an abbreviation (Mr.), the end of a sentence, thousand segment separator: 3.200 (three-thousand-two-hundred),initials: A. B. Smith, ellipsis … 89-680

  8. Sentence breaks… • "`Whose frisbee is this?' John asked, rather self-consciously. `Oh, it's one of the boys' said the Sen.“ • The group included Dr. J. M. Freeman and T. Boone Pickens Jr. • It was due Friday by 5 p.m. Saturday would be too late. • b. She has an appointment at 5 p.m. Saturday to get her car fixed. 89-680

  9. Algorithm: from Manning & Schütze • Hypothesise SB after all occurrences of . ? ! • Move boundary after following quotation marks • Disqualify periods if: • Preceded by a known abbreviation that is not usually sentence final, but followed by a proper name: Prof. or vs. • Preceded by a known abbreviation and not followed by an uppercase word. • Disqualify a boundary with a ? or ! If: • It is followed by a lowercase letter. • Regard other hypothesized SBs as sentence boundaries. 89-680

  10. מה זה מילה? • יחידת המידע העצמאית הקטנה ביותר בשפהלמשל: ספר, שולחןאבל לא: ה(ספר), (walk)-ed • מילה? She'd • בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל:ואכלתיהו - ואני אכלתי אותו 89-680

  11. הכל מילים מילים מילים... • $22.50, 02/02/94, • :-( {} • AT&T,@gentInteractive • U.N. in. Wash. • בית-ספר, בר-אילן, חבל-על-הזמן • Lebensversicherungsgesellschaftsangestellter Life insurance company employee • +972-52-901302 (202) 905-8026 • Model # RQ9038WF2-SR, Xen Steel Diamond Empathy 7.5-in Bracelet (.02 TW) 89-680

  12. טבלאות וHTML • טבלאות זה עסק מסובך! • ב-HTML יש כבר mark-up 89-680

  13. שעורי בית 89-680

  14. מורפולוגיה • A writer is someone who writes, and a stinger is something that stings. But fingers don’t fing, grocers don’t groce and hammers don’t ham. • Vegetarians eat vegetables—I'm a humanitarian • A woman lands at Logan Airport in Boston. She gets her luggage and jumps into a cab. She tells the cabbie, "Take me to a place where I can get scrod." The cabbie turns around and says, "That's the first time I've heard it in the pluperfect subjunctive." 89-680

  15. מורפולוגיה • מילים מורכבות מהברות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" • יש מילים שהן הברות: • car, fish • מילה יכולה להיות מורכבת מכמה מורפימות: • סוסיהם - סוס + י(ם) + הם • לכן שימוש מדויק יותר הוא במונח "לקסמה"lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית. 89-680

  16. מוספיות(affixes) : תחילית, תוכית, וסופית • מילים מחולקות ל-stem ול-affixes • תחיליות - prefixes - הן המוספות בתחילת המילה • Un-believable, re-direction • סופיות - suffixes - מוספות בסוף המילהלמשל: ing :having, eating • תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית - התפעל - התרחץ, התלכלך 89-680

  17. הטיה inflection • שינוי בצורת המילה מתוך צרכים תחביריים - למשל • כשמסמנים מספר (יחיד/רבים) - number • נערה - נערות • מין gender • נער - נערה • גוף person • אני רצתי - אנחנו רצנו • בעברית מערכת ההטיות מורכבת 89-680

  18. הטיות באנגלית • באנגלית מערכת ההטיות פשוטה יחסית. כולה מורפולוגיה משורשרת - concatenative morphology • עבור שמות עצם: ריבוי ושייכות possessives . • יש חוקי כתיב spelling rules למשל שמלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. • עבור פעלים: ההטיות מגוונות יותר 89-680

  19. Regulary Inflected verbs 89-680

  20. גזירה derivation • גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה. • בעברית: השורש ט.ב.ח וצורן הגזירה מִ__ָ_ מטבח • באנגלית: sweet - adjective sweetness - noun באנגלית מעט הטיות ומערכת גזירה ענפה. 89-680

  21. ניתוח מורפולוגי של מילה • Morphological parsing • ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. • stemming הוא התהליך ש"מפשיט" מילים מורכבות לצורתן הבסיסית: foxes -> fox • ניתוח מורפולוגי יקבל כקלט מילה כ-goingויחזיר כפלט את הניתוח VERB-GO + GERUND-ing 89-680

  22. מה לא עובד • לא יעיל ולפעמים גם אי אפשר לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. • יש הרבה יוצאי דופן. למשל: • שמות עצם: goose/geese, mouse/mice • פעלים:go/went eat/ate • לא הכל פרודוקטיבי (כמו צורת הריבוי s או הסיומת ing) • ledge--mega, • דוגמאות מבלבלות: 89-680

  23. Finite-State morphological Parsing • דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם ו-verbal progressive (-ing). • המטרה: קלט: cats פלט: cat + N + SG קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: catch + V + PAST-PART 89-680

  24. בניית מנתח מורפולוגי • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680

More Related