1 / 22

Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне

Download Presentation

Компьютерный анализ естественно - языкового текста

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

  2. Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Введение в дисциплину • Автоматический анализ текста на морфологическом уровне • Автоматический анализ текста на синтаксическом уровне • Семантический компонент в системах автоматического анализа текста

  3. Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на морфологическом уровне • Морфологическийуровень в ЛИТ • Основные понятия морфологии в компьютерной морфологии • Основные процедуры компьютерной морфологии • Компьютерная морфология русского языка • Технологии морфологического анализа • «Предсказание» (типизация) • Вопросы, смежные с синтаксисом

  4. ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА • Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг. • Освоение новых функций – конец 60-х – конец 80-х гг. • Освоение словаря Зализняка – конец 80-х - конец 90-х гг. • Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.

  5. ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА 1954 г. • Джорджтаунский эксперимент (январь) • Начало разработок систем МП в СССР: • с английского (Институте точной механики и вычислительной техники) • и французского (в Институте прикладной математики) языков Конец 50-х гг.: • Разработки систем МП с русского языка в США: • в Вашингтонском университете (1956-1957 г.) – со словарем словоформ • в Гарвардском университете (1959-1961) – с модулем морфологического анализа «справа налево» (inverse inflection) • Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод Начало 60-х гг.: • Университет Уэйна (США) – перевод со словарем словоформ • Национальное бюро стандартов, Джорджтаунский университет (США) - с модулем морфологического анализа. • Перевод с русского в Гренобльском университете (Франция)

  6. МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ • Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977) • Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос» • Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях 1984-89 гг.)

  7. ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ

  8. СЛОВАРЬ ЗАЛИЗНЯКА 1974 • «Обратный словарь русского языка» 1977 • «Грамматический словарь русского языка» 1980 • 2-е изд. ГСРЯ 1987 • 3-е изд. ГСРЯ 2003 • 4-е изд. ГСРЯ (добавлены имена собственные) Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)

  9. ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ • Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993) • Объявление в журнале “Language” о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992) • Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с 1998 - starling.rinet.ru)

  10. ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА

  11. ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА • полнота словника • детальность словоизменительной характеристики

  12. ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING

  13. СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

  14. СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ

  15. ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ • Могут быть слишком дробными (для обработки письменного текста) дол м 1е//1а порт м 1е имеют одинаковый набор окончаний клён м 1а • Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии) восстановление начальной формы: бугор м 1*b бугра: (- ра), (+ ор) котёл м 1*b котла: (- ла), (+ ёл) псалом м 1*b псалма: (- ма), (+ ом) сон м 1*b сна: (- на), (+ он) хребет м 1*b хребта: (- та), (+ ет)

  16. НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА • сложная структура словоизменительной характеристики • формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее) • неполнота словника

  17. РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА • Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ» • Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)

  18. КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ • Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк-Интернет,… ) • Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…) • Что дальше?

  19. КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1)

  20. КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2)

  21. КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня • Потребность в свободно распространяемых готовых решениях (АОТ, …) • Проблемы технической эффективности (анализа, типизации) • Качество лингвистических баз данных и их адаптируемость к конкретным задачам

  22. ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ См. http://www.aot.ru/docs/sokirko/MorphPPT-Dateien/frame.htm

More Related