1 / 80

Извлечение информации из полуструктурированных веб-источников

Извлечение информации из полуструктурированных веб-источников. Е вгения Яковлева r agvena@yandex-mail.ru В ладимир Батыгин vbatygin@yandex-team.ru. П лан. Мотивация; Направления Web Mining ; Отбор источников информации; Извлечение структурированной информации Основные этапы процесса,

shing
Download Presentation

Извлечение информации из полуструктурированных веб-источников

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Извлечение информации из полуструктурированныхвеб-источников Евгения Яковлева ragvena@yandex-mail.ru Владимир Батыгин vbatygin@yandex-team.ru

  2. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  3. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  4. Мотивация • Структурированная информация в веб-источниках, как правило, содержит полезную информацию. • Анализ контента страницы повышает качество работы сервисов.

  5. Мотивация: пример

  6. Мотивация: способ решения Извлечение структурированных данных из веб-источников является задачей Web Content Mining(WCM). Web Content Mining – направлениеWeb Mining, занимающееся извлечением полезной информации из веб-страниц.

  7. Знаешь, что такое Web Mining?

  8. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  9. Направления Web Mining «The World-Wide Web: quagmire or gold mine?» Professor Oren Etzioni Director of the Turing Center

  10. Направления Web Mining

  11. Направления Web Mining

  12. Направления Web Mining:Характеристика

  13. «Георгий Иванович, он же Жора, он же Гоша, он же Гога…» Web Scraping  Web Harvesting Wrapper Induction Web Content Mining Information Extraction Web Data Extraction

  14. Задачи Web Content Mining

  15. Задачи Web Content Mining • Извлечение фактов и отношений Oren Etzioni University of Washington KnowItAll [2004] Gerhard Weikum Max Planck Institute for Informatics «Scalable knowledge harvesting with high precision and high recall» [2011] PROSPERA Свободный текст

  16. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  17. Конференции Computer Science Conference Ranking

  18. Критерии отбора статей • Престижность конференции; • Год публикации; • Индекс цитируемости; • «Серийные» авторы.

  19. «Серийные» авторы Bing, Liu ProfessorUniversity of Illinois at Chicago (UIC)  WONG, Tak-Lam PhD,Lecturer The Hong Kong Institute of Education Chang, Chia-Hui ProfessorNational Central University

  20. Исследовательские центры на карте мира • Università di Roma Tre • Università della Basilicata Microsoft Research Yahoo!Labs Microsoft Research Asia University of Illinois at Chicago

  21. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  22. Данные в Веб Виды данных: текст, графика, аудио, видео.

  23. Данные в Веб Виды данных: текст, графика, аудио, видео. Текстовая информация: Неструктурированная • свободный текст; Полуструктурированная • HTML-страницы; Структурированная • документы, генерирующиеся из БД.

  24. Данные в Веб Виды данных: текст, графика, аудио, видео. Текстовая информация: Неструктурированная • свободный текст; Полуструктурированная • HTML-страницы; Структурированная • документы, генерирующиеся из БД.

  25. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  26. Основные этапы процесса

  27. Основные этапы процесса

  28. «Георгий Иванович, он же Жора, он же Гоша, он же Гога…»-2 • Правила извлечения «То, что извлекает данные со страницы» • Wrapper • Pattern • Спец. робот • Экстрактор • Parser • Посредник между исходными и извлеченными данными

  29. «Георгий Иванович, он же Жора, он же Гоша, он же Гога…»-2 • Правила извлечения «То, что извлекает данные со страницы» • Wrapper • Pattern • Строится на этапе обучения и использует знания о строе предыдущих страниц • Строится заново для каждой страницы и не использует знаний о структуре ранее обработанных страниц • Спец. робот • Экстрактор • Parser • Посредник между исходными и извлеченными данными

  30. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  31. Классификация методов [Chang2006] Un-labeled Training Web Pages Test Page Wrapper Induction System Wrapper Extracted Data

  32. Классификация методов [Chang2006] Manual | Supervised | Semi-supervised | Un-supervised Un-labeled Training Web Pages Test Page Wrapper Induction System Wrapper Manual Extracted Data

  33. Классификация методов [Chang2006] Manual | Supervised | Semi-supervised | Un-supervised Un-labeled Training Web Pages Test Page Wrapper Induction System Wrapper Labeled Web Pages Extracted Data Supervised

  34. Классификация методов [Chang2006] Manual | Supervised | Semi-supervised | Un-supervised Semi-supervised Un-labeled Training Web Pages Test Page Wrapper Induction System Wrapper Extracted Data

  35. Классификация методов [Chang2006] Manual | Supervised | Semi-supervised | Un-supervised Un-labeled Training Web Pages Test Page Wrapper Induction System Wrapper Extracted Data Unsupervised

  36. План • Мотивация; • Направления Web Mining; • Отбор источников информации; • Извлечениеструктурированной информации • Основные этапы процесса, • Классификация методов, • Примеры существующих подходов и систем, • Заключение.

  37. Существующие подходы

  38. Примеры существующих подходов и систем • Группа «Manual»; • Группы «Supervised» и «Semi-supervised»; • Группа «Unsupervised»;

  39. Примеры существующих подходов и систем • Группа «Manual»; • Группы «Supervised» и «Semi-supervised»; • Группа «Unsupervised»;

  40. Группа «Manual» Особенности: • Wrapperы пишутся вручную; • Для разбора используют • Xpath; • RegExp.

  41. Flashback: Существующие подходы

  42. Группа «Manual»:Инструменты http://web-harvest.sourceforge.net/

  43. WebHarvest: Easy Web Scraping from Java Ах, вот ты какой, • рукописный wrapper …

  44. Manual. Инструменты http://web-harvest.sourceforge.net/ http://scrapy.org/

  45. Таких инструментов много 30 Digits Web Extractor Software Djuggler Happy Harvester Irobot Soft ListGrabber http://www.theeasybee.com/

  46. Примеры существующих подходов и систем • Группа «Manual»; • Группы «Supervised» и «Semi-supervised»; • Группа «Unsupervised».

  47. Группы «Supervised» и «Semi-supervised» Особенность: • Правила извлечения генерируются автоматически или под контролем пользователя.

  48. Flashback: Существующие подходы

  49. Группы «Supervised» и «Semi-supervised»:Инструменты http://www.visualwebripper.com/

More Related