410 likes | 618 Views
«Разработка метода семантической интеграции информации в сфере государственного и муниципального управления». Ломов Павел Андреевич Институт информатики и математического моделирования технологических процессов КНЦ РАН, г. Апатиты. Актуальность темы. Формирование электронного государства;
E N D
«Разработка метода семантической интеграции информации в сфере государственного и муниципального управления» Ломов Павел Андреевич Институт информатики и математического моделирования технологических процессов КНЦ РАН, г. Апатиты
Актуальность темы Ломов Павел Андреевич • Формирование электронного государства; • Развитие модели государственного управления, ориентированная на клиентов, целью которой является предоставления гражданам комплексных персонализированных услуг, приспособленных к их потребностям, через единую точку доступа; • Применение подхода, ориентированного на проблему требует наличия интегрированного представления всей информации, так или иначе связанной с предметной областью.
Цели и задачи Ломов Павел Андреевич • Целью работы является разработка метода интеграции данных, моделей информационных систем и программных средств, позволяющих производить интеграцию информации на основе ее семантики с учетом особенностей предметной области. Для достижения поставленной цели необходимо решить следующие задачи: • Проведение анализа современных систем, методов и средств информационной интеграции как в рассматриваемой предметной области так и в других предметных областях; • Разработка модели предметной области государственного и муниципального управления; • Разработка моделей процессов взаимодействия компонентов интеграционной системы в ходе выполнения задач по обработке интегрированной информации; • Создание прототипов компонентов информационной системы, в виде комплекса программ для проведения экспериментов и оценки полученных результатов.
Обзор существующих подходов к семантической интеграции Ломов Павел Андреевич Централизованные подходы (использующиеодну онтологию): • Gene Ontology (GO) (http://www.geneontology.org) — проект Gene Ontology Consortium. • TAMBIS (Transparent access to multiple bioinformatics information sources) — онтология ПО молекулярной биологии и биоинформатики Децентрализованные подходы: • Ontograve. Dejing D., LaPendu P. – Проект интеграции баз гетерогенных БД Гибридные подходы: • MESA(Mediator Specification Assistant) H. Wache Th. Scholz H. Stieghahn • BUSTER(Bremen University Semantic Translation for Enhanced Retrieval) (VisserU., Stuckenschmidt H., Wache H., Vogele U)
Требования к системе интеграции Ломов Павел Андреевич К общим требованиям можно отнести: • обеспечение доступа к информации, хранящейся в информационных ресурсах, входящих в пространство интеграции через единую точку доступа; • возможность включения новых информационных ресурсов в пространство интеграции без существенных изменений конфигурации компонентов системы К специфическим требованиям можно отнести: • Проведение распределенного поиска для получения совокупной информации об объекте предметной области из различных источников; • Выявление семантических противоречий в информации, содержащихся или вносимых в информационные источники; • Сохранение прав доступа установленных в интегрируемом информационном источнике к определенным информационным элементам; • Совместное изменение зависимой информации расположенной в различных источниках и описывающей один и тот же объект ПО.
Существующие подходы к интеграции в области ГиМУ Ломов Павел Андреевич • Система СПУН (Л. Ф. Марин, Е.В. Бойченко) направленна на решение задачи получения полной, достоверной и актуальной информации о гражданах Российской Федерации. • Система «СУПРЕМА» (авторы В.А. Виттих, Д.В. Волхонцев,) Целью является повышение качества и эффективности управления в регионе для реализации потребностей и возможностей граждан и обеспечения устойчивого социально-экономического развития региона. Главными отличиями данного подхода является применение мультиагентных технологий, а также перехода от систем, основанных на данных, к системам, базирующимся на знаниях.
Структура системы Ломов Павел Андреевич • Система выполнения пользовательских запросов • Отбор агентов в семантическом хранилище для выполнения задач; • Декомпозиция запросов на подзапросы, адресованные агентам; • Извлечение результатов задания для передачи их пользовательскому интерфейсу; • Семантическое хранилище • Хранение разделяемого тезауруса; • Взаимообмен информации между агентами, • Хранение информацию об агентах, задачах и результатах; • Агент: • Выполнение задач по обработке информации связанного с ним ресурса; • Онтология информационного ресурса: • Описывает модели объектов, описываемых в информационном ресурсе
Модель предметной области Ломов Павел Андреевич МПО должна позволять решать следующие задачи: • Обеспечение семантической интеграции информации информационных ресурсов; • Проведение распределенного поиска для получения совокупной информации об объекте предметной области из различных источников; • Выявление семантических противоречий в информации, содержащейся или вносимой в информационные источники; • Задания прав доступа к определенным информационным элементам; • Обеспечение достаточной простой модификации модели; • Идентификация сервисов, осуществляющих выполнения запросов на получение информации об определенных объектах предметной области.
Модель предметной области Ломов Павел Андреевич МПО разбивается на 2 уровня, на каждом из которых решаются следующие задачи: • На уровень источника – обеспечивается формальное выражение семантики, осуществляется проверка непротиворечивости информации, описывающей объекты ПО; • На уровень интеграции – обеспечивается выполнение распределенных операций, сопоставляются модели информационных объектов различных ресурсов, выполняется декомпозиция запросов и их маршрутизация, включение новых информационных моделей, содержащихся в добавляемом информационном ресурсе.
Формальные представления элементов тезауруса Ломов Павел Андреевич Элемент тезауруса типа «Объект» Элемент тезауруса типа «Связь» Элемент тезауруса типа «Свойство»
Использование общих атрибутов-идентификаторов Ломов Павел Андреевич • Информационные ресурсы могут содержать общие универсальные идентификаторы, которые имеют место быть в реальном мире. • Наличие общего идентификатора позволяет представить совокупную информацию об объекте реального мира. • Специфика ПО заключается в том, что основные субъекты и объекты имеют определения, которые в той или иной форме закреплены в различных законодательных актах. • Данные субъекты и объекты имеют также и регламентированные наборы основных атрибутов, в том числе и идентификационных. Исходя из этого можно проводить определение формальных моделей информационных объектов и их обобщение в базовых классах на основании их определения в нормативном акте или классификаторе.
Методика разработки формальной онтологии информационного ресурса Ломов Павел Андреевич • В зависимости от предпочитаемого инженером общего подхода (нисходящего или восходящего) выбираются либо «Свойства» тезауруса, либо «Объекты» соответствующие базовым классам. • В случае нисходящего подхода: базовые классы в тезаурусе, конкретизируются в подклассах, которые желательно описывать с использованием «Свойств», объявленных в тезаурусе. • В случае восходящего подхода: • выделяются наборы атрибутов, значения которых содержаться в информационных ресурсах; • наборы атрибутов заменяются на имеющиеся в тезаурусе в случае их эквивалентности; • с помощью заданных атрибутов определяются концепты, соответствующие объектам, описываемые в информационном ресурсе. • Определить логические ограничения для формального выражения дополнительной семантики.
Часть тезауруса Ломов Павел Андреевич
Онтология ЗАГС Ломов Павел Андреевич Использование общезначимого атрибута позволяет получать информацию об объекте из других источников, сравнивать с имеющейся, а также изменять зависимую информацию.
Ломов Павел Андреевич Отображения онтологий в тезаурус • Основная идея: создание новой иерархии терминов для конкретизации общего понятия или добавление новой иерархии на какой-либо уровень в уже существующую иерархию для определения новой конкретизации. • Определение семантической метрики, характеризующей степень сходства понятий на основании оценки: • сходства символических имен терминов ; • структурного положение понятия в онтологии; • степени сходства множеств необходимых и достаточных атрибутов . • Алгоритм позволяет избежать семантических конфликтов при объединении онтологий и создать интегрированную онтологию, универсальную в смысле требований к точности семантического соответствия терминов
Текущие результаты Ломов Павел Андреевич • Задана концептуальная модель ПО в виде тезауруса; • Разработан алгоритм отображения онтологий источников в тезаурусе с использованием эвристических оценок семантической близости концептов; • Для решения задач, требовательных к точности представлена методика использования общезначимых атрибутов; • Представлена методика определения онтологии отдельного информационного источника с использованием общезначимых атрибутов.
Направления дальнейшей работы Ломов Павел Андреевич • Разработка прототипов онтологий, определяющих информационные объекты, описанные в информационных источниках учреждений государственного и муниципального управления; • Разработка языка запросов между агентами-интеграторами на основе языка SPARQL; • Определение методики ограничения доступа к информационным объектам отдельных источников, а также процедур аутентификации и идентификации агентов; • Дальнейшее выявление общезначимых атрибутов, заданных в юридических документах и классификаторах и внесение их в тезаурус;
Спасибо за внимание! Ломов Павел Андреевич
Пакет OntologyIntegrator – диаграмма классов Ломов Павел Андреевич
Пакет OntologyIntegrator – состав Ломов Павел Андреевич
Онтология семантического хранилища Ломов Павел Андреевич
Использование атрибутов-идентификаторов Ломов Павел Андреевич • Решение задачи рег-го учета гр-н РФ предполагает сбор, хранение, актуализацию и изменение первичных рег. данных о гражданах • Функцию сбора обычно выполняют паспортно-визовые службы органов внутренних дел и органов ЗАГС. • Атрибута «номер российского паспорта» уникален. Это позволяет использовать его в поисковых шаблонах для идентификации семантически эквивалентных объектов в разных информационных ресурсах. • Для общего использования идентификаторов определим базовые классы онтологии верхнего уровня – «Персона» и «Документ».
Ломов Павел Андреевич Использование атрибутов-идентификаторов Часть онтологии ЗАГСа • К атрибутам базового класса «Персона» добавляется атрибут «имеетСвОБраке», значением которого является ссылка на экземпляр класса «Свидетельство о браке», что в свою очередь позволяет определить номер паспорта Российской Федерации супруга. Затем с его помощью этого номера, получить информацию из других источников.
Ломов Павел Андреевич Использование атрибутов-идентификаторов Часть онтологии МВД • В данном случае базовый класс «Персона» дополняется двумя дополнительными атрибутами (выделены серым), значения которых содержаться в контенте информационного ресурса.
Положительные стороны системы Ломов Павел Андреевич • Возможность добавления новых информационных ресурсов в пространство интеграции; • Выбор информационного ресурса для поиска, релевантного пользовательскому запросу; • Отсутствие ограничений на определение новых понятий в частных онтологиях; • Проведение результативного поиска с использованием атрибута- идентификатора, с получением в результате целостного информационного представления объекта поиска.
Направления дальнейшей работы Ломов Павел Андреевич • Более глубокое изучение ПО государственного и муниципального управления для построения онтологий информационных ресурсов; • Разработка функций оценки семантической близости терминов различных онтологий; • Определение основных принципов взаимодействия агентов между собой; • Разработка принципов обеспечения контроля доступа к информации агентами.
Список публикаций Ломов Павел Андреевич • Ломов П.А., Шишаев М.Г. Интеграция данных на основе онтологий для обеспечения информационной поддержки управленческих решений // VII-ая Всероссийская школа-семинар «Прикладные проблемы управления макросистемами» (Апатиты, 31 марта-4 апреля 2008 г.) • Ломов П. А., Шишаев М. Г. Интеграция семантически связанных информационных ресурсов на основе онтологий для эффективного информационного обеспечения рационального природопользования // Глубокая переработка минеральных ресурсов: Сборник материалов IV школы молодых ученых и специалистов «Сбалансированное природопользование» (6-8 ноября 2007 г.) • Ломов П. А. Проблемы и решения интеграции гетерогенных источников данных в системах информационной поддержки регионального развития //Тезисы докладов VII Региональной аспирантско-студенческой научной конференции ИНЖЭКОН 2008 г. • Ломов П. А. Использование онтологий для интеграции гетерогенных источников данных //Сборник трудов XI-ой Межрегиональной научно-практической конференции КФПетрГУ 2008 г.
Список публикаций Ломов Павел Андреевич • Ломов П.А., Шишаев М. Г., Интеграция семантически связанных информационных ресурсов на основе онтологий // Сборник научных трудов ИИММ КНЦ РАН 2007 г. • Ломов П.А., Шишаев М. Г., Использование базовых классов для установления смысловой эквивалентности в семантически гетерогенных информационных ресурсах // Сборник научных трудов ИИММ КНЦ РАН 2008 г. (в печати)
Предполагаемая научная новизна Ломов Павел Андреевич • Представлен алгоритм автоматической интеграции онтологий с использованием разделяемого тезауруса; • Предложена оценка семантической метрики, характеризующей степень сходства понятий на основании: • сходства символических имен терминов; • структурного положение понятия в онтологии; • степени сходства множеств необходимых и достаточных атрибутов; • Применение базовых классов и атрибутов-идентификаторов, которые позволяет однозначно определять семантически эквивалентные информационные элементы в гетерогенных информационных ресурсах.
Технологии Semantic Web Ломов Павел Андреевич • язык XML (Extensible Markup Language) - расширенный язык разметки, используется в качестве универсального языка обмена данными; • язык RDF (Resource Definition Framework) является подмножеством языка XML и предоставляет удобную среду формализации метаданных и сведений о контексте.; • язык онтологий OWL (Web Ontology Language) - общий набор терминов, которые используются для описания и представления объектов в Интернет; • язык SPARQL (SPARQL Query Language for RDF) применяется для выполнения запросов к RDF респозиториям и, одновременно, протокол передачи информации RDF. • SPARQL/Update, is a language to update RDF, similar to SPARQL which is used to query RDF.
Тезаурус Ломов Павел Андреевич • Это особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т . п.) между лексическими единицами. • Тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей. • Тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта.
Семантическая сеть Ломов Павел Андреевич • Это информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. • Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. • В семантической сети роль вершин выполняют понятия базы знаний, а направленные дуги задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.
Онтология Ломов Павел Андреевич • O=<T,R,F>где: • Т - термины предметной области, которую описывает онтология O; • R - отношения между терминами заданной предметной области; • F - функции интерпретации, заданные на терминах и/или отношениях онтологии O.
Отношение классификации (ISA) Ломов Павел Андреевич • Отношение между объектом и множеством, обозначающим, что объект принадлежит этому множеству, называется отношением классификации (ISA). • Связь ISA предполагает, что свойства объекта наследуются от множества. Обратное к ISA отношение называется — «Example», или по-русски, «Например». • «IS A» (наиболее точный русский перевод - «суть», «все зайцы суть млекопитающие»). • Иногда это отношение именуют также MemberOf или подобным образом.
Отношение гипонимии (AKO) Ломов Павел Андреевич • Отношение между надмножеством и подмножествомопределяет, что каждый элемент первого множества входит и во второе (выполняется ISA для каждого элемента), а также логическую связь между самими подмножествами: что первое не больше второго и свойства первого множества наследуются вторым. • AKO — «A Kind Of» («разновидность») • Элемент подмножества называется гипонимом, а надмножества — гиперонимом
Отношение меронимии (HasPart) Ломов Павел Андреевич • Отношение описывает части/целые объекты; • Мероним — это объект, являющийся частью для другого; • Холоним — это объект, который включает в себя другое.
Термин предметной области Ломов Павел Андреевич
Свойство объекта Ломов Павел Андреевич
Значение свойства Ломов Павел Андреевич
Задача для агента Ломов Павел Андреевич
Агент Ломов Павел Андреевич