1 / 23

Mapeamento de Thesauri

Mapeamento de Thesauri. Daniela F. Brauner. Agenda. Introdução Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta. Introdução. Interoperabilidade. Milhares de provedores de informação (fontes de dados): Esquemas diferentes

elpida
Download Presentation

Mapeamento de Thesauri

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mapeamento de Thesauri Daniela F. Brauner

  2. Agenda • Introdução • Interoperabilidade • Mapeamentos • Em nível de esquema • Em nível de dados • Abordagens existentes • Abordagem proposta

  3. Introdução Interoperabilidade • Milhares de provedores de informação (fontes de dados): • Esquemas diferentes • Categorias diferentes para classificação dos dados (≠ thesauri) • Solução proposta: • Dados estruturados • Ontologias para descrever a semântica • Computadores capazes de “entender” estes dados • (mesma proposta da Web Semântica!) • ...e os problemas continuam: • Natureza descentralizada da Web • Cada provedor de informação usando sua própria ontologia

  4. Introdução Interoperabilidade • Busca por “city” no Swoogle • 722 resultadosi.e. definições diferentes

  5. Introdução Mapeamentos Find all cities called “Rio de Janeiro” GEOnet ADL Gazetteer

  6. Introdução Mapeamentos Find all cities called “Rio de Janeiro” Basic Architecture of A Data Integration System Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

  7. Schema-level mapping • Data-level mapping Introdução ? Mapeamentos ? ? ? Find all cities called “Rio de Janeiro” GEOnet ? ? ADL

  8. Abordagens existentes • ILA [Etzioni, 2000] • SEMINT [Syan et al., 2000] • AnchorPrompt [Musen and Noy, 2001] • Cupid [Madhavan et al., 2001] • LSD [Doan et al., 2001] • SimilarityFlooding [Melnik et al., 2002] • PROM [Doan et al., 2003] • GLUE [Doan et al., 2003] • CATO [Felicissimo, 2004] • iMAP [Dhamankar et al., 2004] • ...

  9. Utilizando os nomes dos termos Abordagens existentes ADL GEOnet Administrative area Populated places Political areas Countries Cities Capitals ... AREA area ADM1 first-order administrative divisionADM2 second-order administrative division ADM3 third-order administrative division ADM4 fourth-order administrative divisionADMD administrative division ADMF administrative facility PPL populated place PPLA seat of a first-order administrative division PPLC capital of a political entity PPLL populated locality PPLQ abandoned populated place PPLR religious populated place PPLS populated places PPLW destroyed populated place PPLX section of populated place... FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp

  10. Utilizando as estruturas das árvores Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Country City Cities Countries Capitals CapitalCityOfRegion IndependentCountry FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start

  11. Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Country City Cities Countries Capitals IndependentCountry CapitalCityOfRegion Exemplos: ?

  12. Abordagens existentes • Estratégia de tradução do Google • Sistema “aprende” através de traduções existentes “My name is Daniela. I am 26 years old.” “Mein name ist Daniela. Ich bin 26 Jahre alt.” http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de “Meu nome é Daniela. Eu tenho 26 anos.” “Mi nombre es Daniela. Yo tengo 26 años.” http://www.inf.puc-rio.br/~dani/br http://www.inf.puc-rio.br/~dani/es

  13. Abordagens existentes • 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos • hieróglifos egípcio demótico (Copta) grego http://www.thebritishmuseum.ac.uk

  14. ADL GEOnet Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Abordagens existentes • Utilizando as descrições dos termos dos thesauri • Removemos algumas stop-words • Mapeamos conceitos com maior ocorrência de palavras em comum ?

  15. ADL GEOnet Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water Abordagens existentes • Utilizando as descrições dos termos dos thesauri ≠ GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water

  16. ADL GEOnet Waterfall perpendicular or very steep falls of water in the course of a stream. Waterfall a perpendicular or very steep descent of the water of a stream Abordagens existentes • Utilizando representação formal • Criamos 3 ontologias: ADL, GEO e concepts

  17. Abordagens existentes • Utilizando instâncias • Identificar mapeamentos entre os dados (instâncias iguais) • Verificar freqüência de “casamentos” entre os termos dos thesauri GEOnet ADL

  18. Etapas: • Levantamento dos dados • Definição dos conjuntos de treinamento e teste • Treinamento • Cruzamento das instâncias de treinamento (definir freqüências) • Cálculo das probabilidades de alinhamento • Teste e validação Abordagens existentes • Utilizando instâncias • Identificar mapeamentos entre os dados (instâncias iguais) • Verificar freqüência de “casamentos” entre os termos dos thesauri

  19. nab P( b | a ) = na Abordagens existentes Etapas concluídas: • Conjunto de exemplos: • Instâncias brasileiras: • ADL: 17.991 • GEOnet: 87.608 • Treinamento: • Instâncias mapeadas pelos valores de LAT/LON • 221 pares identificados (~16%) • Ex: • Termos dos thesauri: • ADL: 210 • GEOnet: 642 Combinações possíveis: 134.820

  20. Abordagem proposta • Mediador “espertinho” (utilizando técnicas de aprendizagem de máquina) • Aprende em 2 momentos: • A priori (offline) • A posteriori (runtime) • Aprende a partir de: • Consultas dos usuários • Análise das respostas das consultas dos usuários

  21. Ahááá!!! PPL ≡ PopulatedPlaces Abordagem proposta Aprendendo a partir das consultas dos usuários Select PPL From GEOnet Within“-54, -34 -52.5, -33” Select PPL From GEOnet Within“-54, -34 -52.5, -33” Select populated places From ADL Within“-54, -34 -52.5, -33” Select populated places From ADL Within“-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

  22. Cache Abordagem proposta Aprendendo a partir das respostas das consultas dos usuários Select PPL From GEOnet, ADL Within“-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

  23. Mapeamento de Thesauri Daniela F. Brauner

More Related