210 likes | 319 Views
Avalia ções Conjuntas : Visão Geral. Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics. O que é avalia ção conjunta ?. Compara os resultados de vários sistemas participantes usando: Tarefas de controle iguais ou similares;
E N D
Avaliações Conjuntas:Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics
O que é avaliação conjunta? • Compara os resultados de vários sistemas participantes usando: • Tarefas de controle iguais ou similares; • Mesma coleção de dados; • Mesmas métricas. • Todos os itens acima são baseados em concordância prévia entre os participantes. SINTEF
Objetivos • Encorajar a pesquisa baseada em dados reais; • Aumentar a comunicação entre a indústria, a academia e o governo através da criação de um fórum aberto de discussões; • Acelerar a transferência de tecnologia entre os laboratórios de pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais; • Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais. SINTEF
Elementos da avaliação conjunta • Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada. • Requisitos genéricos para a tarefa de controle: • Pode ser facilmente realizada por um operador humano; • Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN; • Requisitos genéricos para as métricas: • Deve existir concordância em um formalismo de referência comum a todos os participantes; • As métricas devem ser diretas e de fácil entendimento. SINTEF
Fases da Avaliação Conjunta Participantes: pesquisa, indústria e governo Artigos Avaliação Treinamento Tarefas de controle Métricas Coleção de teste Conferência Ensaio Resultados Organização: governo, pesquisa e indústria SINTEF
Evolução Tarefas Tarefas Discussão sobre metodologia Nova Avaliação Conjunta Avaliação Conjunta Métricas Métricas Coleção - Treinamento - Teste - Respostas certas Coleção SINTEF
Tipos de avaliação em geral • Avaliação de pesquisa básica • Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos. • Avaliação de tecnologia • Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido. • Avaliação de uso • Medir a usabilidade de uma tecnologia na resolução de um problema real. • Avaliação de impacto • Avaliação de consequências sócio-econômicas de uma tecnologia. • Avaliação de programa • Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia. SINTEF
ATIS MUC TREC SUMMAC DUC CLEF ARC GRACE Morpholympics Senseval/Romanseval Parseval NTCIR Avaliações conjuntas realizadas http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html SINTEF
ATIS - Air Travel Information System • Duração: de 1989 a 1995. • Tarefa: Responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas). • Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. • A portabilidade dos sistemas de compreensão de línguas não avaliada. • Não estava claro como desenvolver ferramentas robustas que permitiriam a rápida construção destes tipos de sistemas em novos domínios SINTEF
MUC - Message Understanding Conference • Duração: 1987 a 1998. • Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular. • Ex: Atividades terroristas nas Américas. • Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas. • Avaliação baseada em preenchimento de gabaritos (templates) • Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias. • Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome. • Identificação de coreferência: ligar as várias menções da mesma entidade. SINTEF
TREC - Text REtrieval Conference • Início: 1992 • Tarefas principais: • Routing: Mesmas questões perguntadas a uma base de dados dinâmica. • Ad hoc: Novas questões são perguntadas a uma base de dados estática. • Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos: • Contendo entre 500.000 e 1.000.000 de documentos completos • Formado principalmente de textos jornalísticos e de agências de notícias. • Também possui documentos oficiais e resumos de artigos sobre computação. SINTEF
Julgamentos de Relevância nas TRECs • Método de pooling: • Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. • Reúne-se por tópico todas as respostas enviadas e remove-se as duplicações. • Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão. • A lista final do método de pooling será considerada a resposta correta. SINTEF
SUMMAC - TIPSTER Text Summarization Evaluation • Início: 1997 • Tarefas principais: • Ad hoc • Criação de sumários indicativos e focados no usuário para um tópico particular. • Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico. • Categorização • Criação de sumários genéricos • Determinar se estes sumários são efetivos na captura de qualquer informação no documento fonte que permita corretamente categorizar este documento. • Os dados usados são das TRECs. SINTEF
DUC - Document Understanding Conference • Início: 2001 • Tarefas principais: • Sumário individual: Produzir um resumo de 100 palavras para cada documento; • Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”. • Os dados utilizados vieram da TREC-9 (question-answering track). SINTEF
Criação de Sumários por Humanos Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm Sumários individuais A B Documentos C Sumários coletivos A: Ler os documentos em papel. B: Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento. C: Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais. D,E,F: Recortar, colar e reformular para reduzir o tamanho do sumário pela metade. 400 D 200 E 100 F 50 SINTEF
CLEF - Cross-Language Evaluation Forum • Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000. • Objetivos: • Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval) • Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês). • Atrair mais participantes europeus para este tipo de tarefa de avaliação • A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis) • Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente. SINTEF
ARC - Actions de Recherche Concertées • Início: 1994 • Possui 7 tarefas de controle organizadas como segue: • Linguística, Informática e Corpora escritos(ILEC) • Recuperação de Informação • Alinhamento de corpus bi e multilíngues • Construção automática de terminologia e de relações semânticas a partir de corpora • Compreensão de textos • Linguística, Informática e Corpora orais (ILOR) • Ditado vocal • Diálogo oral • Síntese de fala • Cada tarefa de controle possui a mesma estrutura organizacional • Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes. SINTEF
GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation • Início: 1995 • Objetivos iniciais: • Etiquetadores morfossintáticos para o francês; • Analisadores sintáticos para francês (abandonado) • Corpus de treinamento • Tamanho em torno de 10 milhões de palavras; • Distribuido entre trabalhos literários e artigos jornalísticos. SINTEF
Senseval/Romanseval • Início: 1998 • A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. • A meta do Romanseval é similar a do Senseval mas voltada para línguas românicas (francês e italiano). • Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês. • Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos. • Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. • Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma outra língua. SINTEF
Parseval • A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação. • A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. • A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes. • A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas. SINTEF
NTCIR - NII-NACSIS Test Collection for IR Systems • Início: 1998 • Projetado para fomentar a pesquisa em recuperação de informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas. • Fortemente baseada no modelo das TRECs • Tarefas: • Recuperação de informação em textos em chinês. • Recuperação de informação em textos em japonês e inglês. • Sumarização de textos: sumarização de artigos japoneses de vários tipos SINTEF