Оценка систем текстового поиска

Оценка систем текстового поиска Игорь Кураленок Яндекс, СПбГУ

Чему верить? Верить • Методы оценки • Известные исследования • Факты, подтвержденные статистикой Принять к сведенью (по желанию) • Выводы о качестве того или иного эксперимента • Модель того как все на самом деле и как все взаимосвязано

План • Как люди это делают • Как уменьшить количество работы • Анализ и обоснование оценки • Как (возможно ли?) сделать оценку статистически корректной • Работа в условиях неполных и/или неточных данных • Как еще можно оценить систему текстового поиска?

Немного истории • Кренфилдские эксперименты (1966) • появление пулинга (1975) • Text REtrieval Conference (TREC) (1992) • Исследования основ оценки на базе (TREC) (1998-2001-…) • NII Test Collection for IR Systems (NTCIR) (1999) • Cross Language Evaluations Forum (CLEF) (2000) • Российский семинар по оценке Методов Информационного Поиска (РОМИП)(2003)

Классическая (Cranfield) процедура оценки • Составим список запросов и ограничим коллекцию документов • Для каждой пары запрос/документ выставим экспертную оценку «релевантности» • Будем рассматривать ответ системы не как последовательность документов, а как множество/последовательность оценок релевантности • На полученной последовательности/множестве оценок релевантности построим метрики

Множественные оценки

Оценки на последовательностях • Отсечение на уровне • Уровень меняется в зависимости от запроса • Информация

Усреднение • Микроусреднение Составляем общую таблицу релевантности и по ней считаем метрики на множестве • Макроусреднение Усредняем значения метрик на отдельных запросах

График Precision/Recall(по запросу)

Интегральные метрики • Средняя точность (AP & MAP)

11-точечный график TREC • Значения полноты от 0 до 1 с шагом 0.5 • Интерполяция точности • если , то • если , то • Микроусреднение одинаковых уровней полноты разных запросов

Информационная потребность: Неосознанная ИП (RIN) Осознанная ИП (PIN) Сформулированная ИП (EIN) Запрос (Q) Документ Множество нужных документов (DS) Документ (D) Представление (MD) Профайл (P) Многомерная модель релевантности(S. Mizzaro) Контекст: тематика, задача, атрибуты пользователя (языки, терпение) Время

Виды релевантности • Системная релевантность = Запрос + Профайл + * • Когнитивная релевантность (пертенентность) = Неосозная ИП + Документ + * • Тематическая релевантность = * + Тема + (Задача?) + *

Позволяет получить больше информации о мнении пользователя Иногда улучшает согласованность оценок Позволяет провести оценку на разных уровнях «требовательности пользователя» Усложняет процедуру построения оценки Не позволяет использовать классические метрики (делая результаты непонятными слушателям) Порождает проблему взаимоотношения оценок Шкалы релевантности

Соответствует Скорее соответствует Возможно соответствует Не соответствует Не может быть оценен Шкала оценки РОМИП

Оценки для не бинарного случая релевантности

Normalized Discounted Cumulated Gain(K. Jarvelin, J. Kekalainen)

Пулинг Для каждого запроса: • Собрать результаты систем участников глубины A • Выбрать из полученных результатов B первых • Удалить дубликаты • Проставить оценки релевантности • Не оцененные документы считать нерелевантными • Оценить весь ответ системы (с глубиной А)

Исследование распределения релевантных документов по разным глубинам пула(J. Zobel,98)

Исследование распределения релевантных документов при изменении числа участников(J. Zobel,98)

Сложности, связанные с пулингом • Взаимное усиление систем • Недооценка систем, не участвовавших в оценке • Получаемая оценка – оценка снизу

Альтернативы пулингу(G. Cormack, C. Palmer, C. Clarke) • Попросить асессоров любыми способами искать релевантные документы (ISJ) • Случайный выбор документов для оценки (Random) • Move-to-front пулинг

Найдено релевантных

Корреляция AP

Анализ и обоснование классической модели • Стабильность метрик • Зависимость результатов от набора экспертов • Информация (по Шеннону), содержащаяся в метриках

Стабильность оценок(C. Buckley, E. Voorhees) Цели: • Как изменяется стабильность ранжирования при изменении данных на известных метриках • Какие минимальные требования к данным для того, чтобы метрики оставались стабильными

Стабильность метрик к изменению количества запросов

Стабильность метрик к изменению уровня значимости

Стабильность метрик к изменению уровня значимости (50 запросов)

Стабильность метрик к изменению уровня значимости (25 запросов)

Зависимость результатов от состава экспертной группы (E. Voorhees, 98) • Асессоры часто не соглашаются в своих оценках • Влияет ли это несогласие на финальное ранжирование?

Зависимость результатов от состава экспертной группы

Информация, содержащаяся в известных метриках (J.Aslam, E. Yilmaz, V. Pavlu) • Используя Метод Максимальной Энтропии вычисляем распределение вероятностей релевантности по ответу поисковой системы, исходя из информации о количестве релевантных документов и значения метрики • Восстанавливаем распределение точности по разным уровням полноты • Сравниваем полученный график с наблюдаемым

Метод Максимальной Энтропии в вычислении вероятности релевантности

Распределение точности построенные на разных метриках

Среднеквадратичное отклонение теоретических графиков от наблюдаемых

Известные подходы к оценке • Органолептический • Аналитический • Косвенная оценка • Интерактивная оценка • Решение более общей задачи • Кренфилдская оценка

Требования к оценке • Повторяемость • Интерпретируемость • Переносимость • Низкая стоимость

Что значат кренфилдские оценки с точки зрения пользователя?(A. Turpin, F. Scholer) • Возьмем пользвательскую задачу • Попытаемся решить ее с помощью систем разной эффективности • Проанализируем корреляцию между системной и пользовательской эффективностью

Постановка эксперимента • Сформируем ответы с заданными значениями MAP • Попросим пользователя найти первый релевантный документ по каждому из представленных запросов

Корреляция пользовательской и системной эффективности

Сессии, где не нашли релевантного документа

Почему так получилось? • Система состоит не только из алгоритма ранжирования • При высоких уровнях точности на первый план выходит «быстродействие» пользователя • Релевантность с точки зрения пользователя отличала от эталонной, по которой мы проводили «настройку»

«Правильная» оценка с точки зрения статистики • Определение границ задачи (определение границ совокупности) • Разработка способа создания репрезентативной выборки • Построение оценки по выборке • Несмещенные оценки распределены нормально (позволяет вычислить доверительные интервалы)

Оценка систем текстового поиска

Оценка систем текстового поиска

Presentation Transcript