1 / 26

Change-point detection

Change-point detection. Machine Learning Group 25 de febrero de 2013. Outline. Introducción: Concepto, ejemplos … www.changepoint.info Formulaciones clásicas Formulaciones bayesianas Formulaciones “ en-línea ” Conclusiones. Introducción.

brandi
Download Presentation

Change-point detection

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Change-point detection Machine Learning Group 25 de febrero de 2013

  2. Outline Introducción: Concepto, ejemplos … www.changepoint.info Formulaciones clásicas Formulaciones bayesianas Formulaciones “en-línea” Conclusiones

  3. Introducción Definición de changepoint: “An instance in time where statistical properties before and after this point differ”

  4. Introducción (II) El primer método apareció en la literatura estadística en la década de los 50 (Page et al., 54). De hecho, gran cantidad de métodos se han propuesto en este ámbito desde entonces Durante las dos últimas décadas se han sumado contribuciones en el ámbito del aprendizaje máquina, incluyendo aportaciones recientes de tipo bayesiano Otros nombres: segmentación, “structural breaks”, “break points”, “regime switching”, “detecting disorder” Numerosas aplicaciones: • En el ámbito de la climatología • Biomédicas: segmentación de DNA, análisis de EEG, etc • Control • Análisis de tráfico en redes • Finanzas • …

  5. Taxonomía • Onepoint vs Multipoint • Control charts • Formulaciones clásicas • Formulaciones frecuentistas (paramétricas o no) • Formulaciones de tipo bayesiano • Retrospective Segmentation • (Batch) • Changepoint detection Multipoint Detección de novedad (preferibles métodos incrementales y baratos) Bayesian online changepoint detection • Causal Segmentation • (On-line)

  6. Objetivo de la sesión Presentaremos algunos ejemplos ilustrativos de estas técnicas: Para el caso “batch” estudiaremos dos artículos “review”; uno con aproximaciones clásicas y otro con aproximaciones bayesianas Para el caso “online” revisaremos un método propio y otro reciente de tipo bayesiano

  7. www.changepoint.info

  8. Software La mayoría de métodos “clásicos” son fácilmente implementables utilizando la toolbox de estadística de Matlab Numerosos paquetes comerciales disponen de herramientas para changepoint detection, pero en su mayoría son limitados en cuanto al tipo de cambio que se detectan (fundamentalmente desplazamiento de medias) Existen numerosas toolboxes específicas, la mayoría de ellas disponibles para R. En changepoint.info se recogen 22 diferentes, si bien varias son específicas a ciertas aplicaciones

  9. Segmentación Retrospectiva

  10. Two-phase regression model (Lund and Reeves, 2002) Al contrario del enfoque del artículo, comenzaremos con el modelo más complejo, que como vemos permite detectar desplazamientos de medias y cambios de tendencias H0 puede testearse usando un F test: Valores grandes sugieren que HA es cierta, por lo que si no se conoce la situación del changepoint: En lugar del índice temporal puede utilizarse una secuencia de referencia xt

  11. Standard normal homogeneity (Reeves et al., 2006) Para el caso en que únicamente queremos detectar desplazamientos de medias: Un estadístico suficiente puede obtenerse a partir del cociente de verosimilitudes como: Una ventaja de estos métodos clásicos es que los umbrales pueden ajustarse según el nivel deseado de certeza

  12. Jerarquía de modelos (Vincent y Gullet, 1999) Cuando no conocemos el modelo a aplicar, podemos considerar una jerarquía en orden creciente de complejidad: En cada paso evaluamos la idoneidad del modelo y, en su caso, la verosimilitud de un punto de cambio

  13. Jerarquía de modelos (II) Una alternativa frecuente para seleccionar el modelo más adecuado de una jerarquía es utilizar un criterio de verosimilitud penalizado El inconveniente es el coste computacional, sobre todo cuando no conocemos el valor de c, ya que hay que explorarlo para obtener el mínimo valor del AIC o BIC

  14. Propone distintos métodos basados en modelo, bajo enfoque probabilístico (no necesariamente bayesiano) Los métodos propuestos están implementados en una de las toolboxes enumeradas anteriormente Notac:

  15. Ejemplo: Piecewise Linear Regression El modelo incluye la posibilidad de detectar desplazamientos de medias y cambios de varianza Permite detectar cambios de tendencia, ya sea respecto del tiempo (con zt = t) o respecto de una señal de referencia Permite trabajar con señales AR … i.e., todos los casos de la figura vista al comienzo de la presentación. Pero la selección de z_t indica que ha de fijarse el modelo a priori

  16. Método LRT para un único punto Existe la posibilidad de penalizar la verosimilitud, pero en caso binario esto supone simplemente un cambio en el umbral del decisor

  17. Enfoque bayesiano para un único punto Priors de los hiperparámetros Prior de la existencia de cambio: Pr(M=1) Prior para la posición del punto de cambio: p(τ) Probabilidades a posteriori: donde Q(a,b) es la verosimilitud del segmento una vez marginalizados los parámetros (sigmas y betas)

  18. Enfoque bayesiano para un único punto (II) Si únicamente queremos detectar la existencia de un cambio, tendríamos que marginalizar la posición, y quedaría: El Factor de Bayes (entre paréntesis) puede utilizarse para detectar el punto en el que es más probable que se produzca el cambio Los autores comentan que la selección de ψ puede ser bastante crítica. En ausencia de información a priori podríamos ajustarlo con los valores que maximizan la verosimilitud, o bien hacer un tratamiento Bayesiano (más complejo)

  19. Prestaciones Escenario de cambio de varianza Promedio sobre 10000 secuencias de longitud 200 Enfoque Bayesiano significativamente mejor, sobre todo para valores intermedios de la varianza del ruido Motivo: Promedia sobre distintas posiciones en las que puede haberse producido el cambio

  20. Generalización para múltiples puntos Segmentación binaria: Iterativamente, comenzando con los puntos que maximizan el cociente de verosimilitudes Búsqueda de segmentos por vecindad: Evaluamos la log-verosimilitud para todos los posibles segmentos, y luego vamos fusionando hasta un máximo de puntos. O(n2) Minimum Description Length: El número de puntos incrementa el número de parámetros, y por tanto incrementa el valor de la función de coste de log-verosimilitud penalizada En caso bayesiano hay 2 posibilidades: Prior sobre el número de puntos + prior sobre su posición condicionada al número de puntos Prior sobre la longitud de los segmentos. Tiene numerosas ventajas (computacional, robustez a la longitud de la secuencia …)

  21. Segmentación secuencial (“on-line”)

  22. Changepoint detection basada en detección de novedad Detección de novedad: identificación de puntos situados en regiones de baja densidad de probabilidad Existen numerosos métodos, si bien son preferibles aquéllos que pueden ser adaptados según se dispone de nuevas observaciones, sin necesidad de reentrenar El éxito del método puede depender fuertemente del tipo de parametrización utilizada Métodos paramétricos: GMM, HMM para datos secuenciales Métodos no paramétricos: Métodos basados en estimaciones de pdf mediante k-NN o Parzen, “string-matching”, SVMs, etc.

  23. Propone solución recurrente de 1-SVM aplicando el método IR-WLS con ventana de olvido exponencial Propone método de poda para limitar la complejidad computacional Compara frente a NORMA, otra implementación generalista para SVM adaptativa basada en descenso por gradiente

More Related