1 / 85

Reconocimiento de Formas en Data Mining

Departamento de Informática Área Métodos y Modelos Cuantitativos. Reconocimiento de Formas en Data Mining. Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos. Árboles de clasificación en Reconocimiento de Formas. Alumno : Sergio Ahumada N.

Download Presentation

Reconocimiento de Formas en Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Departamento de Informática Área Métodos y Modelos Cuantitativos Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O.

  2. Departamento de Informática Área Métodos y Modelos Cuantitativos Árboles de clasificación en Reconocimiento de Formas Alumno : Sergio Ahumada N. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  3. Contenidos • Introducción • Construcción del árbol de clasificación • Selección de particiones • Regla de asignación de clases • Criterio de parada • Ejemplos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  4. 1. Introducción • Características principales • Aproximación radicalmente distinta • Uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizado • Una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo: • La estructura resultante de la partición recursiva de P a partir de un conjunto de prototipos S • Organización jerárquica de P que se modela con una estructura de tipo árbol Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  5. 1. Introducción • Esquema general estructural • Modelos: ID3, C4, C4.5, ..., CART • Nodos interiores: una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) • Nodos hoja: están etiquetados y representan una decisión o clasificación Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  6. 1. Introducción • Metodología. • 1. Aprendizaje: Construcción del árbol a partir de S • 2. Clasificación: Consiste en el etiquetado de un patrón, X, independiente del conjunto de aprendizaje. • Responder a las preguntas asociadas a los nodos interiores utilizando los valores de los atributos de X. • Repetir el proceso de evaluación desde el nodo raíz del árbol hasta alcanzar una hoja Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  7. 1. Introducción 1. Aprendizaje: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  8. 1. Introducción 2. Clasificación: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  9. 1. Introducción • Ejemplo 1: Un A.C. para un problema con J = 3 y d = 25 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  10. 1. Introducción • Ejemplo 1: • El problema es de dimensionalidad d = 25 • Observar las pocas variables utilizadas (6/25) • Cada pregunta tiene asociadas dos únicas respuestas (si o no)  particiones binarias (CART) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  11. 1. Introducción • Ejemplo 2: Introducción al aprendizaje (1) • Problema de clasificación no separable linealmente • J=2, d=2, N=46 (N1=26 y N2=20) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  12. 1. Introducción Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  13. 1. Introducción Primera partición Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  14. 1. Introducción Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  15. 1. Introducción Segunda partición Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  16. 1. Introducción Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  17. 1. Introducción Resumen del proceso de partición. Las regiones de decisión tiene forma de paralelepípedos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  18. 1. Introducción • Ejemplo 3: Introducción al aprendizaje (2) • Las particiones se hacen con hiperplanos arbitrarios Primera partición (alternativa) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  19. 1. Introducción Segunda partición (alternativa) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  20. 1. Introducción Tercera partición (alternativa) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  21. 1. Introducción Cada nodo tiene asociada una región en P Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  22. 1. Introducción • ¿Qué representa un árbol de clasificación? Un árbol de clasificación T representa una partición recursiva del espacio de representación, P, realizada en base a un conjunto de prototipos, S. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  23. 1. Introducción • Nodos de T, regiones en P y conjuntos en S. • 1. Cada nodo de T tiene asociado un subconjunto de prototipos de S. • 2. El nodo raíz tiene asignado el conjunto completo • 3. Cada hoja, t, tiene asociada una región, Rt, en P. • Si es el conjunto de nodos hoja del árbol T : • Los conjuntos de prototipos asignados a los nodos hoja constituyen una partición de P Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  24. 1. Introducción 4. Cada nodo no terminal tiene asociada una región en P, que es la unión de las regiones asociadas a los nodos hoja del subárbol cuya raíz es ese nodo. 5. La unión de los conjuntos de prototipos asignados a los nodos de un mismo nivel da como resultado el conjunto inicial Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  25. 2. Construcción de árbol de clasificación • Constituye la fase de aprendizaje. • Esquema recursivo: • 1. El avance está basado en la partición de un nodo de acuerdo a alguna regla, normalmente evaluando unacondición sobre el valor de alguna variable: • Si un nodo se particiona nodo intermedio. Los prototipos que verifican la condición se asignan a uno de los dos nodos hijo (normalmente el izquierdo) y los restantes, al otro. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  26. 2. Construcción de árbol de clasificación • 2. El caso base o condición de parada tiene como objetivo detener el proceso de partición de nodos. • Si se verifica la condición de parada nodo hoja. • En ocasiones, se poda el árbol resultante utilizando alguna regla de poda. Los prototipos asociados a un nodo hoja constituyen un agrupamiento homogéneo, por lo que al nodo se le asigna una etiqueta. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  27. 2. Construcción de árbol de clasificación • Puntos clave en la construcción del árbol. • 1. ¿De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada momento? • 2. ¿Cual es el criterio para determinar que un nodo es homogéneo? ó ¿Cuando se debe declarar un nodo como terminal, o por el contrario, continuar su división? • 3. ¿Cómo asignar una etiqueta a un nodo terminal? 1.1 ¿Cómo se formulan las preguntas? ó ¿De qué tipo son las condiciones a evaluar para formar una partición? 1.2 ¿Qué partición es la mejor? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  28. 2. Construcción de árbol de clasificación • Ejemplo. Construcción de un árbol. • Supongamos el siguiente problema: • d = 25 • J = 3 • N = 300 (Ni = 100, i = {1,2,3}) • 1. Construcción del nodo raíz. Nodo raíz del árbol Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  29. 2. Construcción de árbol de clasificación 2. Partir el nodo raíz. Objetivo: Seleccionar la mejor partición del nodo raíz entre todas las posibles. 2.1 Examinar todas las particiones de la forma donde: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  30. 2. Construcción de árbol de clasificación Por ejemplo, C = 1.1 Los prototipos para los que X1 < 1.1 van al nodo izquierdo, los otros, al derecho. Guardar la mejor partición, P.e. ¿X1 < 10.7? Partición asociada a ¿X1 < 1.1? 2.2 Repetir el proceso anterior para X2, X3, ..., X25 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  31. 2. Construcción de árbol de clasificación 2.3 Seleccionar la mejor partición entre las mejores de X1, X2, X3, ...,X25 P.e. ¿X8 < 3.2? Partición asociada a ¿X8 < 3.2? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  32. 2. Construcción de árbol de clasificación 3. Repetir el paso 2 para los nodos hijo. Por ejemplo, sea ¿X3 < -0.8? la mejor partición para el nodo izquierdo y ¿X1 < 17.9? la mejor para el derecho. Árbol resultante de partir el árbol anterior Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  33. 2. Construcción de árbol de clasificación * Los nodos 4 y 5 diferencian claramente las clases 2 y 1, respectivamente, mientras que en los nodos 6 y 7 se diferencian las clases 2 y 3, respectivamente. * Las particiones efectuadas han ido “definiendo” una clase mayoritaria en cada nodo resultante  han ido aumentando la pureza de los nodos. * Este proceso de división puede continuar para cada uno de los 4 nodos o, para cada caso, plantearse si debemos detenernos. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  34. 2. Construcción de árbol de clasificación 4. ¿Parada? • * Establecer el criterio de parada para obtener un buen árbol de decisión no es sencillo. • * Uno muy simple: un nodo se declarará terminal si la clase dominante tiene más del 60% de los prototipos asociados a ese nodo. • 4. N(4) = 78. 60% = 46.8. N2(4) = 53  Parar. • 5. N(5) = 83. 60% = 49.8. N1(5) = 51  Parar. • 6. N(6) = 45. 60% = 27.0. N2(6) = 25  Seguir. • 7. N(7) = 94. 60% = 56.4. N3(7) = 65  Parar. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  35. 2. Construcción de árbol de clasificación Los nodos 4, 5 y 7 se declaran nodos hoja Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  36. 2. Construcción de árbol de clasificación Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  37. 2. Construcción de árbol de clasificación A) Árbol resultado de partir el nodo 6. B) Final Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  38. 3. Selección de las particiones ¿De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada momento? • Una partición divide un conjunto de prototipos en conjuntos disjuntos. • Objetivo de una partición: Incrementar la homogeneidad (en términos de clase) de los subconjuntos resultantes que sean más puros que el conjunto originario. En CART: particiones binarias. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  39. 3. Selección de las particiones • Cada partición tiene asociada una medida de pureza: • - Para la selección de la mejor partición. • - Como criterio de parada (no es muy recomendable) • Puntos a estudiar: • - ¿Cómo se formulan las preguntas? • - ¿Qué partición es la mejor? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  40. 3.1 Formulación de la regla de partición ¿Cómo se formulan las preguntas? • Introducción. Sea Q el conjunto de preguntas binarias de la forma: El conjunto Q genera un conjunto de particiones s en cada nodo t. Un nodo t se particiona en tL y tR. - Los casos de t que verifican la condición ¿XA? se asignan al nodo izquierdo, tL, - Los casos de t que no verifican la condición se asignan a tR, Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  41. 3.1 Formulación de la regla de partición • Conjunto estándar de preguntas. 1. Cada partición depende de un único atributo. 2. Si Xi es un atributo categórico, que toma valores en {c1,c2,...,cL}, Q incluye las preguntas: donde C es un conjunto de entre los subconjutos de {c1,c2,...,cL}. P.e. Si X2 toma valores en {Rojo, Verde, Azul}, ¿X2 {Rojo}?, ¿X2{Verde}?, ¿X2{Azul}? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  42. 3.1 Formulación de la regla de partición 3. Si Xi es un atributo continuo, Q incluye las preguntas: donde v es valor real, teóricamente cualquiera. En CART, v es el punto medio de dos valores consecutivos de Xi P.e. Si X1 es real, con valores 0.1, 0.5, 1.0, ¿X1  (0.1 + 0.5)/2?, ¿X1  (0.5 + 1.0)/2? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  43. 3.2 Criterios de partición ¿Qué partición es la mejor? Cada partición tiene asociada una medida de pureza: Se trata de incrementar la homogeneidad de los subconjuntos resultantes de la partición  que sean más puros que el conjunto originario. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  44. 3.2 Criterios de partición • Función de impureza,  Una función  definida sobre J-uplas (c1,c2,...,cJ), tales que: a) cj  0 para j = 1,2,...,J y b) , con las siguiente propiedades i)  tiene un único máximo en (1/J, 1/J, ..., 1/J). ii)  alcanza su mínimo en (1,0,0,...,0), (0,1,0,...,0), ..., (0,0,0,...,1) y el valor mínimo es 0. iii)  es una función simétrica de c1, c2, ..., cJ Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  45. 3.2 Criterios de partición • Medida de impurezade un nodo, i(t) Dada una función de impureza , definamos la medida de impureza de cualquier nodo t, i(t), como: donde p(j|t) es la probabilidad de que un caso (prototipo) del nodo t sea de clase j. Empíricamente: la proporción de casos de clase j en el nodo t: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  46. 3.2 Criterios de partición Observar que: a) p(j|t)  0 b) i) Máxima impureza (resp. mínima pureza): cuando todas las clases están igualmente representadas en t. ii) Mínima impureza (resp. máxima pureza): cuando en t sólo hay casos de una sola clase. iii) Cualquier permutación de los cj produce el mismo resultado. P.e., para dos nodos tj  tk, i(tj) = (0.7, 0.2, 0.1) = (0.2, 0.1, 0.7) = i(tk) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  47. 3.2 Criterios de partición • Bondad de la partición s en un nodo t, (s,t) Para cualquier nodo t, supongamos la partición candidata s, que divide t en tL y tR, de forma que una proporción pL de los casos de t van a tL y una proporción pR van a tR: La partición s divide t en tL y tR Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  48. 3.2 Criterios de partición La bondad de la particiónsen un nodot, (s,t), se define como el decrecimiento en impureza conseguido con ella: Si conocemos cómo calcular i(t), para cada s podemos calcular (s,t) y seleccionar la mejor particións como la que proporciona la mayor bondad (s,t). Para establecer el efecto que produce la selección de la mejor partición en cada nodo sobre el árbol final necesitamos una medida de la impureza global del árbol. • Impureza de un árbol, I(T) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  49. 3.2 Criterios de partición Sea I(t) = i(t)p(t), donde p(t) es la probabilidad de que un caso cualquiera esté en el nodo t. La impureza del árbol T, se define como: donde es el conjunto de nodos terminales de T. La selección continuada de las particiones que maximizan i(s,t) es equivalente a seleccionar las particiones que minimizan la impureza global I(T). Esto significa que la estrategia de selección de la mejor partición en cada nodo conduce a la solución óptima considerando el árbol final Reconocimiento de Formas en Data Mining Prof: Héctor Allende

  50. 3.2 Criterios de partición • Criterios de medida de impureza * Medida de entropía. Se asume que 0 log0 = 0 * Índice de Gini. Mide la diversidad de clases en un nodo. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

More Related