1 / 60

Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informáti

Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008. Índice. Introducción Preprocesado Modelos descriptivos Modelos predictivos Validación. Índice. Introducción Preprocesado Modelos descriptivos

lee
Download Presentation

Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informáti

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008

  2. Índice • Introducción • Preprocesado • Modelos descriptivos • Modelos predictivos • Validación

  3. Índice • Introducción • Preprocesado • Modelos descriptivos • Modelos predictivos • Validación

  4. Aproximación • Una visión simplificada de la minería de datos • Los “modelos” son el producto de la minería de datos... • ...y dan soporte a las estrategias de decisión que se tomen Datos Minería de datos Modelos

  5. Modelos descriptivos:identifican patrones que explican o resumen los datos Reglas de asociación: expresan patrones de comportamiento en los datos Clustering: agrupación de casos homogéneos Modelos predictivos:estiman valores de variables de interés (a predecir) a partir de valores de otras variables (predictoras)‏ Regresión: Variable a predecir continua Clasificación supervisada: Variable a predecir discreta Datos y Modelos => Conocimiento • Los datos se obtienen de: • Bases de datos (relacionales, espaciales, temporales, documentales, multimedia, etc)‏ • World Wide Web

  6. Definiciones • Data Mining (Minería de datos)‏ • Proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten and Frank, 2000)‏ • Knowledge Discovery in Databases - KDD (Descubrimiento de Conocimiento en Bases de Datos)‏ • Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles, a partir de los datos (Fayyad y col. 1996)‏

  7. Estadística vs Minería de datos

  8. OLAP vs Minería de datos • OLAP (On Line Analytical Processing) o FASMI (Fast Analysis of Shared Multidimensional Information)

  9. Aplicaciones • Financieras • Comercio • Seguros • Educación • Medicina • Bioinformática • Otras áreas

  10. Ejemplo (I)‏ Agente comercial: ¿Debo conceder una hipoteca a un cliente? Datos: Modelo generado: Minería de datos If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes

  11. Ejemplo (II)‏ Supermercado: ¿Cuándo los clientes compran huevos, también compran aceite? Datos: Modelo generado: Minería de datos Eggs -> Oil: Confianza = 75%, Soporte = 37%

  12. Ejemplo (III)‏ Gestión de personal de una empresa: ¿Qué clases de empleados hay contratados? Datos: Modelo generado: Minería de datos Grupo 1: Sin niños y en una casa alquilada. Bajo número de uniones. Muchos días enfermos Grupo 2: Sin niños y con coche. Alto número de uniones. Pocos días enfermos. Más mujeres y en una casa alquilada Grupo 3: Con niños, casados y con coche. Más hombres y normalmente propietarios de casa. Bajo número de uniones

  13. Ejemplo (IV)‏ Tienda de TV: ¿Cuántas televisiones planas se venderán el próximo mes? Datos: Modelo generado: Minería de datos Modelo lineal: número de televisiones para el próximo mes V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder – 0.05

  14. CRISP-DM

  15. KDD • La minería de datos se encuadra dentro de un proceso mucho mayor conocido como KDD (Knowledge Discovery from Databases)‏ • Fases del proceso iterativo e interactivo • Integración y recopilación de datos • Selección, limpieza y transformación • Minería de datos • Evaluación e interpretación • Difusión y uso

  16. KDD – Knowledge Discovery in Databases

  17. Fase 1 • Integración y recopilación de datos • Decisiones estratégicas basadas en el análisis, la planificación y la predicción: datos en varios departamentos • Cada fuente de datos distintos formatos de registro, diferentes grados de agregación, diferentes claves primarias, .... • Integración de múltiples bases de datos: almacenes de datos (data warehousing)‏ • Almacén de datos aconsejable cuando el volumen de información es grande. No estrictamente necesario (archivos de texto, hojas de cálculo, ...)‏

  18. Fase 2 • Selección, limpieza y transformación • Calidad del conocimiento descubierto depende (además del algoritmo de minería) de la calidad de los datos analizados • Presencia de datos que no se ajustan al comportamiento general de los datos (outliers)‏ • Presencia de datos perdidos (missing values)‏ • Selección de variables relevantes (feature subset selection)‏ • Selección de casos aleatoria en bases de datos de tamaño ingente • Construcción de nuevas variables que faciliten el proceso de minería de datos • Discretización de variables continuas

  19. Fase 3 • Minería de datos • Modelos descriptivos • Reglas de asociación • Clustering • Modelos predictivos • Regresión: regresión lineal, regresión logística • Clasificación supervisada: clasificadores Bayesianos, redes neuronales, árboles de clasificación, inducción de reglas, K-NN, combinación de clasificadores

  20. Fase 4 • Evaluación e interpretación • Técnicas de evaluación: validación simple (training + test), validación cruzada con k-fold, bootstrap • Reglas de asociación: cobertura (soporte), confianza • Clustering: variabilidad intra y entre • Regresión: error cuadrático medio • Clasificación supervisada: porcentaje de bien clasificados, matriz de confusión, análisis ROC • Modelos precisos, comprensibles (inteligibles) e interesantes (útiles y novedosos)‏

  21. Fase 5 • Difusión y uso • Difusión: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organización • Medir la evolución del modelo a lo largo del tiempo (patrones tipo pueden cambiar)‏ • Modelo debe cada cierto tiempo de ser: • Reevaluado • Reentrenado • Reconstruido

  22. Herramientas • Weka, Clementine, etc. • Knime. KoNstanz Information MinEr • Flujo de datos utilizando nodos • Conexión con otras aplicaciones • Ampliación de nodos

  23. Knime

  24. Índice • Introducción • Preprocesado • Modelos descriptivos • Modelos predictivos • Validación

  25. Datos • La parte más importante de la minería de datos, son precisamente, los datos • Además de su obtención, uno de los pasos más importantes es el preprocesado • Diversas técnicas según la necesidad

  26. Obtención de datos en Knime

  27. Representación de datos en Knime

  28. Missing values • Es posible que los métodos a utilizar no traten bien los campos con valores faltantes (missing values)‏ • Hay que detectarlos y tratarlos • Ignorar, eliminar columna, filtrar fila, reemplazar el valor, etc.

  29. Missing values en Knime

  30. Discretización • Consiste en la conversión de un valor numérico en un valor nominal ordenado que representa un intervalo • En ciertas técnicas de clasificación es necesario que todos los datos sean discretos

  31. Discretización en Knime

  32. Numerización • Es el proceso inverso a la discretización • Pasar valores nominales a numéricos • Es menos común • Hay dos tipos: • Numerización 1 a n • Numerización 1 a 1

  33. Numerización en Knime

  34. Índice • Introducción • Preprocesado • Modelos descriptivos • Modelos predictivos • Validación

  35. Tareas descriptivas • Agrupamiento (clustering)‏ • Correlaciones y factorizaciones • Reglas de asociación • Dependencias funcionales • Detección de valores e instancias anómalas

  36. Tabla de métodos

  37. Clasificación no supervisada • Datos: parte de un conjunto de datos u objetos cada uno caracterizado por varias variables • Se trata de obtener grupos de objetos

  38. Clustering • Dados unos datos sin etiquetar, el objetivo es encontrar grupos naturales de instancias a) Particional b) Jerárquico

  39. Tipos de clustering • Clustering particional • Partición de los objetos en grupos o clusters. Todos los objetos pertenecen a alguno de los k clusters, los cuales son disjuntos. Problema => elección de k • Clustering ascendente jerárquico • Crear un dendograma, es decir, crear un conjunto de agrupaciones anidadas hasta construir un árbol jerárquico

  40. K-medias • Método más utilizado de clustering particional • La idea es situar los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan características similares • Los datos se asignan a cada centro según la menor distancia, normalmente usando la distancia euclídea • Una vez introducidos todos los datos, se desplazan los prototipos hasta el centro de masas de su nuevo conjunto, esto se repite hasta que no se desplazan más.

  41. K-medias en Knime

  42. Jerárquico • Dependiendo de la manera de construir el árbol: • Aglomerativos: hojas -> raíz • Divisivos: raíz -> hojas • Dependiendo de cómo se calcule la distancia de enlace entre grupos: • Enlace simple • Enlace completo • Enlace en la media

  43. Clustering jerárquico en Knime

  44. Índice • Introducción • Preprocesado • Modelos descriptivos • Modelos predictivos • Validación

  45. Tareas predictivas • Clasificación • Clasificación suave • Estimación de probabilidad de clasificación • Categorización • Preferencia o priorización • Regresión

  46. Tabla de métodos

  47. Clasificación supervisada • Datos: N objetos con n+1 variables (n predictoras + clase)‏ • Inducir automaticamente un modelo clasificatorio

  48. Paradigmas de clasificación supervisada • Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984)‏ • Clasificadores k–NN (Covert y Hart, 1967; Dasarathy, 1991)‏ • Regresion logística (Hosmer y Lemeshow, 1989) • Métodos Bayesianos (Mitchell, 1997)‏ • Sistemas clasificadores (Holland, 1975)‏ • Redes neuronales (McCulloch y Pitts, 1943)‏ • Inducción de reglas (Clark y Nibblet, 1989; Cohen, 1995; Holte, 1993)‏ • Máquinas de soporte vectorial (Cristianini y Shawe–Taylor, 2000)‏ • Análisis discriminante (Fisher, 1936)‏

  49. Árboles de clasificación • Método más facil de utilizar y de entender • Conjunto de condiciones organizadas en una estructura jerárquica • Las opciones posibles a partir de una condición son excluyentes • ID3, C4.5, C5.0, CART, etc.

  50. Métodos bayesianos • Basados en la teoría de la probabilidad (teorema de Bayes)‏ • Naïve Bayes es el clasificador principal • Uso de redes bayesianas • Se usan en tareas descriptivas y predictivas

More Related