Data mining utilizando SQL Server 2008 R2

GRUPO 4 Nicoletti, Mariela Quiroga, Cinthia Romero, Melisa Sgrinzi, agustina Data mining utilizando SQL Server 2008 R2 Sistemas de inteligencia de negocios y soporte de decisiones

Tabla de Contenidos

¿ Que es el data mining? • Es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos con el objetivo de encontrar patrones o tendencias, transformando los datos en conocimiento.

Fases del Proceso de Data mining

Fases del Proceso de Data mining I 1. Entendimiento del negocio • entender claramente los objetivos del negocio y asegurarse de conocer lo que el cliente realmente quiere lograr. • crear los objetivos de minería de datos para lograr el objetivo de negocio • establecer un plan de minería para lograr los objetivos empresariales y de minería de datos.

Fases del Proceso de Data mining II

Fases del Proceso de Data mining II 2. Entendimiento de los datos • se inicia con la recolección de datos iniciales de fuentes disponibles. • los datos obtenidos deben ser examinados cuidadosamente.

Fases del Proceso de Data mining III

Fases del Proceso de Data mining III 3. Preparación de los datos • Una vez que los datos están disponibles, estos necesitan ser seleccionados, depurados y estructurados. • La exploración de datos en mayor profundidad se debe llevar a cabo para identificar patrones en base a reglas de negocio.

Fases del Proceso de Data mining IV

Fases del Proceso de Data mining IV 4. Modelado • Las técnicas de modelado son seleccionadas para ser utilizadas por el conjunto de datos preparados. • uno o más modelos son creados con el conjunto de datos preparados mediante herramientas de modelado.

Fases del Proceso de Data mining V

Fases del Proceso de Data mining V 5. Evaluación • El modelo resultante debe ser evaluado en el contexto de los objetivos del negocio. • Adquirir conocimiento del negocio es un proceso iterativo en la minería de datos.

Fases del Proceso de Data mining VI

Fases del Proceso de Data mining VI 6. Implementación • El conocimiento que se obtiene a través del proceso de data mining se tiene que presentar de manera tal que los interesados puedan usarla cuando lo requieran. • El reporte final del proyecto necesita sumarizar las experiencias del proyecto para mejorarlo.

Extensiones de data mining • Web mining: consiste en aplicar las técnicas de minería de datos a documentos y servicios Web. Las herramientas de Web mining analizan y procesan los logs para producir información significativa. • Text mining: se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección.

¿Por qué usar Data Mining? • Proporciona un punto de encuentro entre los investigadores y las personas de negocios. • Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. • Contribuye a la toma de decisiones tácticas y estratégicas. • Permite a los usuarios dar prioridad a decisiones y acciones. • Proporciona poderes de decisión a los usuarios del negocio.

Herramientas para Data Mining en SQL Server 2008 R2

Herramientas para Data Mining en SQL Server 2008 R2 • Microsoft SQL Server AnalysisServices (SSAS) Proporciona a los usuarios una amplia gama de herramientas que puede utilizar para diseñar, crear y visualizar modelos de minería de datos: • Diseñador de Data Mining: Es el entorno primario en el que se trabaja con modelos de minería de Microsoft SQL Server AnalysisServices. • Lenguaje DMX: es una extensión del lenguaje SQL que permite crear y trabajar con modelos de minería de datos en SSAS.

Herramientas para Data Mining en SQL Server 2008 R2 • Algoritmos de Data Mining • Algoritmos de Clasificación • Algoritmos de Regresión • Algoritmos de Segmentación • Algoritmos de Asociación • Algoritmos de Análisis de Secuencia

Business IntelligenceDevelopment Studio • Es la IDE de Microsoft utilizada para el desarrollo de análisis de datos y soluciones de Business Intelligence. • Utiliza el Microsoft SQL Server AnalysisServices, ReportingServices e IntegrationServices.

Arquitectura del modelo de Data Mining Un modelo de minería de datos recibe los datos de una estructura de minería de datos y los analiza utilizando un algoritmo de minería de datos. • Los metadatos especifican el nombre del modelo y el servidor donde están almacenados, así como una definición del mismo. • Los resultados que están almacenados en el modelo varían dependiendo del algoritmo, pero pueden incluir patrones, conjuntos de elementos, reglas y fórmulas. • Los enlaces señalan a los datos almacenados en memoria caché en la estructura de minería de datos.

Caso de Estudio: Cáncer de mama. • El índice de superación de esta enfermedad depende de la fase en que se encuentra el tumor en el momento de su detección. • No existe indicios para determinar la presencia de este cáncer. • Otro inconveniente es determinar características necesarias para predecir, a partir de un conjunto de microcalcificaciones, si el paciente puede desarrollar la enfermedad.

Escenario • Basado en un estudio de investigación desarrollado en Wiscosin. • Pacientes vistos por el Dr. Woldberg desde 1984, se incluyen solo los que presentan cáncer de mama invasivo. • Cada núcleo de las células poseen 10 atributos que se representan en las tablas.

Datos de las tablas: Diagnóstico

Datos de las tablas: Pronóstico Mismos datos que la tabla Diagnóstico, excepto el atributo diagnóstico.

Escenario: Problemas encontrados • El cáncer de mama es un tema muy interesante pero fue necesario investigar sobre los términos médicos utilizados. • Importación de datos de la tabla

Metodología Para el desarrollo de este informe se utilizaron dos de los algoritmos que ofrece SQL Server 2008: • Algoritmo de árboles de decisión. • Algoritmo de regresión logística.

Algoritmo de árboles de decisión I • Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual es una decisión que es tomada a partir de las entradas. • Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos (clasificación) o continuo (regresión).

Algoritmo de árboles de decisión II Nodo Hoja Nodos internos

Algoritmo de Regresión Logística • Es usada extensamente en las ciencias médicas y sociales. • Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de máxima entropía.

Algoritmo de Regresión Logística Objetivos de la regresión logística • Investigar como influyen en la probabilidad de ocurrencia de un suceso, la presencia de diversos factores • Determinar el modelo más apropiado

Algoritmo de Regresión Logística Algoritmo de regresión logística de Microsoft • Es una variación del algoritmo de red neuronal de Microsoft. La regresión logística es una técnica estadística conocida que se usa para modelar los resultados binarios, como los resultados sí-no.

Data mining utilizando SQL Server 2008 R2

Data mining utilizando SQL Server 2008 R2

Presentation Transcript

Introducing Microsoft SQL Server 2008 R2

SQL Server 2008 R2 Manageability

SQL Server 2008 R2 Update for Developers Part II – Introducing SQL Server 2008 R2

SQL Server 2008 R2 Overview

Microsoft SQL Server 2008 R2

SQL Server 2008 R2 for Developers

Microsoft SQL Server 2008 R2 Security Overview

Microsoft SQL Server 2008 R2

SQL Server 2008 R2 StreamInsight

SQL Server 2008 R2 REPORTING SERVICES

Data Mining in SQL Server 2008

SQL Server Data Mining

SQL201 - Microsoft SQL Server 2008 R2

SQL Server 2008 R2 Data Warehousing

SQL Server 2008 R2 – новые возможности

Using SQL Server Data Mining

Géospatial et SQL Server 2008 R2

SQL Server 2008 R2

Нововведения в SQL Server 2008 и SQL Server 2008 R2

Введение в SQL Server 2008 R2 Master Data Services

SQL Server 2008 R2 Reporting Services

SQL Server 2008 R2