1 / 113

Data Mining, OLAP y Data Warehousing

Data Mining, OLAP y Data Warehousing. Contenidos. Sistemas de ayuda a la toma de decisiones Análisis de datos y Procesamiento analítico en línea (OnLine Analytical Processing – OLAP) Recopilación de datos Almacenamiento de datos Sistemas de recuperación de la información. Introducción.

tayte
Download Presentation

Data Mining, OLAP y Data Warehousing

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining, OLAP y Data Warehousing

  2. Contenidos • Sistemas de ayuda a la toma de decisiones • Análisis de datos y Procesamiento analítico en línea (OnLine Analytical Processing – OLAP) • Recopilación de datos • Almacenamiento de datos • Sistemas de recuperación de la información

  3. Introducción • Los Sistemas de Bases de Datos son desarrollados con una aplicación específica en mente, con el objetivo de soportar las actividades de operación diaria en dicha aplicación. • Los DBMS’s han sido diseñados para administrar las actividades operativas diarias a través del almacenamiento de los datos que requieren de una manera consistente basado en un modelo de datos, y optimizando sus operaciones de consulta y actualización para un performance de alto nivel. • Debido a que dichas actividades diarias, son en efecto interactivas, este tipo de DBMS’s son llamados “on-line transaction processing systems ” (OLTP), o sistema de procesamiento de transacciones en línea.

  4. Introducción • El objetivo de los sistemas OLTP es soportar las decisiones del día-a-día a un gran número de usuarios operacionales. • Sin embargo existe también la necesidad de soportar el análisis y toma de decisiones estratégicas de un número pequeño de usuarios gerenciales. • Por ejemplo, después de una campaña de marketing, un gerente puede determinar su efectividad analizando el comportamiento de las ventas antes y después de la campaña.

  5. Introducción • Más allá, un ejecutivo puede analizar el comportamiento de las ventas para pronosticar las ventas de sus productos y planificarlas de acuerdo a los pedidos y capacidades de almacenamiento disponibles. • Por ejemplo, identificando la temporada pre-escolar y las tendencias de los mercados locales, los gerentes de tiendas pueden ordenar y presentar en las vitrinas aquellos productos escolares que están siendo solicitados a los estudiantes y sus familias en las escuelas locales. • La otra alternativa, ordenar masivamente todo tipo de productos y luego devolver aquellos que no son vendidos o rentables, parece poco eficiente frente a la anterior. • Este tipo de procesos analíticos en línea - “on-line analytical processing” (OLAP), pueden ser potenciados por herramientas de exploración de datos basadas en técnicas de “Data mining”.

  6. Introducción • Las herramientas de Data Mining descubren nuevos patrones o reglas que no necesariamente pueden ser obtenidas a través del mero procesamiento de querys. Ellas utilizan técnicas de aprendizaje denominadas AI Machine learning techniques, que automáticamente clasifican los datos en diferentes grupos basados en diferentes criterios. • Por ejemplo, es posible a partir de datos de ventas de productos, derivar una regla que identifique que el cliente que compra el Domingo antes de las 11 AM y compra leche, también comprará el diario y un chocolate. De esta forma, cuando un gerente de una tienda desea promover un chocolate en especial, puede utilizar la regla anterior y colocar los chocolates al lado del stand del diario.

  7. Introducción • OLAP y Data Mining NO involucran modificaciones a los datos, y requieren acceso ad-hoc a todos los datos de la organización, tanto actuales como históricos. • Esto conlleva a la necesidad de nuevos modelos de datos para la organización y almacenamiento de datos históricos, modelos que optimizan el procesamiento de consultas en vez de transacciones. • Los Data Warehouses extienden las tecnologías de bases de datos para integrar datos desde múltiples fuentes y organizarlos eficientemente para el procesamiento de querys y su presentación.

  8. Definiciones de Minería de Datos • Es la exploración automática o semiautomática de grandes cantidades de datos para el descubrimiento de reglas y patrones. • Proceso iterativo de detección y extracción de patrones a partir de grandes bases de datos, modelo de reconocimiento. • Es el análisis de un conjunto de datos para encontrar relaciones desconocidas y resumir los datos de nuevas formas entendibles para el minero. • Es el proceso analítico, por medio del cual se extrae información oculta de grandes cantidades de datos siendo muy útil para predecir futuros comportamientos y tendencias.

  9. ETAPAS DE LA MINERÍA DE DATOS • Determinación de los objetivos. • Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. • Preprocesamiento de los datos. • Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. • Determinación del modelo. • Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. • Análisis de los resultados. • Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

  10. Aplicaciones de la Minería de Datos • Sistemas automáticos de control de calidad que discriminan los productos defectuosos con un alto grado de precisión. • El control de calidad no sólo se debe hacer al final del proceso, no resulta fácil medir las variables que determinen calidad, es necesario utilizar técnicas de minería de datos para descubrir relaciones que permitan detectar fallos.

  11. Aplicaciones de la Minería de Datos • Resistencia de materiales. • Programas de mantenimiento predictivo (calendario de reparaciones). • Campañas de mercadero, es posible llegar a una mayor cantidad de clientes. • Fidelización de clientes, conseguir uno nuevo o recuperar un cliente es más costoso.

  12. Aplicaciones de la Minería de Datos • Grupo 1: con hijos, casados, con casa propia mayoritariamente mujeres, no tienen llamadas de atención • Grupo 2: con salario relativamente alto, no tiene casa propia, hombres con auto, tienen llamadas de atención. • La empresa puede decidir contratar sólo mujeres para cargos que demanden mayor responsabilidad

  13. Aplicaciones de la Minería de Datos • De acuerdo a las ventas del año pasado se puede armar un modelo predictivo para mantener stock del presente año. • Servicios de mercadeo como ubicación de productos.

  14. Aplicaciones de la Minería de Datos • Para el FBI analizar las bases de datos comerciales para detectar terroristas. Departamento de Justicia debe introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI uniría todas las bases de datos y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra

  15. Aplicaciones de la Minería de Datos • En la empresa Detección de fraudes en las tarjetas de crédito. Examinar transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio para detectar fraudes en tarjetas de crédito, luego incorporar las tarjetas comerciales, de combustibles y de débito. Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil. Este estudio fue desarrollado en una operadora española que básicamente situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se dan de baja y la predicción del comportamiento de sus nuevos clientes. los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones más importantes radicó en el hecho de que los clientes que se daban de baja recibían pocas promociones y registraban un mayor número de incidencias respecto a la media.

  16. Aplicaciones de la Minería de Datos • En la Universidad Conociendo si los recien titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de dónde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad.

  17. Aplicaciones de la Minería de Datos • El AC de Milan utiliza un sistema inteligente para prevenir lesiones. El club usa redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato.

  18. Aplicaciones de la Minería de Datos • Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (doublé team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película.

  19. Aplicaciones de la Minería de Datos • Genética En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial"

  20. Fases de Descubrimiento de Conocimiento Conocimiento Interpretación del Conocimiento Data Mining Tareas Relevantes Transformación de datos Datos Preprocesados Selección Limpieza de datos Integración de datos Bases de Datos

  21. Proceso de KDD Ejemplo: Web Log • Selección: • Seleccionar los archivos log data (fechas y ubicaciones). • Preprocesamiento: • Borrar URLs de identificación • Borrar log de error • Transformación: • Ordenar y agrupar. • Data Mining: • Identificar y contarpatrones. • Construirestructura de datos. • Interpretación/Evaluación: • Identificar y mostrarsecuencias de accesofrecuentes. • AplicacionesPotencialespara el usuario: • Predicciones de Cache • Personalización.

  22. Medidas de Similitud • Clustering Jerárquico • Consultas Imprecisas • Datos Textuales • Motores de Búsqueda Web • Modelo Relacional • SQL • Algoritmos y Reglas de Asociación • Data Warehousing • Técnicas de Escalabilidad • Bayes • Análisis de Regresión • Algoritmo EM • K-Means • Series de Tiempos DATA MINING • Técnicas de Diseño de Algoritmos • Análisis de Algoritmos • Estructuras de Datos • Redes Neuronales • Ärboles de Decisión

  23. Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del esfuerzo total del proceso de KDD. El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: • Determinar las fuentes de información: que pueden ser útiles y dónde conseguirlas. • Diseñar el esquema de un almacén de datos (Data Warehouse): que consiga unificar de manera operativa toda la información recogida. • Implantación del almacén de datos: que permita la navegación y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo. • Selección, limpieza y transformación de los datos que se van a analizar: la selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos).La limpieza y preprocesamiento de datos se logra diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.

  24. Seleccionar y aplicar el método de minería de datos apropiado: esto incluye la selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc. La selección de él o de los algoritmos a utilizar. La transformación de los datos al formato requerido por el algoritmo específico de minería de datos. Y llevar a cabo el proceso de minería de datos, se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su función (clasificación) y de su forma de representarlo (árboles de decisión, reglas, etc.), se tiene que especificar un criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene que especificar la estrategia de búsqueda a utilizar (normalmente está predeterminada en el algoritmo de minería).

  25. Evaluación, interpretación, transformación y representación de los patrones extraídos: Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes irrelevantes. • Difusión y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. El conocimiento se obtiene para realizar acciones, ya sea incorporándolo dentro de un sistema de desempeño o simplemente para almacenarlo y reportarlo a las personas interesadas. En este sentido, KDD implica un proceso interactivo e iterativo involucrando la aplicación de varios algoritmos de minería de datos.

  26. Disciplinas Relacionadas • La estadística, junto con el aprendizaje computacional es considerada como el corazón de la minería de datos; proporciona métodos relacionados con la toma, organización, recopilación, presentación y presentación de datos: análisis de varianza, series de tiempo, prueba chi cuadrado, análisis discriminante, media, moda, desviación estándar, mediana, etc. • Aprendizaje computacional: redes neuronales, algoritmos genéticos, árboles de inducción, etc. • Bases de Datos y Almacenes de Datos (dataware house): bases de datos, archivos excel, imágenes, etc. • Sistemas de soporte a la toma de decisiones.

  27. Inteligencia Artificial (“Machine Learning”) Estadística Minería de datos Bases de Datos (VLDB) Ciencias de la información Graficación y visualización Otras disciplinas

  28. Mineria de Datos como Subconjunto de la Inteligencia de Negocios

  29. Conceptos Relacionados • Clasificación: incluye los procesos de minería de datos que buscan reglas para definir si un ítem o un evento pertenecen a un subset particular o a una clase de datos. Esta técnica, probablemente la más utilizada, incluye dos subprocesos: • la construcción de un modelo • la predicción. En términos generales, los métodos de clasificación desarrollan un modelo compuesto por reglas IF-THEN y se aplican perfectamente, por ejemplo, para encontrar patrones de compra en las bases de datos de los clientes y construir mapas que vinculan los atributos de los clientes con los productos comprados.

  30. Conceptos Relacionados • Asociación: incluye técnicas conocidas como linkage analysis, utilizadas para buscar patrones que tienen una probabilidad alta de repetición, como ocurre al analizar una canasta en la búsqueda de productos afines. Se desarrolla un algoritmo asociativo que incluye las reglas que van a correlacionar un conjunto de eventos con otro. Por ejemplo, un supermercado podría necesitar información sobre hábitos de compra de sus clientes. • Secuencia: los métodos de análisis de series de tiempo son usados para relacionar los eventos con el tiempo. Como resultado de este tipo de modelo se puede aprender que las personas que alquilan una película de video tienden a adquirir los productos promocionales durante las siguientes dos semanas; o bien, que la adquisición de un horno de microondas se produce frecuentemente luego de determinadas compras previas.

  31. Cluster: Muchas veces resulta difícil o imposible definir los parámetros de una clase de datos. En ese caso, los métodos de clustering pueden usarse para crear particiones, de forma tal que los miembros de cada una de ellas resulten similares entre sí, según alguna métrica o conjunto de métricas. • El análisis de clusters podría utilizarse, entre otras aplicaciones, al estudiar las compras con tarjetas de crédito, para descubrir—digamos—que los alimentos comprados con una tarjeta dorada de uso empresarial son adquiridos durante los días de semana y tienen un valor promedio de ticket de 152 pesos, mientras que el mismo tipo de compra, pero realizado con una tarjeta platino personal, ocurre predominantemente durante los fines de semana, por un valor menor, pero incluye una botella de vino más del 65 % de las veces

  32. Grupos de Técnicas Principales • Visualización. - Ayudas para el descubrimiento manual de información. - Se muestran tendencias, agrupamientos de datos, etc. - Funcionamiento semi-automático.

  33. Verificación. Se conoce de antemano un modelo y se desea saber si los datos disponibles se ajustan a él. Se establecen medidas de ajuste al modelo.

  34. Descubrimiento. - Se busca un modelo desconocido de antemano. - Descubrimiento descriptivo: se busca modelo legible. - Descubrimiento predictivo: no importa que el modelo no sea legible.

  35. Sea como sea la presentación del problema, una de las características presente en cualquier tipo de aprendizaje y en cualquier tipo de técnica de Minería de Datos es su carácter hipotético, es decir, lo aprendido puede, en cualquier momento, ser refutado por evidencia futura. • En muchos casos, los modelos no aspiran a ser modelos perfectos, sino modelos aproximados. En cualquier caso, al estar trabajando con hipótesis, es necesario realizar una evaluación de los patrones obtenidos, con el objetivo de estimar su validez y poder compararlos con otros. Por tanto, la Minería de Datos, más que verificar patrones hipotéticos, usa los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo.

  36. PREPROCESAMIENTO DE DATOS Las organizaciones manejan gran variedad de información las cuales están llenas de datos erróneos, faltantes, en diversos formatos, etc. Los que se convierte en un problema para realizar un buen análisis. De este problema se deriva el concepto “calidad de datos”. El preprocesamiento de datos suele ser una necesidad para aplicaciones reales, engloba a todas aquellas ténicas de análisis que permiten mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento puedan obtener mayor y mejor información. El objetivo es transformar el conjunto de datos haciendo que la información sea más accesible y coherente

  37. RECOLECCIÓN E INTEGRACIÓN • MODELOS DE DATOS MULTIDIMENSIONALES

  38. Qué es un Data Warehouse ? • Una de las mejores definiciones de Data warehouse fue propuesta por Inmon cuando él introdujo el término en 1992: • Un data warehouse es una colección de datos para el soporte de decisiones estratégicas, orientado a la temática (subject-oriented), integrada, no-volátil, y variante en el tiempo (time-variant). • Colección Orientada a la temática (subject-oriented): significa que la data es organizada alrededor de temáticas tales como clientes, productos, ventas, etc. • En base de datos, en contraste, los datos son organizados alrededor de tareas. • Por ejemplo, usamos una base de datos para el almacenamiento de ordenes de compra y adquisiciones de productos. Usamos un Data Warehouse para almacenar resúmenes de la información detallada basada en temáticas.

  39. Qué es un Data Warehouse ? • Un resumen puede ser obtenido a través del uso de funciones agregadas combinadas con cláusulas GROUP BY. • Por Ejemplo, un resumen alrededor de un producto pueden ser las ventas por producto: • SELECT Producto, SUM(Total) • FROM NotaVenta • GROUP BY Producto • Y un resumen en torno a una venta pueden ser las ventas diarias: • SELECT Dia, SUM(Total) • FROM OrdenCompra • GROUP BY Dia

  40. Qué es un Data Warehouse ? • Colección Integrada: significa que un data warehouse integra y almacena datos desde múltiples fuentes, no todas necesariamente son bases de datos, una fuente de datos puede ser también un archivo de aplicación. • Nótese que no hablamos de un sistema de integración que permite acceso a datos en bases de datos heterogeneas (multi-database system), sino que un datawarehouse almacena la información recolectada, después que esta es “limpiada” (cleaned), removiendo inconsistencias tales como formatos diferentes o valores erróneos. • De esta forma, la data residente en el data warehouse es presentada a los usuarios con una vista unificada consistente.

  41. Qué es un Data Warehouse ? • Colección no-volátil: significa que el data warehouse no es actualizado en tiempo real (en coordinación con las fuentes). Las actualizaciones en las fuentes son agrupadas y aplicadas por una transacción de mantenimiento. Las transacciones de mantenimiento se ejecutan periódicamente o en función de la demanda. • Colección variante en el tiempo (time-variant): significa que los datos en un data warehouse son históricos y tienen validez temporal. Esto claramente muestra que un data warehouse debe soportar series de tiempo.

  42. Arquitectura de un Data warehouse

  43. Modelamiento Multidimensional • El modelo relacional utilizado para estructurar bases de datos fue diseñado para el procesamiento de transacciones, aunque puede ser utilizado para soportar eficientemente el procesamiento de querys ad-hoc, no provee de una herramienta intuitiva de manipulación de los datos y reportes, según lo requerido por OLAP. • Consideremos datos de series de tiempo. Una forma intuitiva de reportearlos sería plotearlos en un gráfico y guardarlos en una matriz de dos o más dimensiones. Este tipo de representación de los datos es llamada modelamiento multidimensional.

  44. Modelamiento Multidimensional • Los modelos multidimensionales almacenan los datos en matrices multidimensionales. Las matrices tri-dimensionales (3-d) son llamadas cubos de datos (data cubes), y las matrices con más de 3 dimensiones son llamadas hipercubos (hypercubes). • Como ejemplo de un cubo, consideremos las dimensiones periodo, producto y región • Como lo mencionamos anteriormente, podemos usar una matriz 2-d (planilla) para representar ventas regionales para un grupo de periodos: • | R1 R2 R3 ... • -----|-------------------> Region • P1 | • P2 | • P3 | • . | • . | • V • Product

  45. Modelamiento Multidimensional • Esta planilla puede ser convertida a un cubo agregando la dimensión tiempo, como por ejemplo, intervalos mensuales:

  46. Modelamiento Multidimensional • Visualizar un cubo de datos es tan fácil como usar un gráfico 3d o visualizar planillas en tablas 3d. • Visualizar hipercubos es bastante complejo, por lo anterior estos normalmente son descompuestos en cubos al momento de visualizarlos. • El procesamiento de querys en cubos o hipercubos es más rápido y eficiente que en un modelo relacional. Un query es básicamente transformado en una operación de lectura de elementos de una matriz. La data puede ser consultada directamente en cualquier combinación de dimensiones.

  47. Arquitectura de un Almacén de Datos • Componentes: • Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del AD, realizando: • extracción de los datos. • filtrado de los datos: limpieza, consolidación, etc. • carga inicial del almacén: ordenación, agregaciones, etc. • refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos • Repositorio Propio de Datos: información relevante, metadatos. • Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). • Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...

  48. Marca Tiempo Descripción Semana Producto Categoría Departamento Mes Trimestre Nro_producto Día Ventas Año Tipo importe unidades Almacén Ciudad Tipo Almacén Región Arquitectura de un Almacén de Datos

  49. Tiempo Producto Ventas importe unidades Actividad que es objeto de análisis con los indicadores que interesa analizar Almacén Arquitectura de un Almacén de Datos Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Semana Descripción Categoría Mes Departamento Trimestre Día Nro_producto Año Tipo Almacén Ciudad Tipo Región

More Related