370 likes | 587 Views
CAPITULO 4. ADMINISTRACION DE DATOS: WAREHOUSING (ALMACEN), ACCESO Y VISUALIZACION. Contenido del Cap í tulo 4. 4.1 Caso de estudio: El Almacenaje de los datos y DSS en la Cooperativa de Salud De grupo 4.2 Warehousing (almacen), Acceso, An á lisis y Visualizaci ó n
E N D
CAPITULO 4. ADMINISTRACION DE DATOS: WAREHOUSING (ALMACEN), ACCESO Y VISUALIZACION
Contenido del Capítulo 4 • 4.1 Caso de estudio: El Almacenaje de los datos y DSS en la Cooperativa de Salud De grupo • 4.2 Warehousing (almacen), Acceso, Análisis y Visualización • 4.3 La Naturaleza y Fuentes de Datos • 4.4 Colecciones de datos y Problemas de los Datos • 4.5 El Internet y los Servicios de bases de datos Comerciales • 4.6 Sistemas de Administración de datos en DSS • 4.7 Estructura y organización de Bases de Datos • 4.8 Warehousing • 4.9 OLAP: Acceso y Minería de datos, Consulta, y Análisis • 4.10 Visualización y Multidimensionamiento de datos • 4.11 Bases de datos inteligentes y Minería de datos • 4.12 El esquema completo
4.1 CASO DE ESTUDIO: EL ALMACEN DE DATOS (WAREHOUSING) Y DSS EN LA COOPERATIVA DE SALUD DE GRUPO • La Cooperativa de Salud de grupo es un HMO no lucrativo grande radicado en Seattle, Washington. • Tiene hospitales, contratos con instituciones, y actua como aseguradora • Mensualmente se procesa un flujo de 2 a 3 millones de registros. • Antes del uso de DSS, los costos estaban en aumento, los servicios eran ineficaces, y el uso de recursos y la calidad de los servicios eran malos. • El desarrollo de un DSS permitiría que la toma de decisiones en base a datos sea efectiva y eficiente. • La idea central fue crear un Warehouse (almacén de datos) que apoyaría al DSS.
Este almacén de datos relaciona datos de costos, eficiencia en el uso de recursos, gastos, y estado de los servicios de salud en un extenso sistema de información corporativo. • La información provino de aplicacionesexistentes (TPS) como registros clínicos, laboratorio y farmacia. • El sistema fue iniciado en 1989 y constantemente es actualizado y mejorado.
Algunos reportes que genera el DSS: • Reportes de población organizados por clínica y por práctica • Reportes de productividad • Reportes de administración del aprovechamiento • Reportes organizados por grupos consumidores y grupos que aportan recursos • Reportes estadísticos, por grupos de edad ogénero
El almacén de los datos también se usa por muchas aplicaciones DSS, EIS, y MIS para: • Bajar costos de los servicios a los pacientes • Análisis de costos para contestar preguntas como ¿en qué forma afecta la reducción de costos en un área afecta los costos en otras? • Comparaciones de costos para negociar precios con socios de negocios. • Contar con un extenso sistema de consulta • Creación de un EIS para monitorear indicadores clave como costo por paciente diario en un hospital
Algunos beneficios importantes: • El número de días de hospitalizaciónfue reducido en 7 porciento al enviar pacientes a servicios ambulato- rios, resultando en millones de dólares de ahorro. • Se cerró un contrato militar valorado en 1 billón de dólares, en un período de 5 años. La base de datos para este cliente se creó en 2 días debido a que se extrajo del almacén de datos existente. • Cada Grupo de Clientes obtiene reportes a la medida.
4.2 ALMACENAMIENTO de DATOS (WAREHOUSING), ACCESO, ANALISIS, Y VISUALlZACION • En el caso de estudio la información necesaria era dificil de accesar debido a que estaba en diferentes configuraciones de software y hardware. • Con una base de datos centralizada que recolectaba información de las diferentes fuentes y la organizaba, se facilitó su acceso por las aplicaciones DSS y EIS. • La actualización, recuperación, uso, y borrado de esta información llega a ser muy complicado mientras la cantidad aumenta. • La carga excesiva de información está amenazando con ahogar a las organizaciones. • Una solución al problema se encuentra en el concepto de almacenaje de datos (Warehousing) y los temas relacionados de acceso de los datos y minería de datos, procesamiento analítico en línea (OLAP), y visualización de datos.
Relación entre los conceptos de Almacenaje de Datos (Warehousing) y Procesamiento Analítico en Línea (OLAP)
4.3 LA NATURALEZA Y FUENTES DE LOS DATOS Todos los sistemas para la toma de decisiones usan: • Datos. Elementos de datos acerca de cosas, eventos, actividades, y transacciones no organizados para comunicar algo específico. • Información. Son datos que han sido organizados de manera que tiene un significado para el que la recibe. El receptor interpreta el significado y saca deducciones y conclusiones. • Conocimiento. Elementos de datos que son organizados y procesados para llevar a un entendimiento, experiencia, aprendizaje acumulado, y especialización aplicados a un problema o actividad.
Los datos DSS pueden incluir documentos, imágenes, mapas, sonido, animaciones, conceptos, pensamientos, opiniones. DSS usan información resumida o extraída que proviene de tres fuentes principales: • Interna. Propia de la organización (personas, productos, servicios y procesos, disponible a través de su sistema de red. • Externa.Cámaras de comercio, internet, gobierno, bancos, instituciones de investigación. Hay una sobrecarga de información externa. Debe ser tomada en cuenta para asegurar que no se omitió información importante. • Personal. Empleados pueden contribuir con su experiencia aportando estimaciones subjetivas de ventas, opiniones acerca de lo que los competidores.
4.4 RECOLECCION Y PROBLEMAS CON LOS DATOS Métodos para Coleccionar Datos Crudos (Raw Data) Manualmente • Observaciones, • Encuestas, • Entrevistas a expertos Por instrumentos y sensores. • El uso de sensores y escáneres ha ido en aumento
Problemas con los Datos Problema Datos Incorrectos Causa Típica Info. bruta no se capturó apropiadamente. Los datos fueron genera-dos con negligencia Posible Solución Desarrollar un métodos sistemá- tico para asegurar la exactitud de los datos. Cada vez que la información es entregada, monitorear cuidado- samente sus valores y como fue generada. El método para generar información no es lo suficientemente rápido Modificar el sistema que genera los datos. Información tardía Los datos brutos son acu-mulados de acuerdo a una lógica o periodicidad que no es consistente a los propósitos del análisis Modificar el sistema que genera los datos. Información no limitada o sin indexar adecuada-mente Un modelo contiene tantos coheficientes que es dificil de desarrollar y mantener.
Problemas con los Datos Problema Los datos necesarios no existen Causa Típica Nadie registró la información que se necesita ahora La información requerida nunca existió Posible Solución Sea o no sea útil, registrar información para uso futuro. Esto puede considerar-se poco práctico por el costo de guardar y mantener datos. Pero facilitará encontrar datos cuando se necesite. Hacer un esfuerzo para generar datos o estimarlos por si son necesarios en el futuro.
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS • Por años la IT se concentraban en construcciones de sistemas de misión crítica (sistemas transaccionales), debían de ser virtualmente tolerante a fallas y de respuesta rápida (OLTP) desarrollados sobre ambientes de bases de datos relacionadas distribuídas. Sobre una arquitectura CLIENTE/SERVIDOR, un ejemplo INFORMIX-OnLIne • OLAP (online analytical processing) refiere al DSS y EIS hacerlo sobre sistemas online de end-users, aquí los datos voluminosos son procesados tan pronto como son introducidos.OLAP es ejecutado por usuarios finales, y el OLTP es hecho por IS prefesionales,OLAP incluye actividades de generación de queries, respuesta de reportes AD HOC , estadísticas, análisis y construyen aplicaciones multimedia
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS • Para facilitar OLAP se requiere trabajar con data warehouse o warehouse multidimensionales con un set de herramientas con capacidades multidimensionales como: • Query tool • Hojas de cálculo • Data mining • Visualización de datos Compañias: Lotus Development Corp, CA, Cognos, Arbor Software, Information Resources, Comshare, SAS Institute Inc, etc
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS • Usando SQL: • SQL es el lenguaje de manejo de datos que esta llegando a ser el estándar para múltiples Sistemas Manejadores de Bases de Datos Relacionales • SQL es usado para bases de datos de acceso online, operaciones DBMS de programas, funciones administrativas de bases de datos (algunos productos son ORACLE, DB2, Ingres, y Supra) • SQL es no procedural y muy amigable, usuarios finales pueden usarlo para construír sus propios queries. Puede ser usado en todos los lenguajes de programación estándar.
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS • Data Mining: • Es un témino utilizado para describir una poderosa tecnología con gran potencial para ayudar a las compañías a concentrarse en la información más importante de su data warehouse. “La extracción de información oculta y predecible de grandes bases de datos” • Todas estas actividades son conducidas automáticamente y permiten descubrir los datos rápidamente incluso por no programadores
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS • Data Mining Características y Objetivos: • Los datos se encuentran en algunas ocasiones enterrados en bases de datos grandes, los cuales pueden ser de muchos años atrás. Los datos están en data warehouse • El ambiente de minería de datos se encuentra normalmente en arquitecturas cliente/servidor • Nuevas y sofisticadas herramientas- incluyen avanzadas herramientas de visualización, las cuales ayudan a obtener información en grandes archivos de la empresa (por ejemplo archivos de texto almacenados en Lotus Notes o archivos de internet)
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS • Data Mining Características y Objetivos: • La minería de datos ofrece a los usuarios finales, poder de obtención de datos con preguntas fáciles y simples y sin habilidades de programación. • Las herramientas de data mining son fácilmente combinadas con otras, como hojas de cálculo • En grandes cantidades de datos es necesario algunas veces utilizar procesamientos paralelos de data mining
USER QUERY SHOW REVENUES FOR MARTH 1991 BY SALASPERSON SQL QUERY SELECT * FROM SALES WHERE.. DATA DIPPER DATA DIPPER DATA DIPPER SALES DATA 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS PROFUNDIDAD DE DATOS: DE MICRO A MAINFRAME Y BACK USER QUERY SHOW REVENUES FOR MARTH 1991 BY SALASPERSON NETWORK SQL QUERY SELECT * FROM SALES WHERE DB2 1 2 3 REPORT NETWORK RESULTS MARIA $2,000 BETO $1,000 DB2 4 5 6
4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISIS EJEMPLO DE APLICACIONES DE MINERIA DE DATOS • Marketing • Banking • Retaling and sales • Manufacturing and production • Brokerage and securities trading • Insurance • Computer hardware and software • Goverment and defense • Airlanes • Health care • Broadcasting • Police
4.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDAD • OLAP implica no solo obtener y analizar datos e información, también la presentación al usuario Visualización de datos: Se refiere a la tecnología que soporta la visualización de la información: imágenes digitales, GPS, GUI, multidimensiones, tablas y gráficos, realidad virtual, tercera dimensión y animaciones. Estas tecnologías pueden ser integradas para crear diferentes presentaciones de la información. La visualización de datos es fácil de implementar cuando los datos se encuentran en un data warehouse, o mejor aun en servidores de multimedia.
4.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDAD Multidimensionalidad: Las tablas de hojas de cálculo se encuentran en 2 dimensiones. Si uno necesita presentar información con 3 o más dimensiones se deben usar 2 tablas, o una tabla compleja • Presentaciones multidimensionales: • La totalización de datos puede se organizado de diferentes formas para análisis y presentaciones. Esto es llanado multidimensionalidad. Y los datos pueden ser vistos como se desee, los datos en un futuro pueden arreglarse fácil y rapidamente, se consideran tres factores: • Dimensiones (productos, vendedores, unidades de negocio, etc.) • Medidas (pesos, volúmenes de venta, contadores, etc) • Tiempo (diario, semanal, mensual)
4.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDAD • Limitaciones de presentaciones multidimensionales: • La base de datos multidimensionales pueden tomar 40% más de espacio que la bases de datos relaciones totalizadas • Los productos multidimensionales cuestan 50% mas que los productos estándar relacionales • El tiempo y consumo de recursos del sistema es mayor, dependiendo del volúmen de datos y número de dimensiones • Las interfaces y mantenimiento son más complejas que las base de datos relacionales • La multidimensionalidad se encuentra en diferentes niveles de sofisticación, existen varios tipos de software y es muy popular sobre todo en sistemas de suporte de información ejecutiva.
4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS • Las aplicaciones MSS requieres de acceso a datos • ES (Sistemas Expertos) • ANN (Redes Neuronales Artificiales) • Pueden hacer la manipulación de complejas bases de datos de una forma simple. • A estas se le llama base de datos inteligentes. • Su contribución consiste en hacerlo de acorde con el lenguaje natural
4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS Muestra base de datos inteligentes, un significado, BD de integración en un ES Usuario-final Dialogo de entrada Base de datos Lógica Programa de Aplicación Report Pantalla Database And DBMS Engine de Interface Base de datos Transaccionales Reglas Base Almacenamiento Data Model
4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS • Minería de base de datos inteligentes: • Algunas herramientas de minería de datos incluye sistemas inteligentes que soporta búsqueda inteligente • Estas aplicaciones están llegando a ser el fundamento en las organizaciones para estrategias de negocio • Las herramientas de minería de datos encuentran los patrones de los datos y sus reglas y pueden ser usados para guiar decisiones y pronosticar la efectividad de la decisión. • El Data mining puede rápidamente analizar las variables más importantes • Existen 5 tipos de información que puede ser obtenida por el data mining: • Asociación • Secuencia • Clasificación • Agrupamiento • pronóstico
4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS • Minería de base de datos inteligentes: • Los principales tipos de herramientas utilizan la minería de datos inteligentes en: • Razonamientos basados sobre casos • Computación neuronal • Agentes inteligentes • Otras herramientas (árboles de decisión, roles de inducción y visualización de datos)
4.12 ESQUEMA GENERAL Los datos para hacer decisiones vienen en una gran variedad de fuentes, internos y externos, debido a que los sistemas manejadores de bases de datos es uno de los mas fuertes componentes de la mayoría de los MSS, es importante familiarizarse con los novedosos desarrollos en este campo. Las organizaciones están ya reconociendo que sus datos son oro molido. Consecuentemente ellos están almacenando y minando datos de sus usuarios para obtener información sobre ellos (a través de variadas herramientas de análisis multidimensionales y nuevas arquitecturas de sistemas empresariales) y para estabilizar relaciones que ellos desconocen previamente (a través de minería de datos). Las herramientas OLAP proveen la forma de analizar los datos para identificar problemas y oportunidades.
4.12 ESQUEMA GENERAL El apropiado uso de orientación de objetos para análisis de sistemas, diseño e implementación puede proveer una increíble oportunidad para simplificar representaciones de sistemas, solo con reutilización de código. A través de una gran variedad de formato de datos, estos están siendo disponibles en sistemas de bases de datos multimedia. La web proporciona información universal incluyendo más capacidades de selección. Finalmente la construcción de métodos de inteligencia artificial puede ser usada para realzar la capacidad de análisis de datos en las organizaciones
4.12 ESQUEMA GENERAL El apropiado uso de orientación de objetos para análisis de sistemas, diseño e implementación puede proveer una increíble oportunidad para simplificar representaciones de sistemas, solo con reutilización de código. A través de una gran variedad de formato de datos, estos están siendo disponibles en sistemas de bases de datos multimedia. La web proporciona información universal incluyendo más capacidades de selección. Finalmente la construcción de métodos de inteligencia artificial puede ser usada para realzar la capacidad de análisis de datos en las organizaciones
4.12 ESQUEMA GENERAL Puntos importantes de este capítulo: • Los datos existen de forma interna, externa y personal • Los datos externos están disponibles en miles de bases de datos online comerciales, diccionarios, directorios y más • Los datos para el MSS deben ser coleccionados frecuentemente en campos usando uno o varios métodos • El MSS puede tener problemas de datos, tales como datos incorrectos, datos fuera de tiempo, mediciones pobres e indexación de datos, también demasiados o ningún dato. • Las grandes bases de datos online como CompuServe y Dow Jones Information Server pueden ser las mejores fuentes de datos para los MSS
4.12 ESQUEMA GENERAL Puntos importantes de este capítulo: • El internet esta llegando a ser la mayor fuente de datos externos para los MSS • Las intranet proveen datos internos para los MSS • Las mejores base de datos tienen Web hook para habilitar selección directa via browser de la web sobre las estaciones de trabajo de los clientes. • Los datos están organizados sobre arquitecturas relacionales, jerárquicas y de red. Muchos MSS prefieren el tipo relacional • El SQL es un estándar significativo para bases de datos relacionales
4.12 ESQUEMA GENERAL Puntos importantes de este capítulo: • Las bases de datos multimedia están llegando a ser con mucho, más importantes para las decisiones de toma de decisiones • Hay una tendencia sobre MSS distribuidas vía red, especialmente sobre la WWW • Los MSS distribuidos dan beneficios para PC y mainframes • Muchos MSS se proveen sobre arquitecturas cliente/servidos • En una arquitectura cliente/servidor , varias PC´s o clientes estan conectadas a una misma base de datos, telecomunicaciones y otros proveedores de servicios.
4.12 ESQUEMA GENERAL Puntos importantes de este capítulo: • Las bases de datos orientada a objeto son de fácil uso y de muy rápido acceso. Ellas son de gran ayuda con MSS distribuidos y complejas DSS. • Los datos para los MSS son frecuentemente procesados y almacenados sobre data warehouse para dar accesibilidad • OLAP (On Line Analitics Processing) tienen un set de herramientas para analizar datos rápidamente y se esta convirtiendo rápidamente en un factor importante para las aplicaciones de DSS • La mineria de datos es el descubridor del “conocimiento” en las bases de datos. Esto es relacionado con el data warehouse y ayuda a dar más potencial de información a los administradores y explotar oportunidades de negocio.
4.12 ESQUEMA GENERAL Puntos importantes de este capítulo: • Una enterprise-wide information system es un sistema de provee de comunicación a los empleados de la organización. Y da accesibilidad a cualquier dato o necesidad de información para cualquier empleado en cualquier parte del mundo. • Las base de datos multidimensionales permiten a los usuarios ver datos rápidamente en diferentes dimensiones, aún si los datos se encuentran en diferentes campos o bases de datos. • Uno de los objetivos más críticos para hacer decisiones inteligentes es que los usuarios puedan encontrar información más rápidamente y por ellos mismos.