1 / 55

Gest ión de Calidad de Datos

Gest ión de Calidad de Datos. Estrategias para Mejorar. Carlos López carlos.lopez@ieee.org. Viene de : Introducción. Continúa con : Política de Calidad de Datos. Universitario Autónomo del Sur - 2005. Tópicos a considerar. Introducción Algunas definiciones Estrategias

sunila
Download Presentation

Gest ión de Calidad de Datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestión de Calidad de Datos Estrategias para Mejorar Carlos López carlos.lopez@ieee.org Viene de: Introducción Continúa con: Política de Calidad de Datos Universitario Autónomo del Sur - 2005

  2. Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW

  3. Una tarea siempre titánica... • Volumen de datos tamaño empresa • Tendencia es a manejar más datos • DW • BDOO • Herramientas de última generación • Intranet/Internet • Se requieren planes...

  4. Infraestructura administrativa Objetivos claros para el negocio Planes operacionales Administración del PCD Plan de Calidad de Datos (PCD) Infraestructura administrativa Objetivos claros para el negocio <==Solicita recursos== ¿Cómo se relacionan? ===Define cómo ===> proceder en ese caso <=Informa sobre problemas observados= =Definen qué datos serán mejorados=> Planes operacionales Administración del PCD

  5. Algunas definiciones... • Calidad • Precisión • ¿Correctitud? • ¿Exactitud? • El idioma español tiene limitaciones en este aspecto... • Quality • Precision • Accuracy

  6. Ud.: Una definición operativa... Def.: “...Calidad(A) > Calidad(B) si...” • intrínsecamente subjetiva • asociada a las necesidades • dos clientes podrían disentir • eso si el cliente “sabe lo que quiere”... ¿Sabe lo que quiere cuando lo ve?

  7. Ejemplo de las dificultades... MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B ¡Pero el B no tiene ni un dato correcto!

  8. Una definición operativa (2) ... • dos clientes podrían disentir Hay cosas que todos quieren o esperan: • relevancia • correctitud • poder “ver” • acceso simple • seguridad • privacidad

  9. Son dimensiones diferentes... En Calidad de Datos se distinguen cuatro: • Modelo de Datos (ej. relevancia) • Valores mismos (ej. correctitud) • Presentación (ej. poder “ver”) • Tecnológicos (ej. acceso simple) El curso trata sobre la segunda dimensión

  10. Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia

  11. Correctitud (1) <E,A,V1> <E,A,V2> <E,A,V3> ... <E,A,V2> <E,A,V> Caso fácil Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR> E=“1745”,E.AÑO_NACIMIENTO=”1960”

  12. Correctitud (2) • Un caso con dos problemas: • No existe “verdadero” • No existió nunca SE COMPLICA! Quizá lo mejor que pueda lograrse es... <E,A,[VMAX,VMIN]> Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR> FECHA=“18071825.120000”,FECHA.TEMP=”19.60”

  13. Correctitud (3) Las combinaciones formalmente posibles no necesariamente son válidas Ej. EMPLEADO=“9999” EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez” EMPLEADO.AÑO_NACIMIENTO=“1925” EMPLEADO.CARGO=“Desconocido” ¡ Simplemente no es empleado!

  14. Correctitud (4) <E,A,”Juguetería/Bazar”> <E,A,”JUGUETERIA/BAZAR”> <E,A,”Jugueteria/Bazar”> ... <E,A,”Jugueteria / Bazar”> ¡Lío en puerta! ¡Hay varios valores “correctos”!

  15. Correctitud (5) • En resumen: • No siempre existe un “verdadero valor” • Aún existiendo, puede ser inaccesible • Métricas específicas al problema • Métricas problemáticas

  16. Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia

  17. LUN MAR MIE JUE Erróneo Actualizado Obsoleto Vigencia (1) ESTALLOVIENDO.NOW=TRUE Es algo que depende del tiempo...

  18. No se aplica la idea de "Vigencia" Vigencia (2) • Datos permanentes • Fecha de nacimiento • Tipo de sangre • Lugar de nacimiento  País de nacimiento! • Datos dinámicos| • Cambian ocasionalmente • Nombre y/o apellido (ej.: USA) • Dirección • Cambian regularmente • Salario|

  19. Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia

  20. Completitud (1) • EMPLEADO.HOMEPHONE=“Null” • Cuatro posibilidades • El empleado no tiene teléfono ==>OK • El empleado tiene teléfono, pero se ignora el número==>INC • El empleado tiene un número que no figura en la guía ==>OK • Se ignora si el empleado tiene teléfono ==>OK ¿Este registro está completo? • Veamos un poco más de detalle

  21. Completitud (2) • El “Null” debería tener colores... • Valor desconocido de un atributo aplicable (el registro es incompleto) • Indicador de atributo no aplicable (el registro es completo) • Atributo de aplicabilidad desconocida • Valor especial de un atributo (el registro es completo) • Difícil de implementar...

  22. Completitud (3) • Dos problemas: • Completitud de registros en la base • Completitud de la base • Ej.: Lista de Empleados Activos • Ej.: Diccionario de neologismos

  23. Para los valores mismos... ...también se distinguen cuatro dimensiones: • Correctitud • Vigencia • Completitud • Consistencia

  24. Consistencia (1) • Dos o más cosas no son incompatibles • Dos o más datos pueden ser correctos a la vez • Un par de casos típicos • Redundancia • Consistencia interna

  25. Empleado.Dirección=“Aconcagua 1234” Empleado.Dirección=“Rancagua 1234” Empleado.Dirección=“Aconcagua 2134” Consistencia (2) • Redundancia • Varias copias de lo mismo • Actualización independiente • Mantenimiento separado ¡Depende del CIO, y no de los datos!

  26. se implica ¡NO! se implica Consistencia (3) • Consistencia interna • Existen reglas a cumplir • explícitas • implícitas Son sólo condiciones necesarias... Empleado.Dirección=“Aconcagua 1234” Empleado.CP=“11600”

  27. Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW

  28. Diseño de procesos Mejora de procesos Detección + corrección Tres niveles, tres generaciones

  29. Realidad Otra Base Reglas Detección + corrección Tácticas corrientes: • Laissez fair • Comparar: • datos vs. realidad • con otra base • con reglas del negocio

  30. Comparar datos con realidad... • Viable para pocos datos • Caro y lento • Útil para evaluar niveles de calidad mediante muestreo • Inviable para datos muy dinámicos

  31. Comparar datos con otra base... • Trabajo de laboratorio (la realidad no entra) • Hipótesis implícitas • Existe una base, independiente, y redundante • No tiene demasiados errores • La comparación puede no ser simple • Es un método seductor...

  32. Modelo de datos ¿Sentido común, observación? ...con reglas del negocio... (1) Se expresan como Data Edits... • Un único campo: • “el valor debe ser uno de {0,1,2...9}” • Múltiples campos: • “Ciudad y País deben coordinarse” • Relaciones probabilísticas: • “Hijos=4 y Edad=15 es improbable” • Si fallan, se revisan los casos anómalos

  33. ...con reglas del negocio... (2) A Favor: • Revelan muchas inconsistencias • No requiere una segunda base En contra: • Difíciles de hallar/explicitar • Requieren “expertos” • Pueden cambiar con el tiempo • Se aplican una vez, o son permanentes

  34. ...con reglas del negocio... (3) Ej.: Caso del Censo (López, JISS 1997) • Escaneado+interpretación automática • Sólo datos categóricos • Digitar dos veces, o sólo lo erróneo • Reglas derivadas de los datos ==>¡No hay experto! • Resultado de la simulación:

  35. 50% de los errores ¡4% de los datos! ...con reglas del negocio... (4)

  36. Tres niveles, tres generaciones Diseño de procesos Mejora de procesos Detección + corrección

  37. Mejora de procesos • ¿Y la prevención? • Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!

  38. ¡Preocupado por la venta! ¡Preocupado por entregarla! ¡Preocupado por ingresarla! Un ejemplo... VENTAS ¿Y la facturación? ÓRDENES FACTURACIÓN DESPACHO

  39. Prevención... • Uso extenso de reglas del negocio • Quizá pequeños cambios • Ej.: habilitar/inhibir edición • Corrección temprana • Seguimiento • Más barato que corrección • Única alternativa si “llueven datos”

  40. Tres niveles, tres generaciones Diseño de procesos Mejora de procesos Detección + corrección

  41. Diseño del proceso • “a prueba de errores” • Exitosa en manufactura Ideas: • Eliminar re-digitación • Incorporar reglas • Reasignar propiedades • No hay muchos ejemplos con datos

  42. Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW

  43. ¿Qué datos mejorar... primero? ¡Intentar lograr consensos! • Tan importante como la estrategia • Hay que lograr éxitos al principio • Buscar consensos • Considerar varios criterios: • estrategia global de la empresa • relevancia para problemas ya conocidos • distancia ser<==>deber ser • impacto económico

  44. Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW

  45. Datos prioritarios Caso intermedio Cambios rápidos Cambios lentos Mejora y luego Detección + corrección Mejora del proceso Detección + corrección Una única base 1) Definir estrategia Estrategia Problemas conocidos Nivel de error Impacto ($)

  46. D+C Proceso Hay casos mezclados... BD de Clientes: • Cliente.FechaNacimiento • Cliente.Saldo • Cliente.Domicilio ¡Muchos hacen al revés! Regla: primero arreglar y luego depurar ¿Razones? • acotar el trabajo de limpieza • asegurar un retorno

  47. Tópicos a considerar • Introducción • Algunas definiciones • Estrategias • Qué datos mejorar • Caso de una única BD • Caso del DW

  48. B A Muchas bases... A) Bases que no se solapan

  49. B A Muchas bases... B) Bases cliente-servidor

  50. Muchas bases... C) Bases solapadas pero independientes A B

More Related