320 likes | 454 Views
Técnicas de uso de la ley potencial, de las curvas autosimilares y de ajuste a las curvas parabólico fractales en la detección de la falsedad. LA CUESTION.
E N D
Técnicas de uso de la ley potencial, de las curvas autosimilares y de ajuste a las curvas parabólico fractales en la detección de la falsedad
LA CUESTION ¿Es posible detectar y cuantificar el grado de falsedad existente en conjuntos de datos, proporcionados por sujetos, mediante el mero análisis de los datos, sin contraste empírico con el exterior, ni control experimental del sujeto?
Intuición primera Longitud = p Diámetro
Punto de partida (Ley de Benford) • La teoría figura en “The Law of anomalous numbers” en el Proceedings of the American Philosophical Society” 78, pp 531-538,1.938 • Que en cualquier conjunto de números tomados al azar, longitudes de los ríos, constantes naturales etc.. siempre que no haya una causa condicionante, como en los teléfonos, 1
La distribución es siempre.... 1234 316 25 1 14321 245 30,1% Empieza por 1 el 30.1 % de los casos Empieza por 2 el 17,6 % Empieza por 3 el 12,5 % Empieza por 4 el 9,7 % Empieza por 5 el 7,92 % …. Empieza por 9 el 4,6 %
La logica subyacente Caso de quien esta autorizado a invitar hasta 100 € puede pedir dos facturas. Alarma porque hay demasiadas que empiezan por 50 Quien todos los meses compra lo mismo , por ejemplo que le cueste 300 € no falsea 3
HIPOTESIS En un casos en que la distribución de los datos se distribuye conforme a una ley de Benford es posible: • Obtener la distribucion de los datos observados • Depurar la realmente observada de artefactos estadísticos • Estimar la falsedad debida al interés económico a través de la distancia entre la distribución ajustada y la teórica. Si la distribucion se separa mucho HAY FALSEDAD
Objetivo Tipo de cliente Falsedad
Datos • Datos de comercio exterior 2.175.069 • Sujetos 109.769 • Existe interés económico en la falsedad • Hay datos sobre el grado de falsedad • Actas de Inspección 4.327 actas • Importe de actas 61,292 mm de €
Paso 1. Se calcula distribución para cada tipo de mercancía (97)
Grupo 1. Altos valores de NFF Grupo 2. Bajos valores de NFF Paso 2. Calcular indicadores de repetición de facturas(Generador de desviacion frente a la teorica) NFF = 1 – (ci2/n2)
Se propone medida de distancia entre distribuciones D [d1;d2]=?
Estimación del efecto • Regresión multiple • Variable independiente • Chi-cuadrado Kullback Leibler • Despues de varias depuraciones • R2 0,651 y nivel significación 0,000 • Se resta esta estimación del sesgo • Queda la estimación de la falsedad
Se define un procedimiento para ver la falsedad de un sujeto • Hay importadores que solo lo hacen una vez. • Cada importador comercia con muchas cosas distintas • Tratamos desde 550 hasta 2653 (máximo) • En total 332.252 declaraciones (1/10) • Divididas en 73.465 y las demas
Para cada operador y tipo de comercio • Se elimina el sesgo debido a su tipo de comercio obtenido mediante una regresión múltiple.
Análisis de la calidad de la selección y los resultados (VARIAS LINEAS) PRIMER INTENTO SI /NO Resultado MALO SEGUNDO INTENTO Selecciona bien Detecta falsedad mal
Conclusión • 37% de eficacia frente a 27 % de los expertos • 28.155 euros frente a 14.000€ del sistema tradicional • SE VERIFICA LA HIPOTESIS I
¿ Que hacer si los datos no se ajustan a Benford? DECLARACIONES DEL IMPUESTO DE MATRICULACION
Teoría de la belleza Leyes naturales Leyes de Zip y Pareto Demografía Fractales, sistema dinámicos, sistemas 1/f, modelos cognitivos SOC Numero aureo, espiral de Bernouilli, teoría de la simetría, entropía.. Leyes log log Leyes rango frecuencia (Lingüística), pendiente fractal Benford como fractal parabólica Autosimilaridad ¿Hay alguna ley mas universal?
Pasos sucesivos Población (log´-log) Ley de Zipf Rango frecuencia Petróleo ciudades Fractales parabólicas
Segunda intuición • Si se encuentra un sistema que convierta los datos en rectas, las distancias frente a la recta pueden ser medidas de falsedad Terremotos en el Observatorio X
El final.... • Curvas Rango – Log del valor de la variable . Recta teorica por regesion.
Un fichero descargado de Internet de la Sociedad Estadistica de Canadá. • Datos sobre anorexia • 243 pacientes y 82 madres • ¿Sucede que los pacientes femeninos con anorexia nerviosa reflejan una conducta familiar caracterizada por altos niveles de actividad e hiper - evitación del consumo de alimentos. ¿Influye este perfil familiar en el incremento de riesgo de surgimiento de la anorexia?
Tres conjuntos de datos Pacientes Madres Madres sobre si sobre las pacientes mismas
El sistema • Detecta que en 33 de los 82 casos hay exageración. • Los minutos en media declarados por las madres al año de ejercicio fisico fueron 9.396. El sistema sugiere 8.322 • Dividiendo por 52 semanas resulta que las madres afirmaron 180 minutos /semana (1/2 hora por dia) y el sistema sugiere 120 (dos horas semanales de ejercicio.
Conclusión • Es un sistema general y de aplicación simple • En dos casos con ficheros de datos grandes se ha intentado falsar la hipótesis y no se ha podido. • En el tercer caso no se conoce la falsedad pero los datos son muy plausibles • Defiendo que es una línea por el momento no descartable,