220 likes | 406 Views
www.pepite.be info@pepite.be. « Data Mining » En bref…. Techniques informatiques d’exploration automatique de données Extraction de connaissances à partir de données assistée par ordinateur Les piliers: V isualisation d’information La s tatistique L’a pprentissage automatique:
E N D
www.pepite.be info@pepite.be ©PEPITe S.A.
« Data Mining »En bref… • Techniques informatiques d’exploration automatique de données • Extraction de connaissances à partir de données assistée par ordinateur • Les piliers: • Visualisation d’information • La statistique • L’apprentissage automatique: • Réseaux de neurones • Arbres d’induction (décision, régression,..) • L’intelligence artificielle ©PEPITe S.A.
CRISP-DM ©PEPITe S.A.
Statistique • Synthétiser l’information (moyenne, écart-type, etc.) • Sélection MANUELLE des modèles • Tests d’hypothèses pour valider les choix des modèles • Mieux adapté pour des petites bases de données • Méthodes plus complexes demandant une grande expertise pour une utilisation efficace ©PEPITe S.A.
Visualisation ©PEPITe S.A.
Apprentissage AutomatiqueExtraction de la Connaissance • Construction de modèles à partir d’observations (ou de simulations) d’un système • Dans le but de: • Expliquer le comportement du système • Prédire le comportement du système • Pas d’hypothèses sur les modèles de départ • MAIS, nécessité d’un minimum d’observations ©PEPITe S.A.
IA : Systèmes ExpertsModélisation de la Connaissance • La machine imite le comportement de l’être humain • Capacité d’apprendre et de raisonner • Capacité de proposer des solutions déduites de prédicats • Introduction préable des règles (IF…THEN…) et de faits par l’expert • Outils d’inférence : PROLOG, CLIPS, JESS, LISP, OPENCYC,… • Gestion d’alarmes, jeux,… ©PEPITe S.A.
Apprentissage Automatique Supervisé • Entrées Xi : données du débiteur • Sortie Y : solvabilité • Construction du modèle Y = F(X1,…XN) • Diviser la BD en un ensemble d’apprentissage et un ensemble de test • Apprendre avec EA • Valider quantitativement le modèle avec ET • Valider qualitativement le modèle avec expert • Exploitation du modèle ©PEPITe S.A.
SuperviséClassement & Régression • Sortie Y continue : régression • Taux de rebuts • Sortie Y discrète : classement • Taux de rebuts acceptable/non acceptable ©PEPITe S.A.
Apprentissage AutomatiqueNon-Supervisé • Apprendre les relations entre variables • Pas de distinction entre variables d’entrées et de sorties • Exemple : • Retrouver des journées de productions similaires • Retrouver des corrélations entre attributs (mesures similaires) • Méthodes : • Dendrogramme, K-MEANS ©PEPITe S.A.
SuperviséArbres de Décision • Apprentissage automatique supervisé pour le classement • Construction • A chaque noeud recherche de la meilleure entrée et de la bonne question • Séparation du noeud en deux fils en fonction de la réponse à la question • Arrêt du développement • Utilisation • Propagation d’un nouvel objet dans l’arbre, le noeud terminal indique la classe de l’objet ©PEPITe S.A.
Y N Y N Arbre de DécisionConstruction T° > 54°C ©PEPITe S.A.
Atouts des Arbres • Interprétable : • Lecture facile des règles • Plus facile pour la validation qualitative • Sélection des paramètres relevants • Construction très rapide • Différentes variantes : • Arbres de régression (sortie continue) • Arbres flous (sortie continue et discrète) • Ensemble d’arbres ©PEPITe S.A.
Problématique des Données • Qualité: • erreurs d’encodage • bruits • valeurs manquantes • Quantité: • taille minimum requise de la BD imprévisible (dépend de la complexité du problème) ©PEPITe S.A.
Types de Données • Images • Sons • Données symboliques (grand, petit, chaud, froid,…) • Données numériques • Données temporelles ©PEPITe S.A.
Méthodes • Régression multivariée • Arbres (régression, classif., flous,…) • Réseaux de neurones • Réseaux baysiens • Analyse Composantes Principales (ACP – PCA) • Machines à support vectoriel • … ©PEPITe S.A.
La Meilleure Méthode ? • Toutes et aucune • Dépend du type de problème • Dépend des besoins • Précision : réseau de neurones • Interprétabilité : arbres de décison • Nécessité de disposer d’une boîte à outils robuste, flexible et adaptable ©PEPITe S.A.
Manufacturing Industry 1 ERP: planning, scheduling, supply and logistics 2 MES: plant-wide optimization &management 3 Automation, advanced process control, abnormality management 4 Basic control, rectification, statistical analysis 5 Measurement and sensing, on-line monitoring ©PEPITe S.A.
DATA EXPERT PROCESS KNOWLEDGE ©PEPITe S.A.
Applications en Économie • eCRM analytique : analyse du comportement des clients, des interactions & optimisation de métriques de satisfaction • Détection de fraude • Stratégies de trading • Optimisation de portfolio • Bâle II : mesure et analyse du risque dans le gestion des fonds propres des banques ©PEPITe S.A.
Links2go • http://www.cwu.edu/~borisk/finance • http://www.aaai.org • http://www.aaai.org/AITopics • http://www.kdnuggets.com • http://www.crisp-dm.org • http://www.montefiore.ulg.ac.be/services/stochastic ©PEPITe S.A.
Slides et logiciel disponibles sur www.pepite.be • Login : EAA / Mot de passe AA_1000 ©PEPITe S.A.