Title: Le Data Mining: M
1Le Data Mining MĂ©thodologie
- DĂ©finition et introduction
- Principales applications
- MĂ©thodologie du DM
- Exemples de fonctionnement
21. Emergence du domaine
- Workshops
- 1991, 1993, 1994
- International Conf. on KDD and DM
- 1995, 1996, 1997, 1998, 1999
- Data Mining and Knowledge Discovery Journal
(1997) - Special Interest Group Knowledge Discovery in
Databases (1999) de lAssociation for Computing
Machinery (ACM)
3MĂ©taphore
- Par analogie à la recherche des pépites d or
dans un gisement, la fouille de données vise - à extraire des informations cachées par analyse
globale - Ă dĂ©couvrir des modèles (patterns) difficiles Ă
percevoir car - le volume de données est très grand
- le nombre de variables à considérer est important
- ces patterns sont imprévisibles (même à titre
d hypothèse à vérifier)
4DĂ©finition
- Data mining
- ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la
signification profonde) sous forme de modèles
présentés à l utilisateur averti pour examen
Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
5Découverte de modèles
x1
c
Confiance
x2
Entrées
y
x3
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
6DĂ©couverte et Exploitation
Data to Predict
Mining Model
DM Engine
DM Engine
Mining Model
Predicted Data
Mining Model
7Connaissances
- Knowledge Discovery in Databases (KDD)
- Processus complet dExtraction de Connaissance
des Données (ECD) - Comprend plusieurs phases dont le data mining
- Exemples
- analyses (distribution du trafic en fonction de
l heure) - scores (fidélité d un client), classes (mauvais
payeurs) - règles (si facture gt 10000 et mécontent gt 0.5
alors départ à 70)
8Le processus de KDD
9Etapes du processus
- 1. Compréhension du domaine dapplication
- 2. Création du fichier cible (target data set)
- 3. Traitement des données brutes (data cleaning
and preprocessing) - 4. Réduction des données (data reduction and
projection) - 5. Définition des tâches de fouille de données
- 6. Choix des algorithmes appropriés de fouille de
données - 7. Fouille de données (data mining)
- 8. Interprétation des formes extraites (mined
patterns) - 9. Validation des connaissances extraites
- (source Fayyat et al., 1996, p. 1-34)
10MĂ©canismes de base
- Déduction base des systèmes experts
- schéma logique permettant de déduire un théorème
à partir d'axiomes - le résultat est sûr, mais la méthode nécessite la
connaissance de règles - Induction base du data mining
- mĂ©thode permettant de tirer des conclusions Ă
partir d'une série de faits - généralisation un peu abusive
- indicateurs de confiance permettant la pondération
112. Domaines d'application
- De plus en plus de domaines
- explosion des données historisées
- puissance des machines support
- nombreux datawarehouses
- OLAP limité
- nécessité de mieux comprendre
- rapports sophistiqués, prédictions
- aide efficace aux managers
12Quelques domaines réputés
- Analyse de risque (Assurance)
- Marketing
- Grande distribution
- MĂ©decine, Pharmacie
- Analyse financière
- Gestion de stocks
- Maintenance
- Contrôle de qualité
13Exemples
- Targeted ads
- What banner should I display to this visitor?
- Cross sells
- What other products is this customer likely to
buy? - Fraud detection
- Is this insurance claim a fraud?
- Churn analysis
- Who are those customers likely to churn?
- Risk Management
- Should I approve the loan to this customer?
14Churn Analysis
- Application de télécom
- Bases de données des clients et des appels
- Fichiers des réclamations
- Qui sont les clients le plus susceptibles de
partir ? - Application de techniques de DM
- Fichiers de 1000 clients les plus risqués
- 600 ont quittés dans les 3 mois
15Trading Advisor
- Application boursière
- conseil en achat / vente d'actions
- Données de base
- historique des cours
- portefeuille client
- Analyse du risque
- Analyse technique du signal
- Conseils d'achat vente
- Mise Ă disposition sur portail Web
163. MĂ©thodologie -1
- 1. Identifier le problème
- cerner les objectifs
- trouver les sources
- définir les cibles
- vérifier les besoins
- 2. Préparer les données
- préciser les sources
- collecter les données
- nettoyer les données
- transformer les données
- intégrer les données
17MĂ©thodologie - 2
- 3. Explorer des modèles
- choisir une technique
- Ă©chantillonner sur un groupe
- valider sur le reste (5 Ă 1/3)
- calculer le ? d erreurs
- 4. Utiliser le modèle
- observer la réalité
- recommander des actions
- 5. Suivre le modèle
- bâtir des estimateurs
- corriger et affiner le modèle
18Explorer des modèles SEMMA
- Sampling Échantillonner
- tirer un Ă©chantillon significatif pour extraire
les modèles - Exploration Explorer
- devenir familier avec les données (patterns)
- Manipulation Manipuler
- ajouter des informations, coder, grouper des
attributs - Modelling Modéliser
- construire des modèles (statistiques, réseaux de
neuronnes, arbres de décisions, règles
associatives, ) - Assessment Valider
- comprendre, valider, expliquer, répondre aux
questions
19Validation dun modèle
- Matrice de confusion
- comparaison des cas observés par rapport aux
prédictions - exemple prédiction de factures impayées
- Validité du modèle
- nombre exacte (diagonale) / nombre totale
120/150 0.80
20Principales Techniques
- Dérivées
- des statistiques (e.g., réseaux bayésiens)
- de l'analyse de données (e.g., analyse en
composantes) - de l'intelligence artificielle (e.g., arbres de
décision, réseaux de neurones) - des bases de données (e.g., règles associatives)
- Appliquées aux grandes bases de données
- Difficultés
- passage Ă l'Ă©chelle et performance
- fonctionnement avec Ă©chantillon gt qq milliers
- présentation et validation des résultats
214. Quelques produits
- Intelligent Miner d'IBM
- modélisation prédictive (stat.), groupage,
segmentation, analyse d'associations, détection
de déviation, analyse de texte libre - SAS de SAS
- Statistiques, groupage, arbres de décision,
réseaux de neurones, associations, ... - SPSS de SPSS
- statistiques, classification, réseaux de
neurones
- Oracle 10g ODM
- SQL Server DM
- DB2 V8
22SAS
23INPUT
24SAMPLING
- Choix du type d'Ă©chantillon
25INSIGHT
- Analyse des données en 4D
26TRANSFORM
- Transformation pour préparer
27PARTITION
- Création de partition d'exploration parallèle
28REGRESSION
- Sélection de la méthode de régression
29DECISION TREE
- Construction d'un arbre par ?2
30NEURONES
- Spécification d'un réseau de neurones
31ASSESSMENT
- Validation des résultats
32Approches
- De multiples approches
- Statistiques
- Classification
- Clustering
- Règles associatives
33MĂ©thodes d'analyse
Points dans Rn
Points dans Rp
34Familles de méthodes
Nuage de points
Regroupement dans tout l'espace
Visualisation dans Le meilleur espace réduit
METHODES DE CLASSIFICATION, SUPERVISEE OU NON
METHODES STATISTIQUES ET FACTORIELLES
355. MĂ©thodes statistiques
- Quelques techniques de base
- A la limite du DM
- Calculs d'information sophistiqués
36Fonctions Statistiques
- Espérance
- permet de calculer la moyenne pondérée d'une
colonne pi 1/N par défaut - Variance
- traduit la dispersion de la distribution de la
v.a. autour de sa valeur moyenne. - Variable centrée réduite
- Permet d'Ă©liminer le facteur dimension
37Diagrammes en bâtons
- Comptage de fréquence
- COUNT
- Extension aux calculs d'agrégats
- AVG, MIN, MAX,
- Possibilité d'étendre au 3D
- Apporte une vision synthétique
38Tableaux croisés(Vision 2D du Datacube)
Effectif théorique calculé par une loi de
distribution (uniforme)
39Corrélation
- Covariance
- La covariance peut ĂŞtre vue comme le moment
centré conjoint d'ordre 1 de deux v.a. - Si les deux v.a. sont indépendantes, alors leur
covariance est nulle (mais la réciproque n'est
pas vraie en général). - Coefficient de corrélation
- Elimine le facteur dimension
- mesure la qualité de la relation linéaire entre
deux variables aléatoires
40Droite de régression
Y a X b
41Test du ?2
- Détermine l'existence d'une dépendance entre deux
variables - Exemple salaire d'embauche, niveau d'Ă©tude
- Compare la distribution des variables par rapport
à une courbe théorique supposant l'indépendance
42De nombreuses fonctions
- Test t sur moyenne
- ANOVA
- Analyses de variance sophistiquées
- Corrélation partielle
- RĂ©gresion logistique
- SĂ©ries chronologiques
- Lissage exponentiel, Moyenne mobile,
- Comparaison
43Calculs en SQL
- Introduction de fonctions d'agrégats
- AVG moyenne
- MAVG moyenne mobile
- STDDEV Ă©cart type
- VARIANCE variance
- COVARIANCE covariance
-
- Exemple
- SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
- FROM EMPLOYEE
- WHERE GRADE "ingénieur"
- GROUP BY SEXE
44Statistiques Conclusion
- Calculs statistiques sur variables
- Mono ou bi-variées
- Résumé des données
- Observation de dépendances
- Peu de modèles prédictifs ...
- La plupart sont faisables avec SQL OLAP
- Extensions cube et rollup
- Extensions avec fonctions d'agrégats
456. Conclusion
- Le data mining vise Ă dĂ©couvrir des modèles Ă
partir de grandes bases de faits connus
(datawarehouse) - Le processus de construction de modèles est
complexe - préparer les données
- modéliser 1/3 de la base
- valider sur 2/3
- expérimenter plusieurs modèles
- Questions ?
- Quoi de nouveau par rapport Ă l'IA et aux
statistiques ?
46DM, Stat., IA