Le Data Mining: M - PowerPoint PPT Presentation

About This Presentation
Title:

Le Data Mining: M

Description:

D finition et introduction Principales applications M thodologie du DM Exemples de fonctionnement 1. Emergence du domaine Termes synonymes (ou presque) Fouille de ... – PowerPoint PPT presentation

Number of Views:225
Avg rating:3.0/5.0
Slides: 54
Provided by: Gardarin4
Category:

less

Transcript and Presenter's Notes

Title: Le Data Mining: M


1
Le Data Mining MĂ©thodologie
  • DĂ©finition et introduction
  • Principales applications
  • MĂ©thodologie du DM
  • Exemples de fonctionnement

2
1. Emergence du domaine
  • Termes synonymes (ou presque)
  • Fouille de donnĂ©es (FD)
  • Exploration de donnĂ©es (ED)
  • Extraction de connaissances (ECD, KDD)
  • Workshops puis conf. internationales
  • Depuis 1991 puis 1994
  • August 24th-27th 2008 KDD '08 The 14th ACM
    SIGKDD International Conference on Knowledge
    Discovery and Data Mining, Las Vegas , NV
    USA
  • Data Mining and Knowledge Discovery Journal
    (1997)
  • Special Interest Group Knowledge Discovery in
    Databases (1999) de lAssociation for Computing
    Machinery (ACM)

3
MĂ©taphore
  • Par analogie Ă  la recherche des pĂ©pites d or
    dans un gisement, la fouille de données vise
  • Ă  extraire des informations cachĂ©es par analyse
    globale
  • Ă  dĂ©couvrir des modèles (patterns) difficiles Ă 
    percevoir car
  • le volume de donnĂ©es est très grand
  • le nombre de variables Ă  considĂ©rer est important
  • ces patterns sont imprĂ©visibles (mĂŞme Ă  titre
    d hypothèse à vérifier)

4
DĂ©finition
  • Data mining
  • ensemble de techniques d'exploration de donnĂ©es
    afin d'en tirer des connaissances (la
    signification profonde) sous forme de modèles
    présentés à l utilisateur averti pour examen

Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
5
Découverte de modèles
x1
c
Confiance
x2
Entrées
y
x3
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
6
DĂ©couverte et Exploitation
Data to Predict
Mining Model
DM Engine
DM Engine
Mining Model
Predicted Data
Mining Model
7
Objectif  connaissances 
  • Knowledge Discovery in Databases (KDD)
  • Processus complet dExtraction de Connaissance
    des Données (ECD)
  • Abouti Ă  la gĂ©nĂ©ration de règles et daides Ă  la
    décision
  • Exemples
  • analyses (distribution du trafic en fonction de
    l heure)
  • scores (fidĂ©litĂ© d un client), classes (mauvais
    payeurs)
  • règles (si facture gt 10000 et mĂ©content gt 0.5
    alors départ à 70)

8
MĂ©canismes de base
  • DĂ©duction base des systèmes experts
  • schĂ©ma logique permettant de dĂ©duire un thĂ©orème
    Ă  partir d'axiomes
  • le rĂ©sultat est sĂ»r, mais la mĂ©thode nĂ©cessite la
    connaissance de règles
  • Induction base du data mining
  • mĂ©thode permettant de tirer des conclusions Ă 
    partir d'une série de faits
  • gĂ©nĂ©ralisation un peu abusive
  • indicateurs de confiance permettant la pondĂ©ration

9
Le processus de KDD
10
Etapes du processus
  • 1. ComprĂ©hension du domaine dapplication
  • 2. CrĂ©ation du fichier cible (target data set)
  • 3. Traitement des donnĂ©es brutes (data cleaning
    and preprocessing)
  • 4. RĂ©duction des donnĂ©es (data reduction and
    projection)
  • 5. DĂ©finition des tâches de fouille de donnĂ©es
  • 6. Choix des algorithmes appropriĂ©s de fouille de
    données
  • 7. Fouille de donnĂ©es (data mining)
  • 8. InterprĂ©tation des formes extraites (mined
    patterns)
  • 9. Validation des connaissances extraites
  • (source Fayyat et al., 1996, p. 1-34)

11
Etapes daprès SPSS
12
2. Domaines d'application
  • De plus en plus de domaines
  • explosion des donnĂ©es historisĂ©es
  • puissance des machines support
  • nombreux datawarehouses
  • OLAP limitĂ©
  • nĂ©cessitĂ© de mieux comprendre
  • rapports sophistiquĂ©s, prĂ©dictions
  • aide efficace aux managers

13
Quelques domaines réputés
  • Analyse de risque (Assurance)
  • Marketing
  • Grande distribution
  • MĂ©decine, Pharmacie
  • Analyse financière
  • Gestion de stocks
  • Maintenance
  • ContrĂ´le de qualitĂ©

14
Exemples
  • Targeted ads
  • What banner should I display to this visitor?
  • Cross sells
  • What other products is this customer likely to
    buy?
  • Fraud detection
  • Is this insurance claim a fraud?
  • Churn analysis
  • Who are those customers likely to churn?
  • Risk Management
  • Should I approve the loan to this customer?

15
Churn Analysis
  • Application de tĂ©lĂ©com
  • Bases de donnĂ©es des clients et des appels
  • Fichiers des rĂ©clamations
  • Qui sont les clients le plus susceptibles de
    partir ?
  • Application de techniques de DM
  • Fichiers de 1000 clients les plus risquĂ©s
  • 600 ont quittĂ©s dans les 3 mois

16
Trading Advisor
  • Application boursière
  • conseil en achat / vente d'actions
  • DonnĂ©es de base
  • historique des cours
  • portefeuille client
  • Analyse du risque
  • Analyse technique du signal
  • Conseils d'achat vente
  • Mise Ă  disposition sur portail Web

17
3. MĂ©thodologie -1
  • 1. Identifier le problème
  • cerner les objectifs
  • trouver les sources
  • dĂ©finir les cibles
  • vĂ©rifier les besoins
  • 2. PrĂ©parer les donnĂ©es
  • prĂ©ciser les sources
  • collecter les donnĂ©es
  • nettoyer les donnĂ©es
  • transformer les donnĂ©es
  • intĂ©grer les donnĂ©es

18
MĂ©thodologie - 2
  • 3. Explorer des modèles
  • choisir une technique
  • Ă©chantillonner sur un groupe
  • valider sur le reste (5 Ă  1/3)
  • calculer le ? d erreurs
  • 4. Utiliser le modèle
  • observer la rĂ©alitĂ©
  • recommander des actions
  • 5. Suivre le modèle
  • bâtir des estimateurs
  • corriger et affiner le modèle

19
Explorer des modèles SEMMA
  • Sampling Échantillonner
  • tirer un Ă©chantillon significatif pour extraire
    les modèles
  • Exploration Explorer
  • devenir familier avec les donnĂ©es (patterns)
  • Manipulation Manipuler
  • ajouter des informations, coder, grouper des
    attributs
  • Modelling ModĂ©liser
  • construire des modèles (statistiques, rĂ©seaux de
    neuronnes, arbres de décisions, règles
    associatives, )
  • Assessment Valider
  • comprendre, valider, expliquer, rĂ©pondre aux
    questions

20
Validation dun modèle
  • Matrice de confusion confronter le vrai au
    prédit !
  • comparaison des cas observĂ©s par rapport aux
    prédictions
  • exemple prĂ©diction de factures impayĂ©es
  • ValiditĂ© du modèle
  • nombre exacte (diagonale) / nombre totale
    120/150 0.80

Observé Payé Retardé Impayé
Total Payé 80 15 5 100 Retardé
1 17 2 20 Impayé 5
2 23 30 Total 86 34
30 150
Prédit
21
Mesures en Recherche dinformation (IR)
22
DĂ©finition de Mesures
  • prĂ©cision
  • Rapport du nombre de documents pertinents trouvĂ©s
    au nombre total de documents sélectionnés. En
    anglais precision.
  • rappel
  • Rapport du nombre de documents pertinents trouvĂ©s
    au nombre total de documents pertinents. En
    anglais recall.
  • Soient
  • S l'ensemble des objets qu'un processus considère
    comme ayant une propriété recherchée,
  • V l'ensemble des objets qui possèdent
    effectivement cette propriété,
  • P et R respectivement la prĂ©cision et le rappel
    du système 
  • P S n V / S
  • R S n V / V

23
Mesures
  • PrĂ©cision (Precision)
  • NbTrouvĂ©sCorrects/(1NbTotal)
  • Bruit (Noise)
  • NbTrouvĂ©sIncorrects/(1NbTotal)
  • 1- PrĂ©cision
  • Rappel (Recall)
  • NbTrouvĂ©sCorrects/(1NbValide)
  • F-mesure
  • 2(prĂ©cisionrappel)/(prĂ©cisionrappel)

24
Autre mesure Le Lift
  • Population de clients pour le marketing
  • Division en dĂ©cil
  • Mesure du ratio RĂ©ponse/Moyenne

25
Représentation du lift
26
Principales Techniques
  • DĂ©rivĂ©es
  • des statistiques (e.g., rĂ©seaux bayĂ©siens)
  • de l'analyse de donnĂ©es (e.g., analyse en
    composantes)
  • de l'intelligence artificielle (e.g., arbres de
    décision, réseaux de neurones)
  • des bases de donnĂ©es (e.g., règles associatives)
  • AppliquĂ©es aux grandes bases de donnĂ©es
  • DifficultĂ©s
  • passage Ă  l'Ă©chelle et performance
  • fonctionnement avec Ă©chantillon gt qq milliers
  • prĂ©sentation et validation des rĂ©sultats

27
Origines des techniques
Daprès Labo. Eric, Lyon
28
4. Quelques produits
  • Intelligent Miner d'IBM
  • modĂ©lisation prĂ©dictive (stat.), groupage,
    segmentation, analyse d'associations, détection
    de déviation, analyse de texte libre
  • SAS de SAS
  • Statistiques, groupage, arbres de dĂ©cision,
    réseaux de neurones, associations, ...
  • SPSS de SPSS
  • statistiques, classification, rĂ©seaux de
    neurones
  • Oracle ODM
  • Règles associatives, classification supervisĂ©e et
    non supervisée, text mining
  • SQL Server DM
  • Règles associatives, classification supervisĂ©e et
    non supervisée, séries temporelles, réseaux de
    neurones,
  • Autres SPSS, Statistica Open source SIPINA,
    WEKA

29
SAS
30
INPUT
  • Choix des variables

31
SAMPLING
  • Choix du type d'Ă©chantillon

32
INSIGHT
  • Analyse des donnĂ©es en 4D

33
TRANSFORM
  • Transformation pour prĂ©parer

34
PARTITION
  • CrĂ©ation de partition d'exploration parallèle

35
REGRESSION
  • SĂ©lection de la mĂ©thode de rĂ©gression

36
DECISION TREE
  • Construction d'un arbre par ?2

37
NEURONES
  • SpĂ©cification d'un rĂ©seau de neurones

38
ASSESSMENT
  • Validation des rĂ©sultats

39
5. MĂ©thodes statistiques
  • Quelques techniques de base
  • A la limite du DM
  • Analyse de donnĂ©es
  • Calculs d'information sophistiquĂ©s

40
MĂ©thodes d'analyse
Points dans Rn
Points dans Rp
41
Familles de méthodes
Nuage de points
Regroupement dans tout l'espace
Visualisation dans Le meilleur espace réduit
METHODES DE CLASSIFICATION, SUPERVISEE OU NON
METHODES STATISTIQUES ET FACTORIELLES
42
Objectifs de ACP
  • ACP Analyse en Composantes Principales
  • RĂ©sumer un tableau individus?variables Ă  laide
    dun petit nombre de facteurs
  • Visualiser le positionnement des individus les
    uns par rapport aux autres
  • Visualiser les corrĂ©lations entre les variables
  • InterprĂ©ter les facteurs

43
Visualisation des données
Les composantes principales (non corrélées
entre elles)
44
Fonctions Statistiques
  • EspĂ©rance
  • permet de calculer la moyenne pondĂ©rĂ©e d'une
    colonne pi 1/N par défaut
  • Variance
  • traduit la dispersion de la distribution de la
    v.a. autour de sa valeur moyenne.
  • Variable centrĂ©e rĂ©duite
  • Permet d'Ă©liminer le facteur dimension

45
Diagrammes en bâtons
  • Comptage de frĂ©quence
  • COUNT
  • Extension aux calculs d'agrĂ©gats
  • AVG, MIN, MAX,
  • PossibilitĂ© d'Ă©tendre au 3D
  • Apporte une vision synthĂ©tique

46
Tableaux croisés(Vision 2D du Datacube)
Effectif théorique calculé par une loi de
distribution (uniforme)
47
Corrélation
  • Covariance
  • La covariance peut ĂŞtre vue comme le moment
    centré conjoint d'ordre 1 de deux v.a.
  • Si les deux v.a. sont indĂ©pendantes, alors leur
    covariance est nulle (mais la réciproque n'est
    pas vraie en général).
  • Coefficient de corrĂ©lation
  • Elimine le facteur dimension
  • mesure la qualitĂ© de la relation linĂ©aire entre
    deux variables aléatoires

48
Droite de régression
Y a X b
49
Test du ?2
  • DĂ©termine l'existence d'une dĂ©pendance entre deux
    variables
  • Exemple salaire d'embauche, niveau d'Ă©tude
  • Compare la distribution des variables par rapport
    à une courbe théorique supposant l'indépendance

50
De nombreuses autres fonctions
  • Test t sur moyenne
  • ANOVA
  • Analyses de variance sophistiquĂ©es
  • CorrĂ©lation partielle
  • RĂ©gresion logistique
  • SĂ©ries chronologiques
  • Lissage exponentiel, Moyenne mobile,
  • Comparaison

51
Calculs en SQL
  • Introduction de fonctions d'agrĂ©gats
  • AVG moyenne
  • MAVG moyenne mobile
  • STDDEV Ă©cart type
  • VARIANCE variance
  • COVARIANCE covariance
  • Exemple
  • SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
  • FROM EMPLOYEE
  • WHERE GRADE "ingĂ©nieur"
  • GROUP BY SEXE

52
Statistiques Conclusion
  • Calculs statistiques sur variables
  • Mono ou bi-variĂ©es
  • RĂ©sumĂ© des donnĂ©es
  • Observation de dĂ©pendances
  • Peu de modèles prĂ©dictifs ...
  • La plupart sont faisables avec SQL OLAP
  • Extensions cube et rollup
  • Extensions avec fonctions d'agrĂ©gats

53
6. Conclusion
  • Le data mining vise Ă  dĂ©couvrir des modèles Ă 
    partir de grandes bases de faits connus
    (datawarehouse)
  • Le processus de construction de modèles est
    complexe
  • prĂ©parer les donnĂ©es
  • modĂ©liser 1/3 de la base
  • valider sur 2/3
  • expĂ©rimenter plusieurs modèles
  • Questions ?
  • Quoi de nouveau par rapport Ă  l'IA et aux
    statistiques ?
Write a Comment
User Comments (0)
About PowerShow.com