Le Data Mining: M - PowerPoint PPT Presentation

About This Presentation

Title:

Le Data Mining: M

Description:

Title: 1. Explosion de l'informatique d cisionnelle Author: GARDARIN Last modified by: georges gardarin Created Date: 5/28/1995 4:28:04 PM Document presentation format – PowerPoint PPT presentation

Number of Views:138

Avg rating:3.0/5.0

Slides: 47

Provided by: Gardarin4

Category:

more less

Transcript and Presenter's Notes

Title: Le Data Mining: M

1
Le Data Mining Méthodologie

Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement

2
1. Emergence du domaine

Workshops
1991, 1993, 1994
International Conf. on KDD and DM
1995, 1996, 1997, 1998, 1999
Data Mining and Knowledge Discovery Journal
(1997)
Special Interest Group Knowledge Discovery in
Databases (1999) de lAssociation for Computing
Machinery (ACM)

3
Métaphore

Par analogie à la recherche des pépites d or
dans un gisement, la fouille de données vise
à extraire des informations cachées par analyse
globale
à découvrir des modèles (patterns) difficiles à
percevoir car
le volume de données est très grand
le nombre de variables à considérer est important
ces patterns sont imprévisibles (même à titre
d hypothèse à vérifier)

4
Définition

Data mining
ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la
signification profonde) sous forme de modèles
présentés à l utilisateur averti pour examen

Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
5
Découverte de modèles
x1
c
Confiance
x2
Entrées
y
x3
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
6
Découverte et Exploitation
Data to Predict
Mining Model
DM Engine
DM Engine
Mining Model
Predicted Data
Mining Model
7
Connaissances

Knowledge Discovery in Databases (KDD)
Processus complet dExtraction de Connaissance
des Données (ECD)
Comprend plusieurs phases dont le data mining
Exemples
analyses (distribution du trafic en fonction de
l heure)
scores (fidélité d un client), classes (mauvais
payeurs)
règles (si facture gt 10000 et mécontent gt 0.5
alors départ à 70)

8
Le processus de KDD
9
Etapes du processus

1. Compréhension du domaine dapplication
2. Création du fichier cible (target data set)
3. Traitement des données brutes (data cleaning
and preprocessing)
4. Réduction des données (data reduction and
projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de
données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined
patterns)
9. Validation des connaissances extraites
(source Fayyat et al., 1996, p. 1-34)

10
Mécanismes de base

Déduction base des systèmes experts
schéma logique permettant de déduire un théorème
à partir d'axiomes
le résultat est sûr, mais la méthode nécessite la
connaissance de règles
Induction base du data mining
méthode permettant de tirer des conclusions à
partir d'une série de faits
généralisation un peu abusive
indicateurs de confiance permettant la pondération

11
2. Domaines d'application

De plus en plus de domaines
explosion des données historisées
puissance des machines support
nombreux datawarehouses
OLAP limité
nécessité de mieux comprendre
rapports sophistiqués, prédictions
aide efficace aux managers

12
Quelques domaines réputés

Analyse de risque (Assurance)
Marketing
Grande distribution
Médecine, Pharmacie
Analyse financière
Gestion de stocks
Maintenance
Contrôle de qualité

13
Exemples

Targeted ads
What banner should I display to this visitor?
Cross sells
What other products is this customer likely to
buy?
Fraud detection
Is this insurance claim a fraud?
Churn analysis
Who are those customers likely to churn?
Risk Management
Should I approve the loan to this customer?

14
Churn Analysis

Application de télécom
Bases de données des clients et des appels
Fichiers des réclamations
Qui sont les clients le plus susceptibles de
partir ?
Application de techniques de DM
Fichiers de 1000 clients les plus risqués
600 ont quittés dans les 3 mois

15
Trading Advisor

Application boursière
conseil en achat / vente d'actions
Données de base
historique des cours
portefeuille client
Analyse du risque
Analyse technique du signal
Conseils d'achat vente
Mise à disposition sur portail Web

16
3. Méthodologie -1

1. Identifier le problème
cerner les objectifs
trouver les sources
définir les cibles
vérifier les besoins

2. Préparer les données
préciser les sources
collecter les données
nettoyer les données
transformer les données
intégrer les données

17
Méthodologie - 2

3. Explorer des modèles
choisir une technique
échantillonner sur un groupe
valider sur le reste (5 à 1/3)
calculer le ? d erreurs
4. Utiliser le modèle
observer la réalité
recommander des actions

5. Suivre le modèle
bâtir des estimateurs
corriger et affiner le modèle

18
Explorer des modèles SEMMA

Sampling Échantillonner
tirer un échantillon significatif pour extraire
les modèles
Exploration Explorer
devenir familier avec les données (patterns)
Manipulation Manipuler
ajouter des informations, coder, grouper des
attributs
Modelling Modéliser
construire des modèles (statistiques, réseaux de
neuronnes, arbres de décisions, règles
associatives, )
Assessment Valider
comprendre, valider, expliquer, répondre aux
questions

19
Validation dun modèle

Matrice de confusion
comparaison des cas observés par rapport aux
prédictions
exemple prédiction de factures impayées
Validité du modèle
nombre exacte (diagonale) / nombre totale
120/150 0.80

20
Principales Techniques

Dérivées
des statistiques (e.g., réseaux bayésiens)
de l'analyse de données (e.g., analyse en
composantes)
de l'intelligence artificielle (e.g., arbres de
décision, réseaux de neurones)
des bases de données (e.g., règles associatives)
Appliquées aux grandes bases de données
Difficultés
passage à l'échelle et performance
fonctionnement avec échantillon gt qq milliers
présentation et validation des résultats

21
4. Quelques produits

Intelligent Miner d'IBM
modélisation prédictive (stat.), groupage,
segmentation, analyse d'associations, détection
de déviation, analyse de texte libre
SAS de SAS
Statistiques, groupage, arbres de décision,
réseaux de neurones, associations, ...
SPSS de SPSS
statistiques, classification, réseaux de
neurones

Oracle 10g ODM
SQL Server DM
DB2 V8

22
SAS
23
INPUT

Choix des variables

24
SAMPLING

Choix du type d'échantillon

25
INSIGHT

Analyse des données en 4D

26
TRANSFORM

Transformation pour préparer

27
PARTITION

Création de partition d'exploration parallèle

28
REGRESSION

Sélection de la méthode de régression

29
DECISION TREE

Construction d'un arbre par ?2

30
NEURONES

Spécification d'un réseau de neurones

31
ASSESSMENT

Validation des résultats

32
Approches

De multiples approches
Statistiques
Classification
Clustering
Règles associatives

33
Méthodes d'analyse
Points dans Rn
Points dans Rp
34
Familles de méthodes
Nuage de points
Regroupement dans tout l'espace
Visualisation dans Le meilleur espace réduit
METHODES DE CLASSIFICATION, SUPERVISEE OU NON
METHODES STATISTIQUES ET FACTORIELLES
35
5. Méthodes statistiques

Quelques techniques de base
A la limite du DM
Calculs d'information sophistiqués

36
Fonctions Statistiques

Espérance
permet de calculer la moyenne pondérée d'une
colonne pi 1/N par défaut
Variance
traduit la dispersion de la distribution de la
v.a. autour de sa valeur moyenne.
Variable centrée réduite
Permet d'éliminer le facteur dimension

37
Diagrammes en bâtons

Comptage de fréquence
COUNT
Extension aux calculs d'agrégats
AVG, MIN, MAX,
Possibilité d'étendre au 3D
Apporte une vision synthétique

38
Tableaux croisés(Vision 2D du Datacube)
Effectif théorique calculé par une loi de
distribution (uniforme)
39
Corrélation

Covariance
La covariance peut être vue comme le moment
centré conjoint d'ordre 1 de deux v.a.
Si les deux v.a. sont indépendantes, alors leur
covariance est nulle (mais la réciproque n'est
pas vraie en général).
Coefficient de corrélation
Elimine le facteur dimension
mesure la qualité de la relation linéaire entre
deux variables aléatoires

40
Droite de régression
Y a X b
41
Test du ?2

Détermine l'existence d'une dépendance entre deux
variables
Exemple salaire d'embauche, niveau d'étude
Compare la distribution des variables par rapport
à une courbe théorique supposant l'indépendance

42
De nombreuses fonctions

Test t sur moyenne
ANOVA
Analyses de variance sophistiquées
Corrélation partielle
Régresion logistique
Séries chronologiques
Lissage exponentiel, Moyenne mobile,
Comparaison

43
Calculs en SQL

Introduction de fonctions d'agrégats
AVG moyenne
MAVG moyenne mobile
STDDEV écart type
VARIANCE variance
COVARIANCE covariance
Exemple
SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
FROM EMPLOYEE
WHERE GRADE "ingénieur"
GROUP BY SEXE

44
Statistiques Conclusion

Calculs statistiques sur variables
Mono ou bi-variées
Résumé des données
Observation de dépendances
Peu de modèles prédictifs ...
La plupart sont faisables avec SQL OLAP
Extensions cube et rollup
Extensions avec fonctions d'agrégats

45
6. Conclusion

Le data mining vise à découvrir des modèles à
partir de grandes bases de faits connus
(datawarehouse)
Le processus de construction de modèles est
complexe
préparer les données
modéliser 1/3 de la base
valider sur 2/3
expérimenter plusieurs modèles