Title: KXEN Analytic Framework
1Introduction
2Sommaire
Le data mining dans lentreprise
KXEN Vapnik la nouvelle donne
Démonstration
3Le constat du Gartner
Volume
The Business IntelligenceGap
Available Information
Numbers of criticaldecisions
Business IntelligenceAptitude
Source Gartner
Time
- Ex Une grande entreprise française en 2001
- a réalisé 900 campagnes marketing
- a fait un modèle de ciblage pour 20 campagnes
seulement
4Quest ce qui empêchent les gens aujourdhui
danalyser leurs données?
- Le facteur Gourou
- Les outils statistiques actuels demandent une
forte expertise pour être bien utilisés - Les Experts en Statistiques sont chers et très
occupés
- Les opportunités du marché
nattendent pas - La transformation des données en connaissance
prend des semaines. - Les ressources des experts sont rares
pouvez-vous attendre? - gt Vous ne pouvez appliquer les techniques de
modélisation avancées quaux projets
stratégiques.
- Une industrialisation complexe
- Informatique très sollicitée duplication des
données, mise en uvre des modèles - Multiplicité des acteurs analystes,
utilisateurs métier, informaticiens
gt Un coût par modèle élevé
5Une nécessaire expertise
Analyse des corrélations entre variables
Méthode empirique de vérification de la robustesse
Codage des variables après analyse des
distributions
Choix et compréhension des tests
Choix dun algorithme
6Challenge de la modélisation prédictive (1/2)
Construction du modèle sur des individus avec la
variable cible connue
Application du modèle sur des individus avec la
variable cible inconnue
7Challenge de la modélisation prédictive (2/2)
Y
Y
F1 (X)
F2 (X)
X
X
x
Modèle très robuste
Modèle très précis
Y
F3 (X)
X
x
Tradeoff fit-robustesse
Challenge construire à partir dun échantillon
un modèle qui soit aussi bon sur léchantillon
que sur de nouvelles données.
8Sommaire
Le data mining dans lentreprise
KXEN Vapnik la nouvelle donne
Démonstration
9Apport de Vladimir Vapnik
- Vladimir Vapnik
- énonce un cadre théorique rigoureux dans lequel
fit et robustesse dun modèle sont clairement
définis. - Il ouvre la voie à une nouvelle branche formelle
de la statistique la théorie statistique de
lapprentissage. - (excelente synthèse livre de Friedmann,
Springer Series in statistics, 2001 - Elements of Statistical Learning )
- Vladimir Vapnik mathématicien russe arrivé aux
US en 92, aux Bell (aujourdhui ATT) Labs
pendant 10 ans puis depuis 2001 chez NEC. - Premiers papiers en russe dès 1972.
- US Medal en sciences en 1992.
- Plusieurs livres chez Springer Verlag et J. Wiley
dès 1982 - Enseigné par Gilbert Saporta au CNAM, ENSAE, ISUP
depuis 2001 - Information 14 - 15 nov 2002 conférence
organisée par Saporta au CNAM avec Vapnik,
Friedmann, Schoelkopf
10Avec ou sans le SRM de Vapnik
11Sommaire
Le data mining dans lentreprise
KXEN Vapnik la nouvelle donne
Démonstration
12Positionnement KXEN
Business model
- Indirect
- Leading SIs OEMs
- KXEN Inside
Architecture
Mathematics
- Components made to be embedded
- Written around API
- Industry standards for easy integration
- Breakthrough theory allows automation
- RD backed by strong scientific committee
13Le Datamining avec KXEN cest
Introduction
Applications
Modèles Prédictifs
Modèles Descriptifs
Intégrations
Théorie
Les composants
- Classification
- Régression
- Prévisions avec séries temporelles
- Analyse Multi-variable
- Clustering
- Corrélation
- iOLAP
? Prédire lInconnu
? Quels sont les facteurs explicatifs ?
14Caractéristiques KXEN
Introduction
- Facilité dutilisation
- Possibilité de créer et déployer des modèles sans
expertise technique - Préparation des données et processus
dextraction de la connaissance automatisés - Meilleure compréhension grâce à des graphiques
pertinents et des indicateurs de performance
Applications
Intégrations
Théorie
Les composants
- Vitesse
- Construction de modèles analytiques complexes en
minutes au lieu dheures ou jours - Utilisation plus fréquente, en temps réel pour
prendre de meilleures décisions
- Fiabilité
- Obtention régulière de bons résultats en terme de
qualité(KI) et de fiabilité (KR) - La compréhension des données permet à
lutilisateur de décider de lutilisationdu
modèle en tout confiance
- Intégration
- Architecture standard de composants, DCOM, CORBA,
PMML, XML - API documentées pour une intégration facile dans
les applications et process existants
15Sommaire
KXEN positionnement
Les domaines dapplication
Intégration des composants
La théorie de Vapnik
Détails des composants
16Des données à la connaissance
Base de données
Modèle prédictif F(X1, .. Xn)
Décomposition des clients en groupes homogènes
vis à vis de lensemble des X i
Facteurs explicatifs de lachat Leviers dactions
Application du modèle sur denouveaux clients et
calcul des scores dappétences
17KXEN Analytic Framework 2.1
Introduction
Applications
Intégrations
Théorie
Les composants
Data Access C API
Consistent Coder K2C