Title: Fouille de donnes en EIAH: une tude de cas
1Fouille de données en EIAHune étude de cas
Stage de Master 2 soutenance
Vendredi 24 juin 2005
2Plan
- Contexte de mon stage
- Techniques de fouille de données
- Présentation des logiciels utilisés
- Application aux données recueillies par Pépite
- Conclusion
3Contexte du stage
- Intérêt pour le projet Pépite et linformatique
décisionnelle - Retrouver, par des méthodes de fouille de
données, les stéréotypes - Obtenir des informations supplémentaires
4Techniques de fouille de données
- Techniques descriptives
- Classification rangement des éléments
dans des groupes (clusters, stéréotypes) - Règles dassociation règles du type
- Si un élève a réussi lexercice 5 alors il a
également réussi lexercice 9 - Technique prédictive
- Classement rangement délements nouveaux
dans un des groupes prédéfinis -
-
5Techniques de fouille de données
- Classification
- Hiérarchiques (CAH) Par partitionnement
(k-means) - 1. Les classes initiales sont les individus 1.
Choix de k individus (c1,c2,,ck) - 2. Calcul des distances entre classes 2.
Chacun des autres individus est regroupé avec - 3. Les deux classes les plus proches
celui des ci dont il est le plus proche - sont fusionnées
3. Les ci sont remplacés par les
barycentres des - 4. Réitération des étapes 2 et 3
groupes obtenus -
4. Réitération des étapes 2 et
3 -
-
( Forgy, 1965)
6Techniques de fouille de données
- Classement
- Transductif Inductif
- Chaque individu est classé en fonction de
Phase dapprentissage phase déductive - ceux qui le sont déjà
- k-plus proches voisins
Arbres de décision
- Chaque individu est rangé dans le groupe
1. Choix de la variable la plus pertinente - majoritaire de ces k voisins les plus
(racine) - proches déjà rangés
2. Création de sous-populations
(nuds) -
3. Réitération des
étapes 1 et 2 jusquaux -
feuilles
7Techniques de fouille de données
Exemple darbre de décision
Le chemin entre la racine est la feuille Bien
portant donne la règle Si (températurelt38) et
(gorge non irritée) alors (lindividu appartient
à la classe Bien portant)
8Techniques de fouille de données
- Règles dassociation
- Si un élève a réussi lexercice 5 alors il a
également réussi lexercice 9 - Indicateurs du niveau de pertinence
- Support p(5 et 9 réussis)
- Confiance p(9 réussi sachant que 5 réussi)
- Lift Confiance / p(9 réussi)
9Techniques de fouille de données
Une règle devient intéressante quand ses
indicateurs dépassent certains seuils. Supp gt
0,3 Conf gt 0,75 Lift gt 1
- R1 Si 6 réussi alors 3 réussi
- R2 Si 4 réussi alors 6 réussi
- R3 Si 6 et 5 réussis alors 2 réussi
10Logiciels utilisés
Beaucoup de logiciels de fouille de données
existent. Les plus utilisés en entreprise sont
des logiciels commerciaux Clementine et SAS.
- Tanagra (Laboratoire Eric de Lyon)
- Facile daccès, beaucoup de didacticiels
- Weka (Univ. de Waikato, N.Z.)
- Programmé en Java, beaucoup de chercheurs
lutilisent et le font évoluer, plus complexe
11 Logiciels utilisés en 2005 (860 votes) Source
kdnuggets.com
12Application aux données recueillies par Pépite
- Utilisation des fichiers classe.xml (C.Vincent.)
- ltidentificationgt
- ltnomgtB..lt/nomgt ltprenomgt Alt/prenomgt
ltclassegt2nd 10lt/classegt - lt/identificationgt
- lte01agt
- ltt1gt1lt/t1gt
- ltm1gt1lt/m1gt
- lt/e01agt
- lte01bgt
- ltt3gt1lt/t3gt
- ltm31gt1lt/m31gt
- lt/e01bgt
13Application aux données recueillies par Pépite
Transformation des fichiers XML ARFF à
laide du XSL _at_RELATION
stéréotype _at_ATTRIBUTE 'e1a'
t1m1,t3m33,t3m33m42,t3m42,t0 _at_ATTRIBUTE 'e1b'
t3m31,t2m1,t3m33,t1m1,t3m31m33,t0 ... _at_ATT
RIBUTE 'e22' t1m1c1,t0,t3n22,t3n21n22 _at_da
ta eleve1,t1m1,t3m31,t3m33,t1m1,t1m1r1,t1m1r1,t1l1
m1r1r32,t3m42c4,t2, eleve2, eleve3,
14Application aux données recueillies par Pépite
- Classification
- Problème de distance
- comment définir d(t1m1c1,t0) et la comparer avec
d(t3,t0). - Passage aux variables binaires
- t1m1c1
t11,m11,c11, le reste0 - Remplacer e1at3m42 par e1at3, e1am42
- Donner une valeur numérique à chaque codage en
les rangeant du moins satisfaisant au plus
satisfaisant (besoin de définir lordre avec les
didacticiens) - Utilisation daxes factoriels (projections)
15Application aux données recueillies par Pépite
- Classification
- Plusieurs classifications obtenues
- Pas vraiment de rapport avec les stéréotypes
(daprès le tableaux de validation) - Explication possible les stéréotypes sont
calculés à laide deffectifs alors que la
classification nutilise que des distances entre
les codages de chaque exercice. - Supposons quune compétence soit testée à
laide de quatre exercices de même importance et
considérons les codages obtenus par deux élèves
Elève1 t1,t0,t3,t1m1 Elève2
t0,t1,t1m1,t3 - Ces élèves seraient classés dans des groupes
différents à laide de la classification mais
auraient probablement le même stéréotype. -
16Application aux données recueillies par Pépite
- Classement
- Il est possible de déterminer le stéréotype dun
élève à laide de 4 - questions bien choisies (au lieu des 55) .
- Résultat obtenu à laide dun arbre de décision
- taux derreur inférieur à 6
- Première question e16 , chacune des suivantes
étant déterminées par le codage des réponses à
celles qui la précèdent - Possibilité dajouter une ou deux autres
questions pour réduire le taux derreur
17Application aux données recueillies par Pépite
Classement e16 in
t0 o e4b in t1m1
e4d in t3m33 then stereotype UA3T2CA3 (50,00
of 2 examples) e4d in
t3l3m33r31 e1b in
t3m31 then stereotype UA3T3CA3 (100,00 of 1
examples) e1b in t1m1
then stereotype UA1T1CA1 (100,00 of 1
examples) e1b in t2m1
then stereotype UA3T2CA3 (0,00 of 0
examples) e1b in
t3m31m33 then stereotype UA3T2CA3 (0,00 of
0 examples) e1b in t0
then stereotype UA3T2CA3 (100,00 of 1
examples) e1b in t3m33
then stereotype UA3T2CA3 (0,00 of 0
examples) e4d in t3m33r0 then
stereotype UA3T2CA3 (0,00 of 0 examples)
18Application aux données recueillies par Pépite
- Classement
- Les questions les plus déterminantes obtenues
grâce à larbre et en - particulier celle de lexercice 16 avaient déjà
été identifiées par les - didacticiens.
- Certains commencent le test par la question e16
car ils la savent déterminante pour le classement - Limportance de ces questions nétait pas encore
prouvée (uniquement considérations didactiques
expériences)
19Application aux données recueillies par Pépite
- Règles dassociation
- Nombre très important de règles même lorsque les
seuils sont élevés - Beaucoup de règles pas vraiment importantes du
type - Si e19P1at0 alors e19P1bt0
- Un élève ne traitant pas la première
partie dun exercice est mal parti pour en
traiter la seconde (même si elle est sans
rapport) - Beaucoup de règles entre les exercices non
traités car ils sont très nombreux - Certaines règles intéressantes sur des
associations de questions mais peu (parmi les
plus pertinentes) sur des associations entre
questions et stéréotypes -
20 Extrait des 19100 règles obtenues
en choisissant Liftgt1,1 Supp gt
0,33 et Conf gt 0,75
21Conclusion
- Efficacité des techniques de classement et de
recherche des règles dassociation - Possibilité de créer un test adaptatif
- Stéréotype de PépiStéréo plus parlant quune
classe obtenue par classification - Besoin dun ensemble de données plus important