Fouille de donnes en EIAH: une tude de cas

About This Presentation

Title:

Fouille de donnes en EIAH: une tude de cas

Description:

Si un l ve a r ussi l exercice 5 alors il a galement r ussi l'exercice 9 ... Si un l ve a r ussi l exercice 5 alors il a galement r ussi l'exercice 9 ... – PowerPoint PPT presentation

Number of Views:63

Avg rating:3.0/5.0

Slides: 22

Provided by: mathinfoU

Category:

more less

Transcript and Presenter's Notes

Title: Fouille de donnes en EIAH: une tude de cas

1
Fouille de données en EIAHune étude de cas

Emmanuel WAYMEL

Stage de Master 2 soutenance
Vendredi 24 juin 2005
2
Plan

Contexte de mon stage
Techniques de fouille de données
Présentation des logiciels utilisés
Application aux données recueillies par Pépite
Conclusion

3
Contexte du stage

Intérêt pour le projet Pépite et linformatique
décisionnelle
Retrouver, par des méthodes de fouille de
données, les stéréotypes
Obtenir des informations supplémentaires

4
Techniques de fouille de données

Techniques descriptives
Classification rangement des éléments
dans des groupes (clusters, stéréotypes)
Règles dassociation règles du type
Si un élève a réussi lexercice 5 alors il a
également réussi lexercice 9
Technique prédictive
Classement rangement délements nouveaux
dans un des groupes prédéfinis

5
Techniques de fouille de données

Classification
Hiérarchiques (CAH) Par partitionnement
(k-means)
1. Les classes initiales sont les individus 1.
Choix de k individus (c1,c2,,ck)
2. Calcul des distances entre classes 2.
Chacun des autres individus est regroupé avec
3. Les deux classes les plus proches
celui des ci dont il est le plus proche
sont fusionnées
3. Les ci sont remplacés par les
barycentres des
4. Réitération des étapes 2 et 3
groupes obtenus
4. Réitération des étapes 2 et
3
( Forgy, 1965)

6
Techniques de fouille de données

Classement
Transductif Inductif
Chaque individu est classé en fonction de
Phase dapprentissage phase déductive
ceux qui le sont déjà
k-plus proches voisins
Arbres de décision
Chaque individu est rangé dans le groupe
1. Choix de la variable la plus pertinente
majoritaire de ces k voisins les plus
(racine)
proches déjà rangés
2. Création de sous-populations
(nuds)
3. Réitération des
étapes 1 et 2 jusquaux
feuilles

7
Techniques de fouille de données
Exemple darbre de décision
Le chemin entre la racine est la feuille Bien
portant donne la règle Si (températurelt38) et
(gorge non irritée) alors (lindividu appartient
à la classe Bien portant)
8
Techniques de fouille de données

Règles dassociation
Si un élève a réussi lexercice 5 alors il a
également réussi lexercice 9
Indicateurs du niveau de pertinence
Support p(5 et 9 réussis)
Confiance p(9 réussi sachant que 5 réussi)
Lift Confiance / p(9 réussi)

9
Techniques de fouille de données
Une règle devient intéressante quand ses
indicateurs dépassent certains seuils. Supp gt
0,3 Conf gt 0,75 Lift gt 1

R1 Si 6 réussi alors 3 réussi
R2 Si 4 réussi alors 6 réussi
R3 Si 6 et 5 réussis alors 2 réussi

10
Logiciels utilisés
Beaucoup de logiciels de fouille de données
existent. Les plus utilisés en entreprise sont
des logiciels commerciaux Clementine et SAS.

Tanagra (Laboratoire Eric de Lyon)
Facile daccès, beaucoup de didacticiels
Weka (Univ. de Waikato, N.Z.)
Programmé en Java, beaucoup de chercheurs
lutilisent et le font évoluer, plus complexe

11

Logiciels utilisés en 2005 (860 votes) Source
kdnuggets.com
12
Application aux données recueillies par Pépite

Utilisation des fichiers classe.xml (C.Vincent.)
ltidentificationgt
ltnomgtB..lt/nomgt ltprenomgt Alt/prenomgt
ltclassegt2nd 10lt/classegt
lt/identificationgt
lte01agt
ltt1gt1lt/t1gt
ltm1gt1lt/m1gt
lt/e01agt
lte01bgt
ltt3gt1lt/t3gt
ltm31gt1lt/m31gt
lt/e01bgt

13
Application aux données recueillies par Pépite
Transformation des fichiers XML ARFF à
laide du XSL _at_RELATION
stéréotype _at_ATTRIBUTE 'e1a'
t1m1,t3m33,t3m33m42,t3m42,t0 _at_ATTRIBUTE 'e1b'
t3m31,t2m1,t3m33,t1m1,t3m31m33,t0 ... _at_ATT
RIBUTE 'e22' t1m1c1,t0,t3n22,t3n21n22 _at_da
ta eleve1,t1m1,t3m31,t3m33,t1m1,t1m1r1,t1m1r1,t1l1
m1r1r32,t3m42c4,t2, eleve2, eleve3,
14
Application aux données recueillies par Pépite

Classification
Problème de distance
comment définir d(t1m1c1,t0) et la comparer avec
d(t3,t0).
Passage aux variables binaires
t1m1c1
t11,m11,c11, le reste0
Remplacer e1at3m42 par e1at3, e1am42
Donner une valeur numérique à chaque codage en
les rangeant du moins satisfaisant au plus
satisfaisant (besoin de définir lordre avec les
didacticiens)
Utilisation daxes factoriels (projections)

15
Application aux données recueillies par Pépite

Classification
Plusieurs classifications obtenues
Pas vraiment de rapport avec les stéréotypes
(daprès le tableaux de validation)
Explication possible les stéréotypes sont
calculés à laide deffectifs alors que la
classification nutilise que des distances entre
les codages de chaque exercice.
Supposons quune compétence soit testée à
laide de quatre exercices de même importance et
considérons les codages obtenus par deux élèves
Elève1 t1,t0,t3,t1m1 Elève2
t0,t1,t1m1,t3
Ces élèves seraient classés dans des groupes
différents à laide de la classification mais
auraient probablement le même stéréotype.

16
Application aux données recueillies par Pépite

Classement
Il est possible de déterminer le stéréotype dun
élève à laide de 4
questions bien choisies (au lieu des 55) .
Résultat obtenu à laide dun arbre de décision
taux derreur inférieur à 6
Première question e16 , chacune des suivantes
étant déterminées par le codage des réponses à
celles qui la précèdent
Possibilité dajouter une ou deux autres
questions pour réduire le taux derreur

17
Application aux données recueillies par Pépite
Classement e16 in
t0 o e4b in t1m1
e4d in t3m33 then stereotype UA3T2CA3 (50,00
of 2 examples) e4d in
t3l3m33r31 e1b in
t3m31 then stereotype UA3T3CA3 (100,00 of 1
examples) e1b in t1m1
then stereotype UA1T1CA1 (100,00 of 1
examples) e1b in t2m1
then stereotype UA3T2CA3 (0,00 of 0
examples) e1b in
t3m31m33 then stereotype UA3T2CA3 (0,00 of
0 examples) e1b in t0
then stereotype UA3T2CA3 (100,00 of 1
examples) e1b in t3m33
then stereotype UA3T2CA3 (0,00 of 0
examples) e4d in t3m33r0 then
stereotype UA3T2CA3 (0,00 of 0 examples)

18
Application aux données recueillies par Pépite

Classement
Les questions les plus déterminantes obtenues
grâce à larbre et en
particulier celle de lexercice 16 avaient déjà
été identifiées par les
didacticiens.
Certains commencent le test par la question e16
car ils la savent déterminante pour le classement
Limportance de ces questions nétait pas encore
prouvée (uniquement considérations didactiques
expériences)

19
Application aux données recueillies par Pépite

Règles dassociation
Nombre très important de règles même lorsque les
seuils sont élevés
Beaucoup de règles pas vraiment importantes du
type
Si e19P1at0 alors e19P1bt0
Un élève ne traitant pas la première
partie dun exercice est mal parti pour en
traiter la seconde (même si elle est sans
rapport)
Beaucoup de règles entre les exercices non
traités car ils sont très nombreux
Certaines règles intéressantes sur des
associations de questions mais peu (parmi les
plus pertinentes) sur des associations entre
questions et stéréotypes