Fouille de donnes en EIAH: une tude de cas - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Fouille de donnes en EIAH: une tude de cas

Description:

Si un l ve a r ussi l exercice 5 alors il a galement r ussi l'exercice 9 ... Si un l ve a r ussi l exercice 5 alors il a galement r ussi l'exercice 9 ... – PowerPoint PPT presentation

Number of Views:63
Avg rating:3.0/5.0
Slides: 22
Provided by: mathinfoU
Category:
Tags: eiah | alors | cas | donnes | fouille | tude | une

less

Transcript and Presenter's Notes

Title: Fouille de donnes en EIAH: une tude de cas


1
Fouille de données en EIAHune étude de cas
  • Emmanuel WAYMEL

Stage de Master 2 soutenance
Vendredi 24 juin 2005
2
Plan
  • Contexte de mon stage
  • Techniques de fouille de données
  • Présentation des logiciels utilisés
  • Application aux données recueillies par Pépite
  • Conclusion

3
Contexte du stage
  • Intérêt pour le projet Pépite et linformatique
    décisionnelle
  • Retrouver, par des méthodes de fouille de
    données, les stéréotypes
  • Obtenir des informations supplémentaires

4
Techniques de fouille de données
  • Techniques descriptives
  • Classification rangement des éléments
    dans des groupes (clusters, stéréotypes)
  • Règles dassociation règles du type
  • Si un élève a réussi lexercice 5 alors il a
    également réussi lexercice 9
  • Technique prédictive
  • Classement rangement délements nouveaux
    dans un des groupes prédéfinis

5
Techniques de fouille de données
  • Classification
  • Hiérarchiques (CAH) Par partitionnement
    (k-means)
  • 1. Les classes initiales sont les individus 1.
    Choix de k individus (c1,c2,,ck)
  • 2. Calcul des distances entre classes 2.
    Chacun des autres individus est regroupé avec
  • 3. Les deux classes les plus proches
    celui des ci dont il est le plus proche
  • sont fusionnées
    3. Les ci sont remplacés par les
    barycentres des
  • 4. Réitération des étapes 2 et 3
    groupes obtenus

  • 4. Réitération des étapes 2 et
    3

  • ( Forgy, 1965)

6
Techniques de fouille de données
  • Classement
  • Transductif Inductif
  • Chaque individu est classé en fonction de
    Phase dapprentissage phase déductive
  • ceux qui le sont déjà
  • k-plus proches voisins
    Arbres de décision
  • Chaque individu est rangé dans le groupe
    1. Choix de la variable la plus pertinente
  • majoritaire de ces k voisins les plus
    (racine)
  • proches déjà rangés
    2. Création de sous-populations
    (nuds)

  • 3. Réitération des
    étapes 1 et 2 jusquaux

  • feuilles

7
Techniques de fouille de données
Exemple darbre de décision
Le chemin entre la racine est la feuille Bien
portant donne la règle Si (températurelt38) et
(gorge non irritée) alors (lindividu appartient
à la classe Bien portant)
8
Techniques de fouille de données
  • Règles dassociation
  • Si un élève a réussi lexercice 5 alors il a
    également réussi lexercice 9
  • Indicateurs du niveau de pertinence
  • Support p(5 et 9 réussis)
  • Confiance p(9 réussi sachant que 5 réussi)
  • Lift Confiance / p(9 réussi)

9
Techniques de fouille de données
Une règle devient intéressante quand ses
indicateurs dépassent certains seuils. Supp gt
0,3 Conf gt 0,75 Lift gt 1
  • R1 Si 6 réussi alors 3 réussi
  • R2 Si 4 réussi alors 6 réussi
  • R3 Si 6 et 5 réussis alors 2 réussi

10
Logiciels utilisés
Beaucoup de logiciels de fouille de données
existent. Les plus utilisés en entreprise sont
des logiciels commerciaux Clementine et SAS.
  • Tanagra (Laboratoire Eric de Lyon)
  • Facile daccès, beaucoup de didacticiels
  • Weka (Univ. de Waikato, N.Z.)
  • Programmé en Java, beaucoup de chercheurs
    lutilisent et le font évoluer, plus complexe

11

Logiciels utilisés en 2005 (860 votes) Source
kdnuggets.com
12
Application aux données recueillies par Pépite
  • Utilisation des fichiers classe.xml (C.Vincent.)
  • ltidentificationgt
  • ltnomgtB..lt/nomgt ltprenomgt Alt/prenomgt
    ltclassegt2nd 10lt/classegt
  • lt/identificationgt
  • lte01agt
  • ltt1gt1lt/t1gt
  • ltm1gt1lt/m1gt
  • lt/e01agt
  • lte01bgt
  • ltt3gt1lt/t3gt
  • ltm31gt1lt/m31gt
  • lt/e01bgt

13
Application aux données recueillies par Pépite
Transformation des fichiers XML ARFF à
laide du XSL _at_RELATION
stéréotype _at_ATTRIBUTE 'e1a'
t1m1,t3m33,t3m33m42,t3m42,t0 _at_ATTRIBUTE 'e1b'
t3m31,t2m1,t3m33,t1m1,t3m31m33,t0 ... _at_ATT
RIBUTE 'e22' t1m1c1,t0,t3n22,t3n21n22 _at_da
ta eleve1,t1m1,t3m31,t3m33,t1m1,t1m1r1,t1m1r1,t1l1
m1r1r32,t3m42c4,t2, eleve2, eleve3,
14
Application aux données recueillies par Pépite
  • Classification
  • Problème de distance
  • comment définir d(t1m1c1,t0) et la comparer avec
    d(t3,t0).
  • Passage aux variables binaires
  • t1m1c1
    t11,m11,c11, le reste0
  • Remplacer e1at3m42 par e1at3, e1am42
  • Donner une valeur numérique à chaque codage en
    les rangeant du moins satisfaisant au plus
    satisfaisant (besoin de définir lordre avec les
    didacticiens)
  • Utilisation daxes factoriels (projections)

15
Application aux données recueillies par Pépite
  • Classification
  • Plusieurs classifications obtenues
  • Pas vraiment de rapport avec les stéréotypes
    (daprès le tableaux de validation)
  • Explication possible les stéréotypes sont
    calculés à laide deffectifs alors que la
    classification nutilise que des distances entre
    les codages de chaque exercice.
  • Supposons quune compétence soit testée à
    laide de quatre exercices de même importance et
    considérons les codages obtenus par deux élèves
    Elève1 t1,t0,t3,t1m1 Elève2
    t0,t1,t1m1,t3
  • Ces élèves seraient classés dans des groupes
    différents à laide de la classification mais
    auraient probablement le même stéréotype.

16
Application aux données recueillies par Pépite
  • Classement
  • Il est possible de déterminer le stéréotype dun
    élève à laide de 4
  • questions bien choisies (au lieu des 55) .
  • Résultat obtenu à laide dun arbre de décision
  • taux derreur inférieur à 6
  • Première question e16 , chacune des suivantes
    étant déterminées par le codage des réponses à
    celles qui la précèdent
  • Possibilité dajouter une ou deux autres
    questions pour réduire le taux derreur

17
Application aux données recueillies par Pépite
Classement e16 in
t0 o e4b in t1m1
e4d in t3m33 then stereotype UA3T2CA3 (50,00
of 2 examples) e4d in
t3l3m33r31 e1b in
t3m31 then stereotype UA3T3CA3 (100,00 of 1
examples) e1b in t1m1
then stereotype UA1T1CA1 (100,00 of 1
examples) e1b in t2m1
then stereotype UA3T2CA3 (0,00 of 0
examples) e1b in
t3m31m33 then stereotype UA3T2CA3 (0,00 of
0 examples) e1b in t0
then stereotype UA3T2CA3 (100,00 of 1
examples) e1b in t3m33
then stereotype UA3T2CA3 (0,00 of 0
examples) e4d in t3m33r0 then
stereotype UA3T2CA3 (0,00 of 0 examples)

18
Application aux données recueillies par Pépite
  • Classement
  • Les questions les plus déterminantes obtenues
    grâce à larbre et en
  • particulier celle de lexercice 16 avaient déjà
    été identifiées par les
  • didacticiens.
  • Certains commencent le test par la question e16
    car ils la savent déterminante pour le classement
  • Limportance de ces questions nétait pas encore
    prouvée (uniquement considérations didactiques
    expériences)

19
Application aux données recueillies par Pépite
  • Règles dassociation
  • Nombre très important de règles même lorsque les
    seuils sont élevés
  • Beaucoup de règles pas vraiment importantes du
    type
  • Si e19P1at0 alors e19P1bt0
  • Un élève ne traitant pas la première
    partie dun exercice est mal parti pour en
    traiter la seconde (même si elle est sans
    rapport)
  • Beaucoup de règles entre les exercices non
    traités car ils sont très nombreux
  • Certaines règles intéressantes sur des
    associations de questions mais peu (parmi les
    plus pertinentes) sur des associations entre
    questions et stéréotypes

20
Extrait des 19100 règles obtenues
en choisissant Liftgt1,1 Supp gt
0,33 et Conf gt 0,75
21
Conclusion
  • Efficacité des techniques de classement et de
    recherche des règles dassociation
  • Possibilité de créer un test adaptatif
  • Stéréotype de PépiStéréo plus parlant quune
    classe obtenue par classification
  • Besoin dun ensemble de données plus important
Write a Comment
User Comments (0)
About PowerShow.com