Analyse Quantitative et Qualitative - PowerPoint PPT Presentation

1 / 45
About This Presentation
Title:

Analyse Quantitative et Qualitative

Description:

Analyse de Textes Assist e par Ordinateur & Exploration de Textes ... pr occupations et des enjeux majeurs relatifs aux diff rentes communaut s, ... – PowerPoint PPT presentation

Number of Views:1435
Avg rating:3.0/5.0
Slides: 46
Provided by: normandp
Category:

less

Transcript and Presenter's Notes

Title: Analyse Quantitative et Qualitative


1
  • Analyse Quantitative et Qualitative
  • de données textuelles

Normand Péladeau, Ph.D. Président Recherches
Provalis Inc.
2
DONNÉES NUMÉRIQUES
DONNÉES TEXTUELLES
3
SIMSTAT (1989) Analyses Statistiques
4
(No Transcript)
5
(No Transcript)
6
SIMSTAT (1989) Analyses Statistiques
7
(No Transcript)
8
TROIS PRINCIPAUX OBSTACLES 1) Grande quantité
de formes de mots Souvent plus de 10,000 à
100,000 formes de mots 2) Polymorphie du
langage Une idée ? plusieurs formes 3)
Polysémie des mots Un mot ? plusieurs idées
9
  • Extracteur de chaînes de mots et du vocabulaire
    technique
  • Liste des mots les plus fréquents
  • Catégorisation des mots et chaînes de mots par un
    dictionnaire usager taxonomie.

10
Exemple de dictionnaire de catégorisation
11
  • Thésaurus et bases de données sémantiques
  • Liste des mots en contexte (KWIC) pour validation
  • Méthodes de désambiguïsation

12
  • Liste des mots en contexte (KWIC)

Polysémie du mot stress 1 (psychology) a
state of mental or emotional strain or suspense
2 (physics) force that produces strain on a
physical body 3 Verb - single out as important
13
  • Liste des mots en contexte (KWIC)

Désambiguïsation au moyen de chaîne de
mots STRESS_THE ou STRESS_THAT ? single out
as important UNDER_STRESS ? État émotionnel
14
  • Liste des mots en contexte (KWIC)

Désambiguïsation par règles TRANSFER IS NEAR
TECHNOLOGIES TRANSFER IS NOT NEAR
AUTOBUS INSATISFAIT OR (SATISFAIT IS AFTER
NÉGATION)
15
(No Transcript)
16
  • Classification hiérarchique ascendante des mots
  • Classification automatique de documents par
    algorithme dapprentissage (Naive Bayes,
    K-nearest Neighboor, SVM, etc.)

17
Classification Automatique de Documents
18
  • Classification hiérarchique ascendante des mots
  • Classification automatique de documents par
    algorithme dapprentissage (Naive Bayes,
    K-nearest Neighboor, SVM, etc.)
  • Groupement des documents (hiérarchique ou
    k-means)
  • Réduction statistique de la matrice mots x
    documents (SVD, analyse factorielle, composante
    principale, etc.)

19
(No Transcript)
20
(No Transcript)
21
(No Transcript)
22
  • Analyse de fréquences (mots, chaînes, et
    catégories)
  • Analyse univariée de fréquences
  • Comparaison avec des données normatives
    (fréquence de mots)
  • Analyse de co-occurrence similarité de
    documents
  • Classification hiérarchique, positionnement
    multidimensionnel (MDS), graphes de proximité
  • Mots clés x variables numériques ou catégorielles
  • Tableaux croisés (avec tests statistiques),
    diagrammes en barres et linéaires, cartes
    thermiques, analyse de correspondance, etc.
  • Classification automatique de documents
  • Algorithmes dapprentissage machine dont Naive
    Bayes Nearest Neighbour

23
SIMSTAT (1989) Analyses Statistiques
24
(No Transcript)
25
(No Transcript)
26
  • Fonctions communes (aux logiciels de QDA)
  • Livre de codage hiérarchiques / codage
     glisser/déposer 
  • Recherche de texte (avec opérateurs booléens)
  • Fonction mémo pour attacher des commentaires
    aux segments codés, aux sujets, au projet
  • Recherches sur codes avec opérateurs booléens,
    de proximité, de chevauchement, etc.
  • Autocodage des résultats dune requête
  • Accès multi-usagers avec mots de passe et
    privilèges
  • Fusions de projets
  • Exportation de données (Excel, XML, HTML, texte)

27
  • Fonctions uniques (1 de 2)
  • Calcul intégré daccord inter-juges
  • Fusion et scission assistée de codes
  • Recherche et remplacement de codes
  • Analyse des séquences de codages
  • Comparaison du codage par sous-groupes (test
    statistiques, analyse de correspondance, graphe
    thermique)
  • Analyse de cooccurrence des codes / similarité
    des cas (groupement hiérarchique, MDS, graphe de
    proximité)

28
(No Transcript)
29
  • Fonctions uniques (2 de 2)
  • Appel de SimStat pour analyse des variables
    numériques et catégorielles.
  • Intégration avec WordStat
  • Analyse de contenu des documents entiers
  • Analyse de contenu de segments codés
  • Recherche de texte basé sur dictionnaire de
    catégorisation de WordStat (mots phrases
    règles)

30
(No Transcript)
31
(No Transcript)
32
(No Transcript)
33
  • CLIENT Federal Aviation Administration (FAA)
    JetBlue Airline
  • PRODUITS WordStat SimStat
  • APPLICATION Découverte de connaissances
  • Identification des erreurs humaines dans les
    rapports dincidents et les rapport
    dirrégularités de vols.
  • Comparaison des risques de collisions à
    différents aéroports (analyse des rapports
    dincidents TCAS)
  • Développement dune taxonomie pour le vocabulaire
    de la sécurité aérienne.

34
Analyse des risques de collision pour 4 aéroports
35
Analyse des risques de collision pour 4 aéroports
36
Cooccurrence des mots décrivant léquipement
37
Confusion de deux contrôles par les pilotes
38
Los Angeles, 21 septembre 2005
39
Graphe thermique avions x problèmes techniques
40
  • CLIENT CISCO Systems Inc (Product Marketing
    Department)
  • PRODUITS WordStat, Simstat QDA Miner
  • APPLICATION Étude de marché
  • Analyse de limpact dune campagne publicitaire
    (CRS-1) par une analyse de contenu des échanges
    sur des forums de discussion.
  • Analyse de la satisfaction de la clientèle face à
    différents produits et services (base de données
    de commentaires).

41
Réactions au lancement du CRS-1
42
  • CLIENT The Planning Commission Hillsborough
    County (Florida)
  • PRODUITS WordStat SimStat
  • APPLICATION Analyse thématique des
    consultations publiques sur laménagement urbain
  • Analyse de contenu de
  • Environ 3000 commentaires de citoyens.
  • Transcription des assemblées communautaires et
    des audiences publiques.
  • Identification des préoccupations et des enjeux
    majeurs relatifs aux différentes communautés,
    différentes régions.

43
  • CLIENT US Office of Personnel Management
  • PRODUITS WordStat SimStat
  • APPLICATIONS Analyse ditems de questionnaires,
    analyse dincidents critiques, enquêtes
  • Identification des biais sexistes et raciaux, de
    langage inapproprié, dimprécision dans les
    consignes ou questions.
  • Évaluation des habiletés et compétences de juges
    à partir de rapport dincidents critiques.
  • Analyse des réponses à des questions ouvertes.

44
  • CLIENT Sciences Politiques University of
    Michigan Princeton University
  • PRODUITS WordStat QDA Miner
  • APPLICATION Analyse de contenu thématique des
    documents judiciaires des discours politiques
  • Identification des différences dargumentation
    des groupes
  • en faveur des programmes de discrimination
    positive
  • opposées aux programmes de discrimination
    positive
  • Changements stratégiques des politiciens russes
    en réponse à la mobilisation et lutilisation des
    forces armées américaines en Asie Centrale suite
    au 11 septembre 2001.

45
  • Analyse des réponses à des questions ouvertes
  • Résumé de transcription dentrevues, groupes de
    discussion
  • Identification des variations dusage du
    vocabulaire
  • Profilage de la littérature dun domaine de
    recherche
  • Identification des tendances dans des archives
    historiques
  • Détermination des auteurs de documents
  • Système expert pour les jeunes
  • Mesure des processus et des désordres
    psychologiques
  • Analyse des interactions nourritures -
    médicaments
  • Détection de fraudes
Write a Comment
User Comments (0)
About PowerShow.com