Title: Analyse Quantitative et Qualitative
1- Analyse Quantitative et Qualitative
- de données textuelles
Normand Péladeau, Ph.D. Président Recherches
Provalis Inc.
2DONNÉES NUMÉRIQUES
DONNÉES TEXTUELLES
3SIMSTAT (1989) Analyses Statistiques
4(No Transcript)
5(No Transcript)
6SIMSTAT (1989) Analyses Statistiques
7(No Transcript)
8TROIS PRINCIPAUX OBSTACLES 1) Grande quantité
de formes de mots Souvent plus de 10,000 à
100,000 formes de mots 2) Polymorphie du
langage Une idée ? plusieurs formes 3)
Polysémie des mots Un mot ? plusieurs idées
9- Extracteur de chaînes de mots et du vocabulaire
technique - Liste des mots les plus fréquents
- Catégorisation des mots et chaînes de mots par un
dictionnaire usager taxonomie.
10Exemple de dictionnaire de catégorisation
11- Thésaurus et bases de données sémantiques
- Liste des mots en contexte (KWIC) pour validation
- Méthodes de désambiguïsation
12- Liste des mots en contexte (KWIC)
Polysémie du mot stress 1 (psychology) a
state of mental or emotional strain or suspense
2 (physics) force that produces strain on a
physical body 3 Verb - single out as important
13- Liste des mots en contexte (KWIC)
Désambiguïsation au moyen de chaîne de
mots STRESS_THE ou STRESS_THAT ? single out
as important UNDER_STRESS ? État émotionnel
14- Liste des mots en contexte (KWIC)
Désambiguïsation par règles TRANSFER IS NEAR
TECHNOLOGIES TRANSFER IS NOT NEAR
AUTOBUS INSATISFAIT OR (SATISFAIT IS AFTER
NÉGATION)
15(No Transcript)
16- Classification hiérarchique ascendante des mots
- Classification automatique de documents par
algorithme dapprentissage (Naive Bayes,
K-nearest Neighboor, SVM, etc.)
17Classification Automatique de Documents
18- Classification hiérarchique ascendante des mots
- Classification automatique de documents par
algorithme dapprentissage (Naive Bayes,
K-nearest Neighboor, SVM, etc.) - Groupement des documents (hiérarchique ou
k-means) - Réduction statistique de la matrice mots x
documents (SVD, analyse factorielle, composante
principale, etc.)
19(No Transcript)
20(No Transcript)
21(No Transcript)
22- Analyse de fréquences (mots, chaînes, et
catégories) - Analyse univariée de fréquences
- Comparaison avec des données normatives
(fréquence de mots) - Analyse de co-occurrence similarité de
documents - Classification hiérarchique, positionnement
multidimensionnel (MDS), graphes de proximité - Mots clés x variables numériques ou catégorielles
- Tableaux croisés (avec tests statistiques),
diagrammes en barres et linéaires, cartes
thermiques, analyse de correspondance, etc. - Classification automatique de documents
- Algorithmes dapprentissage machine dont Naive
Bayes Nearest Neighbour
23SIMSTAT (1989) Analyses Statistiques
24(No Transcript)
25(No Transcript)
26- Fonctions communes (aux logiciels de QDA)
- Livre de codage hiérarchiques / codage
glisser/déposer - Recherche de texte (avec opérateurs booléens)
- Fonction mémo pour attacher des commentaires
aux segments codés, aux sujets, au projet - Recherches sur codes avec opérateurs booléens,
de proximité, de chevauchement, etc. - Autocodage des résultats dune requête
- Accès multi-usagers avec mots de passe et
privilèges - Fusions de projets
- Exportation de données (Excel, XML, HTML, texte)
27- Fonctions uniques (1 de 2)
- Calcul intégré daccord inter-juges
- Fusion et scission assistée de codes
- Recherche et remplacement de codes
- Analyse des séquences de codages
- Comparaison du codage par sous-groupes (test
statistiques, analyse de correspondance, graphe
thermique) - Analyse de cooccurrence des codes / similarité
des cas (groupement hiérarchique, MDS, graphe de
proximité)
28(No Transcript)
29- Fonctions uniques (2 de 2)
- Appel de SimStat pour analyse des variables
numériques et catégorielles. - Intégration avec WordStat
- Analyse de contenu des documents entiers
- Analyse de contenu de segments codés
- Recherche de texte basé sur dictionnaire de
catégorisation de WordStat (mots phrases
règles)
30(No Transcript)
31(No Transcript)
32(No Transcript)
33- CLIENT Federal Aviation Administration (FAA)
JetBlue Airline - PRODUITS WordStat SimStat
- APPLICATION Découverte de connaissances
- Identification des erreurs humaines dans les
rapports dincidents et les rapport
dirrégularités de vols. - Comparaison des risques de collisions à
différents aéroports (analyse des rapports
dincidents TCAS) - Développement dune taxonomie pour le vocabulaire
de la sécurité aérienne.
34Analyse des risques de collision pour 4 aéroports
35Analyse des risques de collision pour 4 aéroports
36Cooccurrence des mots décrivant léquipement
37Confusion de deux contrôles par les pilotes
38Los Angeles, 21 septembre 2005
39Graphe thermique avions x problèmes techniques
40- CLIENT CISCO Systems Inc (Product Marketing
Department) - PRODUITS WordStat, Simstat QDA Miner
- APPLICATION Étude de marché
- Analyse de limpact dune campagne publicitaire
(CRS-1) par une analyse de contenu des échanges
sur des forums de discussion. - Analyse de la satisfaction de la clientèle face à
différents produits et services (base de données
de commentaires).
41Réactions au lancement du CRS-1
42- CLIENT The Planning Commission Hillsborough
County (Florida) - PRODUITS WordStat SimStat
- APPLICATION Analyse thématique des
consultations publiques sur laménagement urbain - Analyse de contenu de
- Environ 3000 commentaires de citoyens.
- Transcription des assemblées communautaires et
des audiences publiques. - Identification des préoccupations et des enjeux
majeurs relatifs aux différentes communautés,
différentes régions.
43- CLIENT US Office of Personnel Management
- PRODUITS WordStat SimStat
- APPLICATIONS Analyse ditems de questionnaires,
analyse dincidents critiques, enquêtes - Identification des biais sexistes et raciaux, de
langage inapproprié, dimprécision dans les
consignes ou questions. - Évaluation des habiletés et compétences de juges
à partir de rapport dincidents critiques. - Analyse des réponses à des questions ouvertes.
44- CLIENT Sciences Politiques University of
Michigan Princeton University - PRODUITS WordStat QDA Miner
- APPLICATION Analyse de contenu thématique des
documents judiciaires des discours politiques - Identification des différences dargumentation
des groupes - en faveur des programmes de discrimination
positive - opposées aux programmes de discrimination
positive - Changements stratégiques des politiciens russes
en réponse à la mobilisation et lutilisation des
forces armées américaines en Asie Centrale suite
au 11 septembre 2001.
45- Analyse des réponses à des questions ouvertes
- Résumé de transcription dentrevues, groupes de
discussion - Identification des variations dusage du
vocabulaire - Profilage de la littérature dun domaine de
recherche - Identification des tendances dans des archives
historiques - Détermination des auteurs de documents
- Système expert pour les jeunes
- Mesure des processus et des désordres
psychologiques - Analyse des interactions nourritures -
médicaments - Détection de fraudes