Title: Nutzen f
1Nutzen für die psychologische Diagnostik aus der
Interpretation geschätzter raschskalierter
Personenparametervarianzen
- J. M. Müller
- Universität Tübingen
2Gliederung
- Theorie Variabilität in psychologischen
Eigenschaften - Daten Test-Meta-Analyse-Projekt
- Methode Aspekte der Schätzung von Raschvarianzen
- Anwendung Anwendungsgebiete
3Personen Variabilität in psychologischen
Eigenschaften
- Die psychometrisch basierte Persönlichkeitspsychol
ogie ging bislang davon aus, dass Personen in
verschiedenen Dimensionen vergleichbare
Variabilität aufweisen.
Dichte
Psychologische Dimension I
Die klassische Testtheorie kann
Variabilitätsunterschiede in verschiedenen
Dimensionen nicht darstellen. Innerhalb des
Raschmodels lässt sich hingegen ein Ansatz
ableiten.
4Das Schach-Beispiel(aus Müller, 2002)
5Das Schach-Beispiel
6Transfer zum Rasch Model(Fienberg Larntz,
1976, Brogden, 1977 Andrich, 1978 Engelhard,
1984 Mellenbergh Vijn, 1981 Jansen, 1984 )
- Spieler B wird zur Aufgabe b für Spieler A. Die
Differenz zwischen zwei Personen wird nun
definiert über die Differenz der
Wahrscheinlichkeit eine Aufgabe b zu lösen.
7Interpretation einer Rasch Skalen Einheit
8True Rasch Variances als Maß für die Variabilität
9True Rasch Variances als Maß für die Variabilität
102. DATEN Das TEST-META-ANALYSE-PROJEKT
Anzahl psychologischer Dimensionen gt 92
Anzahl abgeschlossener IRT-Analysen gt 880
Anzahl der Personumfänge 150 lt n lt 3700
Item-Response-Software BilogMG, Parscale, Winmira, Bigsteps
SAS-Macros zum Auslesen der Programm-Codes und
des Outputs für BilogMG, PARSCALE Winmira und
bigsteps
11Mein Dank an
- und Studenten für die Analysen
- Tina Fechter
- Magnus Pagendarm
- Mildred Girndt
- Susana Ruiz
- Daniel Kostatinov
- Die Testauthoren und Verlage für die Daten
- Paul Barrett EPQ-R English
- Willibald Ruch EPQ-R German
- Piotr Brzozowski EPQ-R Polish
- Anton Aluja EPQ-R Spanish
- Peter Borkenau NEO-FFI
- Jochen Fahrenberg FPI-R
- Peter Becker TIPI
- Stephan Bulheller EPP
- SWETS, SCHUHFRIED, HOGREFE
- und weitere.
Foundation Strukturfond der Universität
Tübingen Kap. 1415
123. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
13Interaktionen zwischen den Einflussgrößen
SOFTWARE
ROBUSTHEIT
MESSFEHLER
TRV
SCHÄTZALGORITHMEN
IRT-MODEL
LINK-FUNKTIONEN
MODEL-FIT
BODEN-UND-DECKEN-EFFEKTE
143. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
15Einfluss der IRT-Software auf die Schätzung der
Personenparametervarianz
Liste von IRT-Software
- A Fortran Program (Fischer Scheiblechner,
1970) - LOGISTIC (Wood, Wingersky Lord, 1976)
- BMD (Dixon Brown, 1977)
- ECTA (Goodman Fay, 1974)
- BICAL (Wright Mead, 1977)
- DICOT (Masters, 1984)
- MULTIRA (Carstensen Rost, 1998)
- ICL (Hanson, 2002)
- XCALIBRE (Luecht, Gierl Ackermann, 1996)
- LATENT GOLD (Vermunt Maqidson, 2000)
- SAS-Macro (Christensen Bjorner, 2003)
- WINSTEPS (Linacre Wright, 1999)
- BIGSTEPS (Linacre Wright, 2003)
- WINMIRA (Davier, 1998)
- BILOG-MG (Zimowski, Muraki, Mislevy Bock,
2003) - PARSCALE (Muraki Bock, 2003)
- QUEST (Adams Khoo, 2003)
- ConQuest (Wu, Adams Wilson, 1997)
- TESTFACT (Wood, 2003)
- MULTILOG (Thissen, 2003)
16Einfluss der IRT-Software-Optionen auf die
Schätzung der Personenparametervarianz am
Beispiel der Parscale- und BilogMG-Optionen
PARSCALE gtCALIB GRADED/PARTIAL, LOGISTIC/NORMAL,
SCALEn, NQPTn, DIST n, CYCLES (list), CRIT
(list), DIAGNOSIS n, QRANGE (list), ITEMFIT
n, FREE(list), RIDGE(list), NEWTON n,
POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR,
TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL,
NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER gtSCORE
NQPT n, DIST n, QRANGE (list), SMEAN n,
SSD n, NAME n, PFQ n, SCORING STANDARD /
CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE,
SAMPLE, RESCALE, NOADJ, FIT, NRATER Auszug aus
Parscale 4.0 Help
BILOGMG gtCALIB NQPTa, CYCLESb, NEWTONc,
PRINTd, CRITe, IDISTf, PLOTg, DIAGNOSISh,
REFERENCEi, SELECT(list), RIDGE(list),
ACCELn, NSDo, COMMON, EMPIRICAL, NORMAL, FIXED,
TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR,
NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST,
GROUP-PLOT, RASCH, NFULL, CHI(list) Auszug aus
BILOGMG 3.0 Help
17Einfluss der verwendeten Software
SimulationsstudieTRS 0.25 bis 4.00 (.25)
N1000 Items20
geschätze TRS_est
Bigsteps
ca. 1 RaschUnit
Winmira
BilogMG
Parscale
Wahre TRS
183. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
19Einfluss des Messfehlers auf die Rasch Varianz
(Lord, 1983)
Die empirische Varianz ist dann
Wir fassen eine Schätzung auf als
(2)
(1)
Wir korrigieren die ORV zur TRV
Wir kennen das Verhältnis...
(3)
(4)
ORV Observed Rasch Variance TRV True Rasch
Variance ERV Error Rasch Variance
20Die Wahl des Reliabilitätsschätzer ist nicht
unerheblichZusammenhang zweier
Reliabilitätsschätzungen
21Explizite Unterscheidung der Theoretische
Reliabilität vs. Empirische Reliabilität in
Bigsteps(ebenfalls in BilogMG) (Thissen
Wainer, 1982 Embretson, 1999 Linacre, 2003)
SUMMARY OF 1500 MEASURED VPNS -----------------
------------------------------- RAW
MODEL
SCORE COUNT MEASURE ERROR
-----------------------------------------------
- MEAN 34.4 58.8 .42 .29
S.D. 6.9 3.7 .55
.02 MAX. 53.0 61.0 2.15
.62 MIN. 4.0 13.0 -1.74
.28 ---------------------------------------
--------- REAL RMSE .30 ADJ.SD .46 VPN
RELIABILITY .70 MODEL RMSE .29 ADJ.SD .46
VPN RELIABILITY .71 ---------------------------
---------------------
Bigsteps Output
ORS
TRS
22Die Reliabilität beeinflusst die ORV, aber nicht
die TRV Beispiel des SPM (N1500) (Anmerkung r
reli, cronbach 0.976)
Rasch Varianzen Personen
Zufällig Itemreduktion
ORV
TRV
0.5 1.0 1.5 2.0
Reliabilität
10 20 30 40 50
60 Anzahl an Items
23Während die Reliabilität die ORV beeinflusst,
beeinflusst dagegen die TRV die Reliabilität
Simulationsstudie TRS 0.25 bis 4.00 (.25)
N1000 Items20
24Konsequenz Variationsreiche Eigenschaften sind
,unter sonst gleichen Bedingungen reliableram
Beispiel der EPQ-R(S) Skalen (Itemanzahl
zwischen 15 und 25)
Cronbach Reliabilität, N40, rspear.71, sign.
Software Reliabilität N40, rspear. 44, sign.
0 0.25 .5 0.75 1.0
0 0.25 .5 0.75 1.0
0 1 2 0 1
2 TRV
25Ohne Eingrenzung auf Skalen mit ca. 20 Itemsam
Beispiel aller EPQ-R(S) Skalen Deutsch,
Spanisch, Englisch, Polnisch
Cronbach Reliabilität, N87, r.60, sign.
Software Reliabilität N87, r.32, sign.
0 0.25 .5 0.75 1.0
0 0.25 .5 0.75 1.0
0 1 2 3 0 1
2 3 TRV
26Erklärung Relativer Anteil des
Model-vorhergesagten Standardfehlers SE an der
wahren Raschvarianz TRV
TRV 2
TRV 1
SE1,2
273. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
28Erklärung Variierender Trennschärfen auf das TRV
Lösungs-wahrscheinlichkeit
ß 1
Konstante Differenz
ß 0.5
q
q
q
C
B
A
293. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
30Wie robust sind TRV-Schätzungen gegenüber
Modellverletzungen?
- Mögliche Modelverletzungen
- Falsche Modellwahl (z.B. 1PL statt 2PL)
- Differential-Item-Functioning (Items sind für
Subgruppen verschieden schwer) - Antworttendenzen in Subgruppen (testbar über
Mixed-Rasch-Modelle Rost Carstensen) - Verletzung der Annahme lokal stochastischer
Unabhängigkeit (Prüfung über T-Rasch, Ponocny
Residualanalysen, H. Müller, 2003, MethEval,
Wien) - Inhomogene Personen (Person-Fit)
- Inhomogene Items (Item-Fit)
31Wie robust sind TRV-Schätzungen gegenüber
Modellverletzungen?Am Beispiel vier
verschiedensprachiger EPQ-R(S) Skalen
Neurotizismus
Psychotizismus
Lügen
Extraversion
Deutsch
Spanisch
Polnisch
Englisch
32Einfluss von Model-Verletzungenam Q-Index am
Beispiel der EPQ-R
Neurotizismus
Psychotizismus
Lügen
Extraversion
Items
Deutsch
8 5
10 10
6 5
9 12
32
25
22
23
102
Spanisch
1 0
3 2
3 2
3 3
12
12
12
12
48
Polnisch
90
1 13
5 6
6 8
6 13
23
32
14
21
Englisch
5 6
4 3
8 11
3 0
24
21
23
32
100
Q-Index
negativ positiv
33Einfluss von Model-VerletzungenItemselektion
nach Q-Indexam Beispiel des EPQ-R Deutsch
Extraversion
Itemanzahl
34Voraussetzungen zur Interpretation von TRVam
Beispiel des EPQ-R DeutschItemuntergrenze von 10
Neurotizismus
Extraversion
Lügen
Psychotizismus
35Voraussetzungen zur Interpretation von
TRVItemuntergrenze von 10
Deutsch
Englisch
Spanisch
Polnisch
363. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
37Einfluss der Schätzalgorithmen
- Schätzalgorithmen
- MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB,
h-estimators, biweight and jackknifed
estimators/robustification - Direct Estimation (Mislevy 1984 Cohen Jiang,
2002 v. Davier, 2003) in ConQuest - Simulationsstudien
- Samejima, 1993 Hoijtink Boomsma, 1993, 1995,
1996 Kim Nicewander, 1993 Warm, 1989 Rigdon
Tsatakawa, 1983)
38Einfluss der SchätzalgorithmenMLE vs. WML
Mean Std Dev N Pr gt t 0.01
0.32 131 0.696
393. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
- SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
- MESSFEHLER
- IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
- MODEL-FIT/ROBUSTHEIT
- SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
- LINK-FUNKTIONEN (Logit, Normal-Ogive)
- BODEN-UND-DECKEN-EFFEKTE
40 BODEN-UND-DECKEN Effekte auf die
STANDARDABWEICHUNG
41BODEN-UND-DECKEN Effekte auf die SCHIEFE
42BODEN-UND-DECKEN Effekte auf die KURTOSIS
43Die Notwendigkeit eines Standards...
- Der Messfehler 0 (TRV).
- Die Link-Funktion ist der Logit.
- Mindestens 10 Items.
- Der Schätzalgorithmus über direct Estimation.
- Die theoretische Verteilung ist normalverteilt?
444. Nutzen für die psychologische Diagnostik
- Testkonstruktion
- Testbeschreibung
- Testanwendung
- Neue Forschungsfelder
45Nutzen für die psychologische Diagnostik
Testkonstruktion
- Hohe Variabilität als Voraussetzung reliabler
Messung - Inhaltsvalidität
- Konstruktvalidität
46Inhaltsvalidität
- als Konzept einer repräsentativen
Itemstichprobe aus dem Universum eines
theoretisch unendlichen Itempools - (Fitzpatrick, 1983 Klauer, 1984).
Hypothese Wir erwarten entsprechen vergleichbare
TRV bei verschiedenen Operationalisierung eines
Konstruktes
47Variationsunterschiede am Beispiel des EPQ-R
Deutsch (mit Winmira vergleichbar mit Bigsteps)
Deutsch
0 1.0 2.0
Ex
Ne
Ps
Lü
Fehlerquellen Konstrukt, Methode and
Itemauswahl (Vijver Hambleton, 1996)
48Vergleich von Variationsunterschieden zur
Überprüfung der Inhaltsvalidität am Beispiel des
EPQ-R(S)
?
49EPQ-R(S)Inhaltsvalidität über Vergleiche der TRV
ohne inhomogene Items (Q-Index)(mit Winmira)
50KonstruktvaliditätÜberprüfung theoretischer
Zusammenhänge zwischen Konstrukten
- Problemstellung
- Werden zwei Tests auf theoretische Zusammenhänge
überprüft, so werden hohe korrelative
Zusammenhänge erwartet. - Es besteht jedoch die Gefahr, dass
Item-Überschneidungen (Westmeyer) stattdessen die
Inhaltsvalidität prüfen. - Da beide Instrumente Verschiedenes messen
(sollen), kann dies über unterschiedliche Rasch
Varianzen belegt werden (als notwendige, aber
nicht hinreichende Voraussetzung von
Unterschiedlichkeit).
51Testbeschreibung Illustration von
Variationsunterschiede am Beispiel des SPM
(N1500) und RIS (N147)
RIS
SPM
SPM Reliabilität
RIS Reliabilität
52TestanwendungVerändertes diagnostisches
Schlussfolgern
RIS
SPM
Dichte
Testwert SPM
DSPM
Rasch Einheiten
Testwert RIS
DRIS
53TestanwendungDiagnostik von Interventionseffekten
Ein neues Effektmaß in Ergänzung zu Cohens
Maße der Effektstärke
Standardisierung notwendig
Effektmaß d von Cohen
Keine Standardisierung notwendig
Effektmaß dR
54Neue Forschungsfelder Veränderung der
Variabilität über die Lebensspanne
PP-Verteilung von 5 jährigen Kinder
Dichte
True Rasch Scores
Testwert eines Kindes
55Neue ForschungsfelderPersönlichkeitstests als
Vektorraum Welche Tests umfassen mehr
Variabilität?
56Zusammenfassung
- Interpretation der wahren Raschskalierten
Personenparametervarianzen - Methodische Aspekte der Schätzung
- Nutzen in der Diagnostik
- Ausblick
57Thank you for your attention.
- More Information you can find under
- www.psychological-tests.de
- Send me your data!
58A link to a previews presentation on the
European Congress of Personality in Jena, 2002
59Bekannte Ansätze zur Überprüfung der
Inhaltsvalidität
- Psychometrische Ansätze
- ... by correlations
- ... by structural equivalence
- ... by simple descriptives like
- Variances in rasch-units
-
60Differences between the approaches
- Testing of relationsships
- is a strategy that leads to
- weak statistical testing (H1-hypothesis)
- Testing of equivalence (deviation )
- is a strategy that leads to
- strong statistical testing (H0-hypothesis)
61 Influences of BOTTOM-AND-CEILING effects on the
TRV
Bottom-effect Look for Skewness!
Bottom-and-ceiling effect Look for Kurtosis!
You find a skewness of magnitude 1
You see that this is caused by an cutting-point
at 0.5
A cutting-point at 0.5 leads to an decreased
variability of 70