Nutzen f - PowerPoint PPT Presentation

About This Presentation
Title:

Nutzen f

Description:

Title: Comparison of the NEO-FFI, EPP, 16PF-R, EPQ-R and TIPI Extraversion Scale: A new approach to proofing content validity by comparing the Rasch-scaled variance ... – PowerPoint PPT presentation

Number of Views:167
Avg rating:3.0/5.0
Slides: 62
Provided by: jmm56
Category:
Tags: macros | nutzen

less

Transcript and Presenter's Notes

Title: Nutzen f


1
Nutzen für die psychologische Diagnostik aus der
Interpretation geschätzter raschskalierter
Personenparametervarianzen
  • J. M. Müller
  • Universität Tübingen

2
Gliederung
  1. Theorie Variabilität in psychologischen
    Eigenschaften
  2. Daten Test-Meta-Analyse-Projekt
  3. Methode Aspekte der Schätzung von Raschvarianzen
  4. Anwendung Anwendungsgebiete

3
Personen Variabilität in psychologischen
Eigenschaften
  • Die psychometrisch basierte Persönlichkeitspsychol
    ogie ging bislang davon aus, dass Personen in
    verschiedenen Dimensionen vergleichbare
    Variabilität aufweisen.

Dichte
Psychologische Dimension I
Die klassische Testtheorie kann
Variabilitätsunterschiede in verschiedenen
Dimensionen nicht darstellen. Innerhalb des
Raschmodels lässt sich hingegen ein Ansatz
ableiten.
4
Das Schach-Beispiel(aus Müller, 2002)
5
Das Schach-Beispiel
6
Transfer zum Rasch Model(Fienberg Larntz,
1976, Brogden, 1977 Andrich, 1978 Engelhard,
1984 Mellenbergh Vijn, 1981 Jansen, 1984 )
  • Spieler B wird zur Aufgabe b für Spieler A. Die
    Differenz zwischen zwei Personen wird nun
    definiert über die Differenz der
    Wahrscheinlichkeit eine Aufgabe b zu lösen.

7
Interpretation einer Rasch Skalen Einheit
8
True Rasch Variances als Maß für die Variabilität
9
True Rasch Variances als Maß für die Variabilität
10
2. DATEN Das TEST-META-ANALYSE-PROJEKT
Anzahl psychologischer Dimensionen gt 92
Anzahl abgeschlossener IRT-Analysen gt 880
Anzahl der Personumfänge 150 lt n lt 3700
Item-Response-Software BilogMG, Parscale, Winmira, Bigsteps
SAS-Macros zum Auslesen der Programm-Codes und
des Outputs für BilogMG, PARSCALE Winmira und
bigsteps
11
Mein Dank an
  • und Studenten für die Analysen
  • Tina Fechter
  • Magnus Pagendarm
  • Mildred Girndt
  • Susana Ruiz
  • Daniel Kostatinov
  • Die Testauthoren und Verlage für die Daten
  • Paul Barrett EPQ-R English
  • Willibald Ruch EPQ-R German
  • Piotr Brzozowski EPQ-R Polish
  • Anton Aluja EPQ-R Spanish
  • Peter Borkenau NEO-FFI
  • Jochen Fahrenberg FPI-R
  • Peter Becker TIPI
  • Stephan Bulheller EPP
  • SWETS, SCHUHFRIED, HOGREFE
  • und weitere.

Foundation Strukturfond der Universität
Tübingen Kap. 1415
12
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

13
Interaktionen zwischen den Einflussgrößen
SOFTWARE
ROBUSTHEIT
MESSFEHLER
TRV
SCHÄTZALGORITHMEN
IRT-MODEL
LINK-FUNKTIONEN
MODEL-FIT
BODEN-UND-DECKEN-EFFEKTE
14
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

15
Einfluss der IRT-Software auf die Schätzung der
Personenparametervarianz
Liste von IRT-Software
  1. A Fortran Program (Fischer Scheiblechner,
    1970)
  2. LOGISTIC (Wood, Wingersky Lord, 1976)
  3. BMD (Dixon Brown, 1977)
  4. ECTA (Goodman Fay, 1974)
  5. BICAL (Wright Mead, 1977)
  6. DICOT (Masters, 1984)
  7. MULTIRA (Carstensen Rost, 1998)
  8. ICL (Hanson, 2002)
  9. XCALIBRE (Luecht, Gierl Ackermann, 1996)
  10. LATENT GOLD (Vermunt Maqidson, 2000)
  11. SAS-Macro (Christensen Bjorner, 2003)
  1. WINSTEPS (Linacre Wright, 1999)
  2. BIGSTEPS (Linacre Wright, 2003)
  3. WINMIRA (Davier, 1998)
  4. BILOG-MG (Zimowski, Muraki, Mislevy Bock,
    2003)
  5. PARSCALE (Muraki Bock, 2003)
  6. QUEST (Adams Khoo, 2003)
  7. ConQuest (Wu, Adams Wilson, 1997)
  8. TESTFACT (Wood, 2003)
  9. MULTILOG (Thissen, 2003)

16
Einfluss der IRT-Software-Optionen auf die
Schätzung der Personenparametervarianz am
Beispiel der Parscale- und BilogMG-Optionen
PARSCALE gtCALIB GRADED/PARTIAL, LOGISTIC/NORMAL,
SCALEn, NQPTn, DIST n, CYCLES (list), CRIT
(list), DIAGNOSIS n, QRANGE (list), ITEMFIT
n, FREE(list), RIDGE(list), NEWTON n,
POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR,
TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL,
NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER gtSCORE
NQPT n, DIST n, QRANGE (list), SMEAN n,
SSD n, NAME n, PFQ n, SCORING STANDARD /
CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE,
SAMPLE, RESCALE, NOADJ, FIT, NRATER Auszug aus
Parscale 4.0 Help
BILOGMG gtCALIB NQPTa, CYCLESb, NEWTONc,
PRINTd, CRITe, IDISTf, PLOTg, DIAGNOSISh,
REFERENCEi, SELECT(list), RIDGE(list),
ACCELn, NSDo, COMMON, EMPIRICAL, NORMAL, FIXED,
TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR,
NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST,
GROUP-PLOT, RASCH, NFULL, CHI(list) Auszug aus
BILOGMG 3.0 Help
17
Einfluss der verwendeten Software
SimulationsstudieTRS 0.25 bis 4.00 (.25)
N1000 Items20
geschätze TRS_est
Bigsteps
ca. 1 RaschUnit
Winmira
BilogMG
Parscale
Wahre TRS
18
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

19
Einfluss des Messfehlers auf die Rasch Varianz
(Lord, 1983)
Die empirische Varianz ist dann
Wir fassen eine Schätzung auf als
(2)
(1)
Wir korrigieren die ORV zur TRV
Wir kennen das Verhältnis...
(3)
(4)
ORV Observed Rasch Variance TRV True Rasch
Variance ERV Error Rasch Variance
20
Die Wahl des Reliabilitätsschätzer ist nicht
unerheblichZusammenhang zweier
Reliabilitätsschätzungen
21
Explizite Unterscheidung der Theoretische
Reliabilität vs. Empirische Reliabilität in
Bigsteps(ebenfalls in BilogMG) (Thissen
Wainer, 1982 Embretson, 1999 Linacre, 2003)
SUMMARY OF 1500 MEASURED VPNS -----------------
------------------------------- RAW
MODEL
SCORE COUNT MEASURE ERROR
-----------------------------------------------
- MEAN 34.4 58.8 .42 .29
S.D. 6.9 3.7 .55
.02 MAX. 53.0 61.0 2.15
.62 MIN. 4.0 13.0 -1.74
.28 ---------------------------------------
--------- REAL RMSE .30 ADJ.SD .46 VPN
RELIABILITY .70 MODEL RMSE .29 ADJ.SD .46
VPN RELIABILITY .71 ---------------------------
---------------------
Bigsteps Output
ORS
TRS
22
Die Reliabilität beeinflusst die ORV, aber nicht
die TRV Beispiel des SPM (N1500) (Anmerkung r
reli, cronbach 0.976)
Rasch Varianzen Personen
Zufällig Itemreduktion
ORV
TRV
0.5 1.0 1.5 2.0
Reliabilität
10 20 30 40 50
60 Anzahl an Items
23
Während die Reliabilität die ORV beeinflusst,
beeinflusst dagegen die TRV die Reliabilität
Simulationsstudie TRS 0.25 bis 4.00 (.25)
N1000 Items20
24
Konsequenz Variationsreiche Eigenschaften sind
,unter sonst gleichen Bedingungen reliableram
Beispiel der EPQ-R(S) Skalen (Itemanzahl
zwischen 15 und 25)
Cronbach Reliabilität, N40, rspear.71, sign.
Software Reliabilität N40, rspear. 44, sign.
0 0.25 .5 0.75 1.0
0 0.25 .5 0.75 1.0
0 1 2 0 1
2 TRV
25
Ohne Eingrenzung auf Skalen mit ca. 20 Itemsam
Beispiel aller EPQ-R(S) Skalen Deutsch,
Spanisch, Englisch, Polnisch
Cronbach Reliabilität, N87, r.60, sign.
Software Reliabilität N87, r.32, sign.
0 0.25 .5 0.75 1.0
0 0.25 .5 0.75 1.0
0 1 2 3 0 1
2 3 TRV
26
Erklärung Relativer Anteil des
Model-vorhergesagten Standardfehlers SE an der
wahren Raschvarianz TRV
TRV 2
TRV 1
SE1,2
27
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

28
Erklärung Variierender Trennschärfen auf das TRV


Lösungs-wahrscheinlichkeit
ß 1
Konstante Differenz
ß 0.5
q
q
q

C
B
A
29
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

30
Wie robust sind TRV-Schätzungen gegenüber
Modellverletzungen?
  • Mögliche Modelverletzungen
  • Falsche Modellwahl (z.B. 1PL statt 2PL)
  • Differential-Item-Functioning (Items sind für
    Subgruppen verschieden schwer)
  • Antworttendenzen in Subgruppen (testbar über
    Mixed-Rasch-Modelle Rost Carstensen)
  • Verletzung der Annahme lokal stochastischer
    Unabhängigkeit (Prüfung über T-Rasch, Ponocny
    Residualanalysen, H. Müller, 2003, MethEval,
    Wien)
  • Inhomogene Personen (Person-Fit)
  • Inhomogene Items (Item-Fit)

31
Wie robust sind TRV-Schätzungen gegenüber
Modellverletzungen?Am Beispiel vier
verschiedensprachiger EPQ-R(S) Skalen
Neurotizismus
Psychotizismus
Lügen
Extraversion
Deutsch
Spanisch
Polnisch
Englisch
32
Einfluss von Model-Verletzungenam Q-Index am
Beispiel der EPQ-R
Neurotizismus
Psychotizismus
Lügen
Extraversion
Items
Deutsch
8 5
10 10
6 5
9 12
32
25
22
23
102
Spanisch
1 0
3 2
3 2
3 3
12
12
12
12
48
Polnisch
90
1 13
5 6
6 8
6 13
23
32
14
21
Englisch
5 6
4 3
8 11
3 0
24
21
23
32
100
Q-Index
negativ positiv
33
Einfluss von Model-VerletzungenItemselektion
nach Q-Indexam Beispiel des EPQ-R Deutsch
Extraversion
Itemanzahl
34
Voraussetzungen zur Interpretation von TRVam
Beispiel des EPQ-R DeutschItemuntergrenze von 10
Neurotizismus
Extraversion
Lügen
Psychotizismus
35
Voraussetzungen zur Interpretation von
TRVItemuntergrenze von 10
Deutsch
Englisch
Spanisch
Polnisch
36
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

37
Einfluss der Schätzalgorithmen
  • Schätzalgorithmen
  • MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB,
    h-estimators, biweight and jackknifed
    estimators/robustification
  • Direct Estimation (Mislevy 1984 Cohen Jiang,
    2002 v. Davier, 2003) in ConQuest
  • Simulationsstudien
  • Samejima, 1993 Hoijtink Boomsma, 1993, 1995,
    1996 Kim Nicewander, 1993 Warm, 1989 Rigdon
    Tsatakawa, 1983)

38
Einfluss der SchätzalgorithmenMLE vs. WML
Mean Std Dev N Pr gt t 0.01
0.32 131 0.696
39
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen
  • SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
  • MESSFEHLER
  • IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
  • MODEL-FIT/ROBUSTHEIT
  • SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
  • LINK-FUNKTIONEN (Logit, Normal-Ogive)
  • BODEN-UND-DECKEN-EFFEKTE

40
BODEN-UND-DECKEN Effekte auf die
STANDARDABWEICHUNG
41
BODEN-UND-DECKEN Effekte auf die SCHIEFE
42
BODEN-UND-DECKEN Effekte auf die KURTOSIS
43
Die Notwendigkeit eines Standards...
  1. Der Messfehler 0 (TRV).
  2. Die Link-Funktion ist der Logit.
  3. Mindestens 10 Items.
  4. Der Schätzalgorithmus über direct Estimation.
  5. Die theoretische Verteilung ist normalverteilt?

44
4. Nutzen für die psychologische Diagnostik
  1. Testkonstruktion
  2. Testbeschreibung
  3. Testanwendung
  4. Neue Forschungsfelder

45
Nutzen für die psychologische Diagnostik
Testkonstruktion
  1. Hohe Variabilität als Voraussetzung reliabler
    Messung
  2. Inhaltsvalidität
  3. Konstruktvalidität

46
Inhaltsvalidität
  • als Konzept einer repräsentativen
    Itemstichprobe aus dem Universum eines
    theoretisch unendlichen Itempools
  • (Fitzpatrick, 1983 Klauer, 1984).

Hypothese Wir erwarten entsprechen vergleichbare
TRV bei verschiedenen Operationalisierung eines
Konstruktes
47
Variationsunterschiede am Beispiel des EPQ-R
Deutsch (mit Winmira vergleichbar mit Bigsteps)
Deutsch
0 1.0 2.0
Ex
Ne
Ps

Fehlerquellen Konstrukt, Methode and
Itemauswahl (Vijver Hambleton, 1996)
48
Vergleich von Variationsunterschieden zur
Überprüfung der Inhaltsvalidität am Beispiel des
EPQ-R(S)
?
49
EPQ-R(S)Inhaltsvalidität über Vergleiche der TRV
ohne inhomogene Items (Q-Index)(mit Winmira)
50
KonstruktvaliditätÜberprüfung theoretischer
Zusammenhänge zwischen Konstrukten
  • Problemstellung
  • Werden zwei Tests auf theoretische Zusammenhänge
    überprüft, so werden hohe korrelative
    Zusammenhänge erwartet.
  • Es besteht jedoch die Gefahr, dass
    Item-Überschneidungen (Westmeyer) stattdessen die
    Inhaltsvalidität prüfen.
  • Da beide Instrumente Verschiedenes messen
    (sollen), kann dies über unterschiedliche Rasch
    Varianzen belegt werden (als notwendige, aber
    nicht hinreichende Voraussetzung von
    Unterschiedlichkeit).

51
Testbeschreibung Illustration von
Variationsunterschiede am Beispiel des SPM
(N1500) und RIS (N147)
RIS
SPM
SPM Reliabilität
RIS Reliabilität
52
TestanwendungVerändertes diagnostisches
Schlussfolgern
RIS
SPM
Dichte
Testwert SPM
DSPM
Rasch Einheiten
Testwert RIS
DRIS
53
TestanwendungDiagnostik von Interventionseffekten
Ein neues Effektmaß in Ergänzung zu Cohens
Maße der Effektstärke
Standardisierung notwendig
Effektmaß d von Cohen
Keine Standardisierung notwendig
Effektmaß dR
54
Neue Forschungsfelder Veränderung der
Variabilität über die Lebensspanne
PP-Verteilung von 5 jährigen Kinder
Dichte
True Rasch Scores
Testwert eines Kindes
55
Neue ForschungsfelderPersönlichkeitstests als
Vektorraum Welche Tests umfassen mehr
Variabilität?
56
Zusammenfassung
  1. Interpretation der wahren Raschskalierten
    Personenparametervarianzen
  2. Methodische Aspekte der Schätzung
  3. Nutzen in der Diagnostik
  4. Ausblick

57
Thank you for your attention.
  • More Information you can find under
  • www.psychological-tests.de
  • Send me your data!

58
A link to a previews presentation on the
European Congress of Personality in Jena, 2002
59
Bekannte Ansätze zur Überprüfung der
Inhaltsvalidität
  • Psychometrische Ansätze
  • ... by correlations
  • ... by structural equivalence
  • ... by simple descriptives like
  • Variances in rasch-units

60
Differences between the approaches
  • Testing of relationsships
  • is a strategy that leads to
  • weak statistical testing (H1-hypothesis)
  • Testing of equivalence (deviation )
  • is a strategy that leads to
  • strong statistical testing (H0-hypothesis)

61
Influences of BOTTOM-AND-CEILING effects on the
TRV
Bottom-effect Look for Skewness!
Bottom-and-ceiling effect Look for Kurtosis!
You find a skewness of magnitude 1
You see that this is caused by an cutting-point
at 0.5
A cutting-point at 0.5 leads to an decreased
variability of 70
Write a Comment
User Comments (0)
About PowerShow.com