Testtheorie, Testkonstruktion, Testevaluation - Markus Pospeschill - E-Book

Testtheorie, Testkonstruktion, Testevaluation E-Book

Markus Pospeschill

0,0
28,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Die Theorie, Planung und Überprüfung von Tests ist ein wichtiger, prüfungsrelevanter Bereich im Psychologiestudium. Auch in der späteren Praxis ist es unverzichtbar, Tests richtig anwenden und in ihrem Ergebnis beurteilen zu können. Dieses Buch gibt Studierenden eine verständliche und fundierte Einführung in Kriterien wissenschaftlicher Testgüte, Testentwicklung und Itemkonstruktion, klassische und probabilistische Testtheorie, Testevaluation und Interpretation von Testresultaten. Vertiefende Kapitel beschreiben u. a. den Einsatz von Statistik-Software und die Durchführung von Faktorenanalysen. Mit Schlüsselbegriffen in der Marginalienspalte, Definitionen, Zusammenfassungen und Kontrollfragen bestens zur Prüfungsvorbereitung geeignet!

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 302

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



utb utb 3431

Eine Arbeitsgemeinschaft der Verlage

Brill | Schöningh – Fink · Paderborn

Brill | Vandenhoeck & Ruprecht · Göttingen – Böhlau Verlag · Wien · Köln

Verlag Barbara Budrich · Opladen · Toronto 

facultas · Wien 

Haupt Verlag · Bern

Verlag Julius Klinkhardt · Bad Heilbrunn

Mohr Siebeck · Tübingen 

Narr Francke Attempto Verlag – expert verlag · Tübingen

Psychiatrie Verlag · Köln

Ernst Reinhardt Verlag · München 

transcript Verlag · Bielefeld

Verlag Eugen Ulmer · Stuttgart

UVK Verlag · München

Waxmann · Münster · New York

wbv Publikation · Bielefeld

Wochenschau Verlag · Frankfurt am Main

Markus Pospeschill

Testtheorie, Testkonstruktion,Testevaluation

2., aktualisierte Auflage

Mit 71 Abbildungen und 77 Fragen zur Wiederholung

Ernst Reinhardt Verlag München

Prof. Dr. Markus Pospeschill lehrt und forscht als Akademischer Direktor im Fach Psychologie an der Universität des Saarlandes in den Bereichen Methodenlehre, Empirische Forschungsmethoden, Computergestützte Datenanalyse, Testtheorie und Testkonstruktion sowie Psychodiagnostik.

Vom Autor außerdem im Ernst Reinhardt Verlag erhältlich: Pospeschill: „Empirische Methoden in der Psychologie“ (UTB 2013, ISBN 978-3-8252-4010-3) und Pospeschill / Spinath: „Psychologische Diagnostik“ (UTB basic 2009, ISBN 978-3-8252-3183-5).

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.d-nb.de> abrufbar.

UTB-Band Nr. 3431

ISBN 978-3-8252-5833-7 (Print)

ISBN 978-3-8385-5833-2 (PDF-E-Book)

ISBN 978-3-8463-5833-7 (EPUB)

2. aktualisierte Auflage

© 2022 by Ernst Reinhardt, GmbH & Co KG, Verlag, München

Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne schriftliche Zustimmung der Ernst Reinhardt GmbH & Co KG, München, unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen in andere Sprachen, Mikroverfilmungen und für die Einspeicherung und Verarbeitung in elektronischen Systemen. Der Verlag Ernst Reinhardt GmbH & Co KG behält sich eine Nutzung seiner Inhalte für Text- und Data-Mining i.S.v. § 44b UrhG ausdrücklich vor.

Printed in EU

Einbandgestaltung: Atelier Reichert, Stuttgart

Covermotiv © appler – Fotolia.com

Satz: ew print & medien service gmbh, Würzburg

Ernst Reinhardt Verlag, Kemnatenstr. 46, D-80639 München

Net: www.reinhardt-verlag.de E-Mail: [email protected]

Inhalt

Hinweise zur Benutzung dieses Lehrbuches

Vorwort zur zweiten Auflage

Road (Concept) Map

I Testtheoretische Grundlagen

1 Kriterien wissenschaftlicher Testgüte

1.1 Objektivität

1.2 Reliabilität

1.3 Validität

1.4 Normierung / Testeichung

1.5 Skalierung

1.6 Ökonomie / Wirtschaftlichkeit

1.7 Nützlichkeit / Utilität

1.8 Zumutbarkeit

1.9 Unverfälschbarkeit

1.10 Testfairness

1.11 Vergleichbarkeit

1.12 Transparenz

2 Testentwicklung

2.1 Testplanung

2.1.1 Festlegung der Erhebungsmerkmale

2.1.2 Festlegung der Testart

2.1.3 Festlegung des Geltungsbereichs

2.2 Strategien zur Testentwicklung

2.2.1 Rationale Konstruktionsstrategie

2.2.2 Externale Konstruktionsstrategie

2.2.3 Induktive Konstruktionsstrategie

2.2.4 Prototypenansatz

2.2.5 Intuitive Konstruktionsstrategie

2.3 Itemkonstruktion

2.3.1 Items mit offenem Antwortformat

2.3.2 Items mit gebundenem Antwortformat

2.4 Fehlerquellen bei der Beantwortung von Items

2.4.1 Soziale Erwünschtheit

2.4.2 Antworttendenzen

2.5 Prinzipien der Itemformulierung

2.5.1 Itemarten

2.5.2 Itemverständlichkeit

2.5.3 Itemvariabilität

2.6 Erstellung einer Test-Betaversion

2.6.1 Testanweisung

2.6.2 Anordnung des Itempools

2.6.3 Erprobung der Test-Betaversion

3 Testevaluation

3.1 Datenstruktur der Messungen

3.2 Itemschwierigkeit

3.2.1 Itemschwierigkeit bei Leistungstests

3.2.2 Itemschwierigkeit bei Persönlichkeitstests

3.3 Itemvarianz

3.4 Itemtrennschärfe

3.4.1 Berechnungen der Trennschärfe

3.4.2 Interpretation der Trennschärfe

3.4.3 Part-Whole-Korrektur

3.4.4 Selektionskennwert

3.5 Kriterien der Itemselektion

3.6 Testwertermittlung

3.6.1 Testwertermittlung bei Leistungstests

3.6.2 Testwertermittlung bei Persönlichkeitstests

3.6.3 Statistische Maße

3.6.4 Normalisierung schiefer Testwertverteilungen

4 Klassische Testtheorie

4.1 Axiome der Klassischen Testtheorie

4.1.1 Existenzaxiom

4.1.2 Verknüpfungsaxiom

4.1.3 Unabhängigkeitsaxiom

4.1.4 Zusatzannahmen

4.1.5 Erläuterungen zum Konzept des Messfehlers

4.2 Bestimmung des wahren Testwertes

4.3 Bestimmung der wahren Varianz und Fehlervarianz

4.4 Bestimmung der Reliabilität

4.5 Reliabilität und Testlänge

4.6 Standardmessfehler

4.7 Konfidenzintervall des wahren Testwertes

4.8 Minderungskorrekturen

4.9 Kritik an der Klassischen Testtheorie

4.10 Modellbasierte Methoden zur Schätzung der Reliabilität

5 Probabilistische Testtheorie

5.1 Manifeste und latente Variablen

5.2 Lokale stochastische Unabhängigkeit

5.3 Latent-Trait-Modelle (LTM)

5.3.1 Einparameter-Logistisches Modell (1PL)

5.3.2 Zweiparameter-Logistisches Modell (2PL)

5.3.3 Dreiparameter-Logistisches Modell (3PL)

5.4 Latent-Class-Modelle (LCA)

5.4.1 Allgemeine Modellgleichung der LCA

5.4.2 Parameterschätzung und Modelltests in der LCA

5.5 Modellerweiterungen

5.5.1 Mixed-Rasch-Modelle

5.5.2 Ordinales Rasch-Modell

5.6 Adaptives Testen

5.6.1 Strategien der Itemauswahl

5.6.2 Vor- und Nachteile adaptiven Testens

II Methodische Überprüfung

6 Testgütebestimmung und Interpretation von Testresultaten

6.1 Reliabilität

6.1.1 Test-Retest-Reliabilität

6.1.2 Paralleltest-Reliabilität

6.1.3 Splithalf-Reliabilität

6.1.4 Interne Konsistenz

6.1.5 Zusammenfassende Würdigung

6.2 Validität

6.2.1 Inhaltsvalidität

6.2.2 Kriteriumsvalidität

6.2.3 Konstruktvalidität

6.2.4 Zusammenfassende Würdigung

6.3 Norm- vs. Kriteriumsorientierung

6.3.1 Normorientierte Testwertinterpretation

6.3.2 Kriteriumsorientierte Testwertinterpretation

7 Faktorenanalyse

7.1 Exploratorische Faktorenanalyse

7.1.1 Extraktionsmethode

7.1.2 Fundamentaltheorem

7.1.3 Abbruchkriterien

7.1.4 Rotationsmethoden

7.1.5 Voraussetzungen zur Durchführung

7.2 Konfirmatorische Faktorenanalyse

7.2.1 Modellspezifikation

7.2.2 Modellidentifikation

7.2.3 Modellevaluation

7.2.4 Voraussetzungen zur Durchführung

7.2.5 Konfirmatorische MTMM-Analyse

Anhang

Notationstabelle lateinischer Buchstaben

Notationstabelle griechischer Buchstaben:

Literatur

Sachregister

Hinweise zur Benutzung dieses Lehrbuches

Zur schnelleren Orientierung werden in den Randspalten Piktogramme benutzt, die folgende Bedeutung haben:

Begriffserklärung, Definition

Pro und Contra, Kritik

Beispiel

Fragen zur Wiederholung am Ende des Kapitels

Vorwort zur zweiten Auflage

Die Kenntnis theoretischer Grundlagen der Testkonstruktion und die methodische Überprüfung der Güte wissenschaftlicher Tests stellen eine fundamentale Grundlage psychodiagnostischen Wissens dar. Das vorliegende Lehrbuch versucht in kompakter Weise, aber dennoch fundiert und vertiefend in diese Grundlagen mit der gebotenen didaktischen Sorgfalt einzuführen.

Dazu werden im ersten Abschnitt zu den testtheoretischen Grundlagen zunächst die verschiedenen Kriterien wissenschaftlicher Tests vorgestellt. Daran schließen sich Einführungen in die einzelnen Phasen der Testentwicklung, in die Arbeitsschritte der Testevaluation und schließlich in die grundlegenden klassischen und modernen Testtheorien an.

Der zweite große Abschnitt widmet sich der methodischen Überprüfung von Tests und erläutert, wie die dazu notwendigen Haupttestgütekriterien Reliabilität und Validität sowie das Nebengütekriterium der Testnormierung festgestellt bzw. umgesetzt werden können. Den Abschluss bildet eine eingehende Einführung in ein multivariates Verfahren, das im Rahmen psychodiagnostischer Tests und Fragebögen sehr häufig zum Einsatz kommt und als Faktorenanalyse bezeichnet wird.

An zahlreichen Stellen vertieft das Buch besondere Themen, wie z. B.: die Probabilistische Testtheorie, die Latent-Class-Analyse, das Konzept des adaptiven Testens, die Konfirmatorische Faktorenanalyse und die Konfirmatorische MTMM-Analyse bis hin zu kurzen Exkursen in die Berechnung von Reliabilitätskoeffizienten und die Durchführung Exploratorischer sowie Konfirmatorischer Faktorenanalysen mit IBM® SPSS® Statistics und AMOSTM.

Das Buch ist in besonderer Weise an die Lern- und Verstehensbedürfnisse von Studierenden der Psychologie und angrenzender Studienfächer (wie Pädagogik, Sportwissenschaft und Medizin) in Bachelor- und Masterstudiengängen orientiert, um eine gut lesbare und vertiefende Einführung in die Themenfelder der Testtheorie, Testkonstruktion und Testevaluation zu erhalten. Es ist außerdem auch für praktizierende Psychologen, Pädagogen und Lehrer interessant, die sich über die Definition und Verwendung von Gütekriterien oder die Interpretation von Normen und Kennwerten, wie sie in den Manualen psychologischer Tests auftauchen, informieren möchten.

Neben Definitionen, Beispielen, Zusammenfassungen und Wiederholungsfragen verwendet – wie bereits in Pospeschill & Spinath, 2009 – auch dieses Buch sog. Concept Maps („Wissenslandkarten“). Gerade für das Verständnis und die Strukturierung der theoretischen Kapitel fördern diese „logischen Bilder“ das Verstehen von strukturellen Beziehungen in dieser komplexen Thematik. Aber auch hier gilt: Concept Maps stellen eine Technik der Elaboration dar, die eine Strukturanalyse des Lerngegenstandes voraussetzt und im Ergebnis ein Kondensat impliziten und expliziten Wissens darstellt, das der Lerner erst im Zuge eines Verstehensprozesses entschlüsseln kann. Idealerweise sollten die diesem Buch beigefügten Concept Maps daher beim Lesen als Orientierungshilfe und beim Lernen als Strukturierungshilfe dienen.

In dieser 2. Auflage sind sämtliche Kapitel einschließlich der Angaben zur Literatur überarbeitet und mit zahlreichen Ergänzungen aktualisiert worden, ohne dabei die kompakte Darstellung und Grundstruktur des Buches zu verändern.

Der Autor dankt an dieser Stelle besonders Frau Landersdorfer vom Ernst Reinhardt Verlag für die sofortige Begeisterung für dieses Buch und die (wie immer) angenehme Zusammenarbeit.

Saarbrücken, Juli 2010/Oktober 2021

Markus Pospeschill

1 Kriterien wissenschaftlicher Testgüte

Im Rahmen der Thematik zur Testtheorie, Testkonstruktion und Testevaluation spielen solche Kriterien eine entscheidende Rolle, die einem Test das Prädikat „wissenschaftliches Testverfahren“ zugestehen.

Im Folgenden werden zunächst wichtige Grundbegriffe erklärt.

Psychologischer Test

Ein psychologischer Test wird zunächst wie folgt definiert:

Ein psychologischer Test ist ein wissenschaftliches Routineinstrument zur Erhebung oder Messung distinkter psychologischer Merkmale auf der Basis von einzelnen Messwerten, Skalenwerten oder kategorialen Werten mit dem Ziel, die klassifikatorische (qualitative) Zugehörigkeit oder den (quantitativen) Ausprägungsgrad individueller Merkmale zu bestimmen.

wissenschaftlicher Test

Dabei unterscheidet sich ein wissenschaftlich fundierter, psychologischer Test von einem unwissenschaftlichen „Test“ vor allem darin, dass ein wissenschaftlicher Test hinsichtlich der Erfüllung sog. Testgütekriterien empirisch überprüft wurde. Diese können sich auf verschiedene Elemente bzw. Aspekte des Tests beziehen:

•Testobjekte sind meistens Einzelpersonen, können aber auch Personengruppen oder Organisationen sein, ggf. auch Kombinationen aus Personen und Situationen (beim situationsspezifischen Testen) oder Zeitbereiche (bei einer Veränderungsmessung).

•Als Testitems werden die einzelnen zu bearbeitenden Aufgaben eines Tests bezeichnet.

•Eine Testskala bezeichnet einen Satz von Items (also mehrere Items, die Bestandteil eines Tests sind), die spezifischen, mit der jeweiligen Testskala verbundenen Skalierungseigenschaften genügen. Ihre Zusammenfassung zu einer Testskala erfolgt anhand theoretischer (das gemeinsame Konstrukt betreffend) und statistischer (z. B. korrelativer Beziehungen zwischen den Items) Eigenschaften.

•Eine Testbatterie stellt eine Kombination aus Einzeltests dar, mit dem Ziel, die Genauigkeit und Güte der Messung zu erhöhen.

Testtheorie

Die Basis zur Konstruktion eines Tests wird dabei aus einer sog. Testtheorie abgeleitet.

Eine Testtheorie ist eine Theorie über verschiedene Arten von Tests, ihren Aufbau und ihre Konstruktionsprinzipien. Sie beschäftigt sich mit dem Zusammenhang von Testverhalten (ausgedrückt in empirischen Testwerten) und dem zu erfassenden Merkmal. Aus den Vorgaben der Testtheorien können Gütekriterien abgeleitet werden.

Testgütekriterien

Testgütekriterien dienen daher in erster Linie als Instrumente der Qualitätsbeurteilung und Wissenschaftlichkeit psychologischer Tests, indem sie als Bestandteil in Testmanualen (Handanweisungen, die Auskunft über den Einsatzzweck und zur Verwendung eines Tests geben) darüber informieren, welche Gütekriterien in welcher Weise erfüllt sind. Als besonders etabliert gelten dabei die folgenden drei Hauptgütekriterien (s. Kubinger, 2003a), die durch weitere Nebengütekriterien ergänzt werden (s. Lienert & Raatz, 1998):

•Hauptgütekriterien:

1. Objektivität

2. Reliabilität

3. Validität

•Nebengütekriterien:

1. Normierung (Eichung)

2. Skalierung

3. Ökonomie (Wirtschaftlichkeit)

4. Nützlichkeit (Utilität)

5. Zumutbarkeit

6. Unverfälschbarkeit

7. Fairness

8. Vergleichbarkeit

9. Transparenz

Abb. 1.1: Gütekriterien wissenschaftlicher Tests im Überblick

1.1 Objektivität

Die Objektivität eines Tests soll sicherstellen, dass die Ergebnisse eines Tests zwischen Personen vergleichbar sind.

Objektivität besteht für einen Test dann, wenn das Testergebnis unabhängig vom Untersuchungsleiter, vom Testauswerter und der Ergebnisinterpretation ist.

Hinsichtlich der verschiedenen Phasen beim Testverlauf werden diese drei Aspekte genauer bestimmt:

Durchführungsobjektivität

Die Durchführungsobjektivität soll sicherstellen, dass das Testergebnis eines Probanden nicht vom Testleiter abhängig ist. Die Testsituation wird dazu so standardisiert, dass möglichst nur die Testperson die einzige Quelle für Variationen in der Testsituation darstellt.

Standardisierung

Standardisierung bedeutet in diesem Zusammenhang, dass durch eine genaue Anweisung dem Testanwender mitgeteilt wird, unter welchen Vorgaben und Bedingungen der Test eingesetzt werden muss, um objektive Resultate zu erhalten. Diese Vorgaben können das Testmaterial, die Testinstruktion (einschließlich dadurch ausgelöster Nachfragen durch die Testperson), das Testleiterverhalten (welche Interaktionen mit der Testperson zulässig sind), die Testumgebung (räumliche Gegebenheiten, zusätzliche Materialien), die zeitliche Erstreckung des Tests (ggf. eine maximale Bearbeitungszeit) usw. umfassen.

Störvariablen

Idealerweise werden dabei Bedingungen geschaffen, in denen alle potenziellen Störvariablen kontrolliert (z. B. durch Testung zur gleichen Tageszeit und mit gleichen Umgebungsvariablen), konstant gehalten (z. B. durch Verwendung einer einheitlichen Testinstruktion und gleichbleibender Testvorgabe) oder eliminiert werden (z. B. durch eine computerbasierte Testdurchführung, die einen Testleiter überflüssig macht). Geschieht diese Kontrolle nicht, ist nicht auszuschließen, dass Störvariablen in der Testsituation in unkontrollierter Weise Einfluss auf die Testleistung nehmen und damit das Testergebnis ungültig und stark fehlerbehaftet werden lassen.

Durchführungsobjektivität kann z. B. durch eine genaue Beschreibung der Testsituation im Testmanual hergestellt werden:

„Die Bearbeitung des Fragebogens kann sowohl einzeln als auch gruppenweise erfolgen. Bei einer Vorgabe an Gruppen ist darauf zu achten, dass jeder Proband den Fragebogen unabhängig von anderen Teilnehmern ausfüllt. Folglich sollte sowohl jegliche Kommunikation zwischen den Probanden und Situationen, in denen potenziell ein Abschreiben möglich ist, verhindert werden. … Bei der Durchführung in Gruppen wird organisatorisch mindestens ein Testleiter je 50 Teilnehmer / -innen benötigt. Das räumliche Umfeld sollte eine ungestörte Bearbeitung gewährleisten.“

Auswertungsobjektivität

Bei der Auswertungsobjektivität ist entscheidend, dass das Antwortverhalten der Testperson genau quantifiziert wird und nicht etwa von der Person abhängig ist, welche die Testauswertung vornimmt. Insbesondere bei Aufgaben, deren Auswertung nicht anhand fester Auswertungsschablonen oder Auswertungsschlüssel festgelegt ist, müssen dazu ggf. genaue Auswertungsregeln aufgestellt werden.

Übereinstimmungsmaße

Dabei kann die Objektivität auch dadurch verbessert werden, dass die Auswertung von mehreren Personen vorgenommen wird. Über Konkordanzmaße (z. B. der Konkordanzkoeffizient Kendalls W oder das Interrater-Reliabilitätsmaß Scotts Pi) oder korrelative Maße (z. B. die Intraclasskorrelation) kann dann empirisch das Ausmaß der Übereinstimmung ermittelt werden.

Auswertungsobjektivität kann z. B. durch genaue Auswertungsregeln hergestellt werden: Für die Beurteilung von Kandidaten in einem Assessment Center sind die erwarteten Leistungen, die ein guter Kandidat in einer Rollensimulation zeigen soll, klar zu formulieren.

Interpretationsobjektivität

Schlussfolgerungen aus Testresultaten

Die Interpretationsobjektivität muss sicherstellen, dass Schlussfolgerungen aus den Testergebnissen unabhängig vom Testanwender sind. Demnach sollten bei gegebener Interpretationsobjektivität verschiedene Testanwender bei den gleichen Testresultaten zu gleichen Interpretationen kommen. In den Testmanualen liegen dazu Skalenbeschreibungen (z. B. über arithmetische Mittel und Standardabweichungen) vor, die als Normtabellen zum Vergleich einzelner Testpersonen mit adäquaten Bezugsgruppen genutzt werden können (s. Kap. 6.3).

Interpretationsobjektivität kann z. B. durch normierte Werte erreicht werden: So deutet die Schulnote „1“ in allen deutschen Bundesländern auf eine sehr gute Leistung, eine „5“ auf eine nicht ausreichende / mangelhafte Leistung hin. Allerdings sagt die Interpretationsobjektivität dabei nichts über die inhaltliche Güte aus. Sind Noten z. B. zwischen den Bundesländern nicht ausreichend standardisiert (ein Problem der Durchführungsobjektivität), dann ist eine „2“ in Bayern nicht unbedingt mit einer „2“ im Saarland zu vergleichen.

Zusammengefasst: Das Hauptgütekriterium Objektivität kann als erfüllt gelten, wenn ein psychologischer Test hinsichtlich seiner Handhabung, Auswertung und Interpretation so festgelegt ist, dass sein Einsatz unabhängig von umgebenden Faktoren (wie Ort, Zeit, Testleiter und Auswerter) vorgenommen werden kann und unterschiedliche Testauswerter bei den gleichen Personen immer zu gleichen Ergebnissen kommen.

1.2 Reliabilität

Mit der Reliabilität wird die Qualität eines Tests bezeichnet, die auf seiner Zuverlässigkeit beim Erheben von Merkmalen beruht.

Reliabilität ist ein Maß für die Präzision, Zuverlässigkeit und Genauigkeit, mit der ein Test ein Merkmal misst. Präzise ist eine Messung dann, wenn sie möglichst frei von Messfehlern erfolgt.

Messgenauigkeit

Ungenauigkeiten bei einer Messung können zu Fehlurteilen führen, bei denen erzielte Messwerte das eigentliche Merkmal über- oder unterschätzen. Unreliabel wird ein Maß u. a. dann, wenn sich von Messung zu Messung die Maßeinheiten oder die Abstände zwischen den Einheiten verändern.

formale Definition

Reliabilitätsmaße werden mittels korrelativer Techniken bestimmt (s. Kap. 6.1). Dabei wird geprüft, ob Probanden in zwei Testungen gleiche Werte aufweisen. Dies kann zu zwei Zeitpunkten oder mit zwei Testformen geschehen (s. Abb. 1.2).

Abb. 1.2: Verfahren zur Reliabilitätsbestimmung unterschieden nach Anzahl der Testungen und Anzahl der Testformen

Test-Retest-Reliabilität

Testwiederholung

Zur Bestimmung der Test-Retest-Reliabilität (rtt) wird derselbe Test wiederholt zu zwei Zeitpunkten präsentiert und die Testergebnisse korreliert. Die Korrelation der Testwiederholung liefert das Maß für die Reliabilität. Dabei wird unterstellt, dass das zu messende Merkmal konstant (also konstante wahre Werte und konstante Fehlervarianzen produziert) und auch das gewählte Zeitintervall zwischen den Testungen ohne Einfluss auf die Messung ist. Die Wahl des optimalen Retest-Intervalls muss bei instabileren Merkmalen kürzer und kann bei stabileren Merkmalen länger gewählt werden. Das Risiko von Merkmalsveränderungen und Erinnerungseffekten ist dabei stark abhängig von den Inhalten (s. Kap. 6.1.1).

Paralleltest-Reliabilität

Einsatz paralleler Tests

Sind Übungs- oder Erinnerungseffekte nicht auszuschließen, kann eine Paralleltest-Reliabilität (rtt‘) bestimmt werden. Benötigt werden dazu inhaltlich ähnliche Items („Itemzwillinge“) aus zwei Tests (A und B), deren beobachtete Testwerte zu gleichen Mittelwerten und Varianzen führen. Werden die Testwerte dieser zwei Parallelformen korreliert, resultiert die gewünschte Reliabilität. Die Erstellung paralleler Testformen wird zwar für die Reliabilitätsprüfung einerseits gerne als optimale Lösung betrachtet, ist allerdings andererseits mit großem Aufwand verbunden und daher häufig nicht praktikabel (s. Kap. 6.1.2).

Splithalf-Reliabilität

Testhalbierung

In vielen Fällen ist die Berechnung von Retest- bzw. Paralleltest-Reliabilität nicht durchführbar. Aus diesem Grund wurden Verfahren entwickelt, mit denen die Reliabilität auf der Basis von Testungen zu einem Zeitpunkt mit einer Testform möglich ist. Grundlegende Idee dabei ist, Teile eines Tests als parallele Testversionen aufzufassen und die Reliabilität als Zusammenhang der einzelnen Teile anzunehmen.

Durch Aufteilung eines Tests in zwei äquivalente Testhälften wird eine Splithalf-Reliabilität (rttα) berechnet. Sie entspricht der Korrelation der beiden Testhälften. Da kürzere Tests i. d. R. weniger reliabel sind, muss die zwischen den beiden Testhälften festgestellte Korrelation mit Hilfe der Spearman-Brown-Formel auf die ursprüngliche Skalenlänge aufgewertet werden (s. Kap. 4). Die gewünschten Testhälften entstehen zumeist nach der Odd-Even-Methode, bei der geradzahlige und ungeradzahlige Items die jeweilige Testhälfte bilden (s. Abb. 1.3). Andere Testhalbierungsmethoden verwenden die Zeit der Testbearbeitung, um zu zwei gleich langen Testabschnitten zu gelangen (Zeitpartitionierungsmethode), oder entnehmen dem Test jeweils ein Itempaar gleicher Schwierigkeit und Trennschärfe (Methode der Itemzwillinge), die dann per Zufall der einen oder anderen Testhälfte zugeordnet werden (s. Kap. 6.1.3).

Abb. 1.3: Beispiel für die Aufteilung eines Tests in zwei äquivalente Hälften

Konsistenzanalyse

Verallgemeinerung der Testhalbierung

Problematisch an der Berechnung von Splithalf-Reliabilitäten ist, dass die Testhälften verschieden gebildet werden können, was (besonders bei kleinen Stichproben) zu Unterschieden zwischen den Koeffizienten führt. Einen Ausweg aus dieser Problematik bietet die Konsistenzanalyse (interne Konsistenz) unter Berechnung von Cronbachs α („alpha“). Dieser Koeffizient entspricht der mittleren Reliabilität, bei Bildung aller möglichen Testhalbierungen. Die Konsistenzanalyse verallgemeinert die Halbierungsmethode, indem jedes Item eines Tests als eigenständiger Testteil aufgefasst wird. Je stärker das Ausmaß an Korrelationen zwischen den Testteilen, desto höher die interne Konsistenz. Sinnvoll können α-Werte im Bereich zwischen Null und Eins interpretiert werden. Dabei gilt als Untergrenze hinreichender Reliabilität ein Wert von 0,7, für eine gute Reliabilität ein Wert ab 0,9 (s. Kap. 6.1.4).

Zusammengefasst: Verschiedene Zugänge zur Beurteilung der Reliabilität eines Testverfahrens lassen sich unterscheiden:

•Testhalbierung  /  interne Konsistenz (Zusammenhänge zwischen Testteilen bzw. Items eines Tests);

•Test-Retest-Reliabilität (zeitliche Stabilität der Werte zwischen zwei Testungen);

•Paralleltest-Reliabilität (Zusammenhänge zwischen parallelisierten Testformen).

Keiner der besprochenen Reliabilitätskennwerte ist hierbei einem anderen generell vorzuziehen. Wichtig ist die gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen möglichst umfassenden Überblick über die Reliabilität des Verfahrens zu gewinnen.

Inzwischen bieten modellbasierte Methoden der Reliabilitätsschätzung die Möglichkeit, mit weniger strengen Annahmen Reliabilitätskoeffizienten zu schätzen (Revelle & Zinbarg, 2009). Insbesondere Cronbachs α ist an die Erfüllung strenger Annahmen gekoppelt (wie die essentielle τ-Äquivalenz; vgl. Kap. 6.1.4), die häufig nicht erfüllt sind und sollte daher nur in angemessenen Fällen eingesetzt werden. Alternativ stehen sog. Omega-Koeffizienten (ω) zur Verfügung, die sich sowohl für ein- als auch mehrdimensionale Konstrukte als Punkt- und Intervallschätzer (vgl. Kap. 6.1.5) im Rahmen einer konfirmatorischen Faktorenanalyse (vgl. Kap. 7.2) schätzen lassen (s. Schermelleh-Engel & Gäde, 2020).

1.3 Validität

Mit der Validität soll festgestellt werden, ob zwischen dem was gemessen wird und dem was gemessen werden soll, tatsächlich Übereinstimmung besteht.

Validität bezieht sich auf die Frage, ob ein Test wirklich das Merkmal misst, was er messen soll bzw. zu messen vorgibt. Die Validität bezieht sich dabei auf die Gültigkeit verschiedener möglicher Interpretationen von Testergebnissen.

Beziehungen der Kriterien

Die Validität gilt für die Testpraxis gemeinhin als wichtigstes Testgütekriterium. Objektivität und Reliabilität gelten zwar als notwendige, aber nicht hinreichende Bedingungen für Validität. Das bedeutet, dass ein Test, der eine niedrige Objektivität und Reliabilität besitzt, auch keine hohe Validität erzielen kann, dass aber eine hohe Validität über das reine Vorhandensein von Objektivität und Reliabilität hinausgeht. Bei gegebener Validität berechtigen die Ergebnisse dazu, das in der Testsituation gezeigte Verhalten auf beobachtbares Verhalten außerhalb dieser Testsituation zu generalisieren. Ein solcher Zusammenhang könnte z. B. durch Korrelation der Testwerte mit einem relevanten Außenkriterium überprüft werden.

Zur Bestimmung der Validität eines Tests gibt es verschiedene Zugänge (s. Bryant, 2000). Moosbrugger und Kelava (2020) veranschaulichen dies am Beispiel eines Schulreife- bzw. Schuleignungstests:

•Inhaltsvalidität: Items, die Bestandteil des Tests sind, sollen inhaltlich das Konstrukt widerspiegeln, das der Test erfassen soll (z. B. Umgang mit Zahlen, Sprachverständnis);

•Konstruktvalidität: Das durch den Test gemessene Konstrukt „Schulreife“ soll mit ähnlichen Konstrukten (z. B. Intelligenz, Entwicklungsstand) zusammenhängen und unabhängig von inhaltsfremden Konstrukten (z. B. Temperament, Persönlichkeit) sein.

•Kriteriumsvalidität: Mit dem Test soll vorhergesagt werden, inwiefern Kinder eingeschult werden können. Kinder mit höheren Testwerten sollten sich daher besser in der Schule zurechtfinden als Kinder mit niedrigen Werten.

•Augenscheinvalidität: Auch für Laien (z. B. Eltern oder Lehrer) besitzen Schuleignungstests eine gewisse Glaubwürdigkeit, da aufgrund der inhaltlichen Gestaltung solcher Tests nahegelegt wird, dass damit wirklich Schuleignung gemessen wird.

Inhaltsvalidität

Repräsentativität von Items

Die Inhaltsvalidität kommt der oben angeführten Definition von Validität am nächsten, da der Inhalt bestimmt, was der Test misst bzw. messen soll (s. Murphy & Davidsdorfer, 2001). Mit der Inhaltsvalidität soll geklärt werden, inwieweit ein Test oder einzelne Items eines Tests eine repräsentative Stichprobe aus allen möglichen Testitems darstellen, die auf das zu messende Merkmal bezogen sind. Zentrale Fragen dabei sind: Erfassen alle enthaltenen Items das zu messende Konstrukt? Stellt die Auswahl der Items eine repräsentative Stichprobe dar? Eine Klärung erfolgt dabei selten aufgrund numerischer Kennwerte oder Statistiken, sondern eher anhand fachkompetenter Analysen durch kritische Beurteilungen auf Item- und Testebene (s. Michel & Conrad, 1982).

Dabei ist entscheidend, dass das Konstrukt (die spezifische Fähigkeit oder Eigenschaft) auf der Inhaltsebene eingehend beschrieben wird, dass die verwendeten Items den abzudeckenden Inhaltsbereichen zugeordnet sind und dass die Struktur des Tests mit der Struktur des Konstrukts übereinstimmt. Das zu erhebende Merkmal kann dabei operational (also im Wesentlichen durch die Testinhalte) oder theoretisch (also als theoretisches Konstrukt) definiert sein (s. Kap. 6.2.1).

Konstruktvalidität

konvergent vs. divergent

Auf der Basis der Konstruktvalidität wird bestimmt, ob mit dem im Test gezeigten Verhalten auf zugrunde liegende Fähigkeits- oder Persönlichkeitskonstrukte geschlossen werden kann. Die Konstruktvalidität erlaubt entsprechende Aussagen, wie angemessen ein Test das beanspruchte Konstrukt misst. Praktisch kann dies so aussehen, dass theoriegeleitete Zusammenhänge zwischen Konstrukten des vorliegenden Tests mit anderen (konstruktverwandten bzw. konstruktfremden) Verfahren auf Ähnlichkeiten bzw. Unähnlichkeiten verglichen werden: Wird dabei eine hohe Korrelation zwischen vorliegendem Test und Vergleichstest angestrebt, liegt eine konvergente Validität vor. Soll bei dem vorliegenden Test nachgewiesen werden, dass er von Merkmalen anderer Tests abgrenzbar ist, wird von divergenter bzw. diskriminanter Validität gesprochen – entsprechende Korrelationen sollten dann möglichst niedrig ausfallen (s. Kap. 6.2.3).

Analysemethoden

Spezifische Kennwerte zur Bestimmung der Konstruktvalidität existieren allerdings nicht. Neben Korrelationen werden die Zusammenhänge zwischen Tests oder generell die Merkmalsstruktur von Testitems über sog. Exploratorische Faktorenanalysen (EFA) untersucht (s. Kap. 7.1). Aus den resultierenden Faktorladungen kann so eine deskriptive Einordnung homogener Items anhand theoretisch definierter Merkmalsdimensionen vorgenommen werden. Die in Exploratorischen Faktorenanalysen gefundene Struktur kann anhand neuer Datensätze mit Konfirmatorischen Faktorenanalysen (CFA) überprüft werden, sofern das Testmodell auf der Konzeption latenter Variablen beruht (s. Kap. 7.2). Eine andere Herangehensweise ist der sog. Multitrait-Multimethod-Ansatz (s. Campbell & Fiske, 1959). Er untersucht über verschiedene Korrelationsmatrizen den Zusammenhang von Merkmalen und Entfernung von Methodeneffekten (s. Kap. 7.2.5).

Kriteriumsvalidität

praktischeVerwendung

Geht es um die praktische Anwendbarkeit eines Tests, um das Verhalten einer Person außerhalb der Testsituation anhand der produzierten Daten in der Testsituation vorherzusagen, wird von Kriteriumsvalidität gesprochen. Dazu wird die Korrelation der Testvariablen und der Kriteriumsvariablen bestimmt: Liegt ein zeitgleiches Außenkriterium vor, resultiert eine konkurrente (Übereinstimmungs-)Validität. Ist hingegen eine Prognose hinsichtlich einer zukünftigen Merkmalsausprägung intendiert, wird eine prognostische bzw. prädiktive (Vorhersage-)Validität angestrebt. Soll die Vorhersage eines praktisch relevanten externen Kriteriums verbessert werden, indem zusätzliche Items oder Skalen hinzugefügt werden, kann eine inkrementelle Validität (z. B. als Zuwachs erklärter Varianz, wie sie im Rahmen einer hierarchischen Regressionsanalyse ermittelt werden kann) bestimmt werden. Schließlich ist auch eine retrospektive Validität zu unterscheiden, bei der Zusammenhänge mit zuvor ermittelten Kriterien hergestellt werden (s. Kap. 6.2.2).

Augenscheinvalidität

Akzeptanz eines Tests

Die Augenscheinvalidität bezeichnet die offensichtliche Akzeptanz eines Tests durch Laien und sollte nicht mit der inhaltlichen Validität verwechselt werden. Dennoch besitzt sie hinsichtlich der Kommunizierbarkeit und Nachvollziehbarkeit der Ergebnisse eine nicht unerhebliche Relevanz. Wissenschaftlich betrachtet ist die Augenscheinvalidität allerdings nicht immer gewollt, da sie insbesondere in der Persönlichkeitsforschung bereits bei der Testbearbeitung Antworttendenzen verursachen kann.

abhängige Hauptgütekriterien

Die drei Hauptgütekriterien stehen in einem spezifischen Abhängigkeitsverhältnis (s. Abb. 1.4). Ein Test ohne Objektivität wird keine optimale Reliabilität erreichen können: Entstehen Fehler bei der Ermittlung oder Interpretation der Daten, beeinflusst dies die Messgenauigkeit. Ist die Reliabilität nicht gegeben, können keine gültigen Aussagen oder Vorhersagen getroffen werden, da der Test das Merkmal nicht genau messen kann: Ohne einen exakten Testwert lässt sich keine klare Beziehung zu einem Außenkriterium herstellen (s. Kap. 2.4).

Zusammengefasst: Die Validität eines Tests kann als perfekt gelten, wenn ein individueller Testwert eine Person eindeutig auf einer Merkmalsskala lokalisiert. In diesem Fall erlaubt ein Testergebnis einen unmittelbaren Rückschluss auf den Ausprägungsgrad des zu erfassenden Merkmals. Dabei können verschiedene Aspekte der Validität unterschieden werden:

•Inhaltsvalidität (die Testitems stellen das optimale Kriterium zur Erfassung des Merkmals dar);

•Konstruktvalidität (ein Test kann aufgrund theoretischer Erwägungen ein bestimmtes Konstrukt erfassen);

•Kriteriumsvalidität (das Ergebnis eines Tests korreliert mit unabhängig erhobenen Außenkriterien).

Abb. 1.4: Zusammenhänge zwischen den drei Hauptgütekriterien

1.4 Normierung / Testeichung

Normen alsBezugssystem

Ziel der Normierung ist es, dem Testanwender ein Bezugssystem aktueller Vergleichswerte (Normtabellen) von solchen Personen bereitzustellen, die der getesteten Person anhand relevanter Merkmale möglichst ähnlich sind. In diesem Fall wird von den Daten einer Eich- oder Normierungsstichprobe gesprochen. Anhand der Normdaten kann eingeordnet und interpretiert werden, ob die Ergebnisse einer getesteten Person zur Norm gehörend (durchschnittlich), oberhalb der Norm (überdurchschnittlich) oder unterhalb der Norm (unterdurchschnittlich) zu beurteilen sind (s. Kap. 6.3).

Normgüte

Die Güte der Normen bestimmt die Güte der individualdiagnostischen Entscheidung mit. Wichtig ist, dass die Charakteristika der Testung eines Probanden denen der Testung der Normstichprobe möglichst gut entsprechen. Der Geltungsbereich einer Norm wird hierbei vor allem durch folgende Aspekte bestimmt:

•Die Repräsentativität legt fest, gegenüber welcher Stichprobe Aussagen getroffen werden können (z. B. gegenüber der Gesamtbevölkerung oder gegenüber einer spezifischen Personengruppe). Repräsentativität bezieht sich dabei immer auf eine bestimmte Zielpopulation bzw. darauf, dass eine Stichprobe bezüglich einer zuvor definierten Population (Grundgesamtheit) repräsentativ sein soll. Global repräsentativ wäre eine Stichprobe dann, wenn sie in zahlreichen Merkmalen mit der Population übereinstimmt (dies setzt die Ziehung einer echten Zufallsstichprobe entsprechenden Umfangs voraus). Spezifisch repräsentativ wäre eine Stichprobe hingegen, wenn sie nur in den Merkmalen mit der Population übereinstimmt, die mit den Testwerten des Tests in bestimmter Weise zusammenhängen (also z. B. Merkmale wie Geschlecht, Alter, Bildungsgrad und Beruf, um adäquate Normen bilden zu können). Dabei „schützt“ eine große Stichprobe keineswegs vor mangelnder Repräsentativität. Spezifische Arten der Stichprobenziehung durch geschichtete (stratifizierte) oder Quotenstichproben können stattdessen eine höhere Repräsentativität gewährleisten (s. Döring & Bortz, 2015). Trotzdem sind Mindestgrößen für Normstichproben ab ca. 300 Probanden vorauszusetzen, um eine angenäherte Repräsentativität zu gewährleisten.

•Konkretisiert wird die Repräsentativität durch die Normdifferenzierung, mit der die Spezifität und Passung der Referenzstichprobe festgestellt wird. Vor allem in Vergleichssituationen (z. B. in Wettbewerbssituationen) ist entscheidend, dass die Bezugsgruppe adäquat gewählt wird. Dabei ist auch zu berücksichtigen, dass keine mit dem Untersuchungsmerkmal korrelierten Hintergrundfaktoren die Stichprobe kontaminieren dürfen (z. B. ein unterschiedlicher Übungs- oder Vertrautheitsgrad mit dem Testmaterial).

•Beim Alter der Normen spielt die Aktualität der Eichstichprobe die entscheidende Rolle. So sollten die Angaben nach DIN 33430 nicht älter als acht Jahre sein (s. DIN, 2002; 2016). Dass Testnormen dabei keine zeitinvariante Größe darstellen, zeigt z. B. der sog. Flynn-Effekt (Flynn, 1999). Flynn konnte zeigen, dass der mittlere Intelligenzquotient (IQ) in den westlichen Industrienationen über die Jahre 1932 bis 1978 einen kontinuierlichen Anstieg (etwa 1 / 3 IQ-Punkt pro Jahr) zeigt. In jüngster Zeit ist dieser Effekt allerdings wieder leicht rückläufig.

•Schließlich sind die Testbedingungen entscheidend, unter denen die Probanden in der Normstichprobe getestet wurden (z. B. eine Bewerbungssituation oder ein klinisches Setting).

1.5 Skalierung

empirisches und numerisches Relativ

Mit dem Gütekriterium der Skalierung verbindet sich die Forderung, dass Merkmalsunterschiede zwischen Probanden („empirisches Relativ“) auch in entsprechenden Abständen zwischen Punktwerten des Tests („numerisches Relativ“) abgebildet sein müssen. Ist diese Forderung erfüllt, sollten sich Unterschiede in den Testwerten adäquat auch in empirischen Merkmalsrelationen abbilden lassen. Dazu bedarf es entsprechender Verrechnungsregeln, damit die resultierenden Testwerte die empirischen Merkmalsrelationen auch korrekt abbilden.

Skalenniveau

Von Messinstrumenten wird allgemein erwartet, dass sie mit dem entsprechenden Skalenniveau ausgestattet sind, d. h. mindestens Ordinal- (um stärkere von schwächeren Ausprägungen zu unterscheiden), besser aber Intervallskalenniveau besitzen (um die Größe einer Merkmalsdifferenz angeben zu können).

1.6 Ökonomie / Wirtschaftlichkeit

Ein Test gilt dann als ökonomisch, wenn sich der angestrebte diagnostische Erkenntnisgewinn unter akzeptabler Aufwendung finanzieller (die Testbeschaffung, Lizenzgebühren und Verbrauchsmaterialien betreffend) und zeitlicher (die Bearbeitungszeit, den Auswertungsaufwand und die Ergebnisrückmeldung betreffend) Ressourcen einstellt.

Kosten vs.Erkenntnisgewinn

Mit der Ökonomie wird somit vorwiegend ein Aspekt der Wirtschaftlichkeit eines Tests angesprochen, Kosten möglichst zu minimieren, ohne dabei den Erkenntnisgewinn (und damit andere Gütekriterien) einzuschränken. Maßnahmen wie die computerbasierte Testung (anstatt mit Papier und Bleistift) oder das adaptive Testen (bei dem nicht alle Aufgaben eines Tests, sondern nur die mit dem größten Informationsgewinn vorgelegt werden) können sich allgemein förderlich auf die Ökonomie auswirken (s. Kap. 5.6).

1.7 Nützlichkeit / Utilität

praktischer Nutzen

Die Utilität befasst sich mit der praktischen Relevanz und Nützlichkeit eines Tests. Werden auf der Grundlage eines Tests Entscheidungen getroffen, so sollten daraus abgeleitete Maßnahmen mehr Nutzen als Schaden erwarten lassen. Neben der sinnvollen Verwendung sollte sich das Merkmal nicht mit anderen Tests erfassen lassen, die seitens der Gütekriterien mindestens genauso gut sind.

In der Eignungsdiagnostik sollte die Nützlichkeit eines verwendeten Auswahltests dadurch sichergestellt sein, dass möglichst viele geeignete Personen ausgewählt und möglichst viele ungeeignete Personen nicht ausgewählt werden.

1.8 Zumutbarkeit

Beanspruchung durch einen Test

Die Zumutbarkeit bezieht sich auf das Verhältnis „Testnutzen zu zeitlicher, psychischer und körperlicher Beanspruchung / Belastung der Testperson“, das im jeweiligen Kontext einer Testverwendung zu definieren ist. Dabei kann die Belastung einer zu testenden Person erheblich variieren (z. B. werden an einen zukünftigen Astronauten sicherlich andere und höhere Belastungsanforderungen gestellt als an einen Büroangestellten).

1.9 Unverfälschbarkeit

Verzerrung desAntwortverhaltens

Verfälscht werden können Testergebnisse vor allem dann, wenn im Sinne antizipierter, sozialer Erwünschtheit geantwortet wird (s. Kap. 2.4.2). Dabei glaubt die Testperson, das Messprinzip im Sinne des erwarteten oder geforderten Resultates durchschaut zu haben, und versucht, entsprechend „günstig“ zu antworten. Dieses Verhalten kann durch eine hohe Augenscheinvalidität (leichter Nachvollziehbarkeit der Messintention) begünstigt werden.

Verschleiern der Messintention

Unverfälschbar wäre ein Test dann, wenn durch seine Konstruktionsweise verhindert wird, dass die Testperson durch gezieltes Testverhalten ihre Testwerte steuern oder verzerren kann. Objektive Persönlichkeitstests versuchen diesem Anspruch dadurch gerecht zu werden, dass sie die eigentliche Messintention (z. B. durch eine unklare Beschreibung der Testabsicht) verschleiern und indirekt auf das zu messende Merkmal schließen.

1.10 Testfairness

Bias von Tests

Die Fairness eines Tests ist insbesondere dann gegeben, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung oder Diskriminierung bestimmter Personen oder Personengruppen aufgrund ihrer Zugehörigkeit zu ethnischen (z. B. Migrations- oder sprachlicher Hintergrund), soziokulturellen (z. B. sozioökonomischer Status, Bildungsnähe vs. Bildungsferne) oder geschlechtsspezifischen (Frauen vs. Männer) Gruppen führen (s. Testkuratorium, 1986). Liegt eine systematische Unfairness vor, besitzen die Items einen sog. Itembias.

Die Diskussion zur Testfairness hat u. a. zur Entwicklung sog. Culture Fair Intelligence Tests geführt, die Intelligenz kultur- und sprachfrei messen sollen. Testfairness spielt vor allem dort eine entscheidende Rolle, wo Auswahlentscheidungen aufgrund des Testergebnisses getroffen werden. Hohe Ansprüche an Testfairness werden daher eher bei psychologischen Leistungstests (z. B. Schul-, Studien- oder Berufseignungstests) als bei Persönlichkeitstests gestellt.

Einheitliche Kriterien für die Verbesserung der Testfairness stehen derzeit aus. Prinzipiell ist es möglich, Itemergebnisse nachträglich zu korrigieren (z. B. mittels der Differential Item Functioning-Analyse) oder (möglichst theoriegeleitet) neue Items zu generieren, die weniger diskriminieren. Umweltunterschiede zwischen den Bewerbern lassen sich schließlich z. B. auch durch spezifische Trainingsprogramme ausgleichen.

1.11 Vergleichbarkeit

Für die Vergleichbarkeit eines Tests ist vor allem das Vorhandensein paralleler Testformen oder validitätsähnlicher Tests maßgebend. Liegt eine echte Parallelform zu einem Test vor, sollten bei einem Probanden vergleichbare Ergebnisse resultieren. Dies ermöglicht eine intraindividuelle Reliabilitätskontrolle.

validitätsähnliche Tests

Bei validitätsähnlichen Tests wird dasselbe oder ein ähnliches Konstrukt gemessen. Liegen Korrelationen zwischen zwei validitätsähnlichen Tests vor, können die Ergebnisse einer Testperson verglichen werden. Dies ermöglicht eine intraindividuelle Validitätskontrolle.

1.12 Transparenz

Verständlichkeit

Die Transparenz eines Tests bemisst sich zunächst an der Verständlichkeit der Instruktion, die alle Kandidaten gleichermaßen auf die Bewältigung des Tests vorbereiten sollte. Ggf. kann dies auch die Bearbeitung einzelner Übungsitems in einer Vortestphase einschließen, so können Probleme bei der Instruktion ausgeschlossen werden. Schließlich gehört zur Transparenz eines Tests auch, die Probanden nach Abschluss des Tests über Messintention und Ergebnis ausreichend aufzuklären bzw. zu informieren.

Abb. 1.5: Qualitätsanforderungen an einen psychologischen Test im Überblick

Testfragen

  1. Was sind die zentralen Merkmale eines diagnostischen Tests?

  2. Welche Haupt- und Nebengütekriterien werden testtheoretisch unterschieden?

  3. Welche Arten von „Objektivität“ werden bei der Testgüte unterschieden?

  4. Was bedeutet der Begriff „Reliabilität“ und wie wird er operationalisiert?

  5. Worin liegen einschränkende Faktoren bei der Bestimmung einer Test-Retest- oder Paralleltest-Reliabilität?

  6. Ab wann gelten Reliabilitätskoeffizienten als hinreichend?

  7. Was bedeutet der Begriff „Validität“ und wie wird er operationalisiert?

  8. Was bezeichnet man als „Augenscheinvalidität“?

  9. Charakterisieren Sie die Beziehung zwischen den drei Hauptgütekriterien?

10. Beschreiben Sie, unter welchen Voraussetzungen Schulnoten vergeben werden müssen, damit sie die Haupt- und Nebengütekriterien erfüllen.

2 Testentwicklung

Der Prozess der Entstehung eines Tests verläuft von der ersten Testplanung über die Testentwicklung bis hin zur Erstellung und vorläufigen Erprobung einer Vorversion mit dem Ziel der Revision zum finalen Test. Gerade in dieser systematischen Genese liegt die Besonderheit psychometrischer Tests, die psychische Merkmale quantitativ auf der Grundlage testtheoretischer Überlegungen konzipieren und erfassen, systematisch anhand standardisierter Verfahren auswerten und damit eine metrisch vergleichende Diagnostik gewährleisten.

Psychologische Tests weisen aus diesem Grund eine komplexe Struktur auf. Ihre Bestandteile – die Testaufgaben bzw. Items – sind zumeist zahlreich, auf unterschiedliche Facetten eines Konstruktes gerichtet und sollen eine messgenaue Erfassung des Konstruktes unter Minimierung von Messfehlern erlauben. Ziel ist es, über mehrere Items eine Abschätzung der Reliabilität zu erzielen.

2.1 Testplanung

Die Planung eines Tests beginnt grundsätzlich mit Überlegungen, das zu messende Konstrukt möglichst genau zu definieren bzw. seine Charakteristika festzulegen. Dies geschieht im Idealfall auf der Basis eines psychologischen Modells oder einer psychologischen Theorie. Ist dies (noch) nicht möglich, müssen zunächst vorläufige Explikationen oder Arbeitsmodelle reichen, bis sie im Verlauf weiterer Forschungen präzisiert werden können (s. Fisseni, 2004). Auch Befragungen von Experten oder Personengruppen, die besonders hohe oder niedrige Ausprägungen der entsprechenden Fähigkeit oder Eigenschaft aufweisen, können wichtige Hinweise auf verhaltensrelevante Aspekte des Konstruktes liefern.

Definition desKonstruktes

Zur weiteren Eingrenzung des Konstruktes sollte aus der Literatur (Lehrbüchern, Überblicksartikeln etc.), aus vorhandenen Theorien, empirischen Befunden und eigenen Überlegungen eine Arbeitsdefinition des Konstruktes formuliert werden. Auf der Basis einer psychologischen Theorie und einer ersten Eingrenzung des Konstruktes können dann weitere Entscheidungen hinsichtlich der Natur der Merkmale, der Testart und des angestrebten Geltungsbereiches des Tests getroffen werden.

2.1.1 Festlegung der Erhebungsmerkmale

Qualitäten von Erhebungsmerkmalen

In Abhängigkeit von der psychologischen Theorie und der Operationalisierbarkeit des Konstruktes können die Erhebungsmerkmale verschiedene Qualitäten und Eigenschaften aufweisen.

Qualitative Merkmale (mit kategorialen Ausprägungen) vs. quantitative Merkmale (mit graduellen Abstufungen): Aus der Natur der Merkmale resultieren im ersten Fall nominalskalierte, im zweiten Fall ordinal- oder intervallskalierte Messungen. Qualitative Merkmale unterteilen Personengruppen lediglich anhand einzelner Kategorien (z. B. Geschlecht, Familienstand oder letzter Schulabschluss), während quantitative Merkmale graduell abgestufte Merkmalseinteilungen erlauben (z. B. anhand eines Intelligenzquotienten oder anhand der erreichten Punktezahl in einem Test).

Eindimensionale (nur ein Konstrukt repräsentierende) Merkmale vs. mehrdimensionale (mehr als ein Konstrukt repräsentierende) Merkmale: Fragen zur Ein- oder Mehrdimensionalität eines Konstruktes lassen sich über Exploratorische Faktorenanalysen (EFA) oder andere Korrelationsstatistiken klären und später ggf. in einzelnen Subtests (Untertests) berücksichtigen. Ein typisches Beispiel für ein mehrdimensionales Konstrukt mit verschiedenen Faktoren ist z. B. „Lebensqualität“, mit dem die materiellen und soziokulturellen Lebensbedingungen einzelner Individuen in einer Gesellschaft zusammengefasst werden (u. a. Einkommen, Bildung, Berufschancen, sozialer Status, Gesundheit). Tests, die entsprechend nur ein Konstrukt erfassen, werden als unidimensionale Tests, Tests die mehrere Konstrukte erfassen, als multidimensionale Tests bezeichnet. Letztere zerfallen häufig in sog. Subtests, die wiederum unidimensional sind.

Zeitlich stabile Merkmale (Traits) vs. zeitlich veränderliche Merkmale (States): Persönlichkeitsmerkmale werden als Traits aufgefasst, während situationsabhängige Zustände als States betrachtet werden.

2.1.2 Festlegung der Testart