Reliabilität

Die Reliabilität (lat. reliabilitas „Zuverlässigkeit“) ist ein Maß für die formale Genauigkeit und die daraus resultierende Verlässlichkeit wissenschaftlicher Messungen. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede im zu messenden Merkmal und nicht durch Messfehler erklärt werden kann. Hochreliable Ergebnisse müssen weitgehend frei von Zufallsfehlern sein, d. h. bei Wiederholung der Messung unter gleichen Rahmenbedingungen würde das gleiche Messergebnis erzielt werden (Reproduzierbarkeit von Ergebnissen unter gleichen Bedingungen).

Die Reliabilität stellt neben der Validität und der Objektivität eines der drei wichtigsten Gütekriterien für empirische Untersuchungen dar. Hohe Reliabilität ist notwendig aber keinesfalls hinreichend für hohe Validität. Eine Erhöhung der Reliabilität kann die Validität verringern (Reliabilitäts-Validitäts-Dilemma).

Reliabilität umfasst drei Aspekte:

In der psychologischen Diagnostik wird sie zu den Hauptgütekriterien von psychologischen Tests gerechnet. Sie ist einer von mehreren Anhaltspunkten, wie genau ein Persönlichkeits- oder Verhaltensmerkmal gemessen wird.

Typen

Die Reliabilität kann mit verschiedenen Methoden geschätzt werden. Je nach Methode wird von verschiedenen Reliabilitätstypen gesprochen.

Paralleltest-Reliabilität Denselben Versuchspersonen werden zwei einander stark ähnelnde Tests (entweder unmittelbar hintereinander oder zeitlich versetzt) dargeboten. Die Paralleltest-Reliabilität wird im Paralleltest-Verfahren bestimmt. Sie gibt an, ob ein vergleichbares Messverfahren identische Ergebnisse liefert. Anstelle gleichwertiger Testverfahren können auch Parallelformen des Tests verwendet werden (zum Beispiel dürften die Aufgaben 3 + 4 = ? {\displaystyle 3+4=?} und 2 + 5 = ? {\displaystyle 2+5=?} gleichermaßen dazu geeignet sein, die Fähigkeit zur einfachen Addition zu messen). Split-Half-Reliabilität/Testhalbierungsmethode Bei der Split-Half-Reliabilität wird der Test in zwei Hälften unterteilt, jede Hälfte ist ein Paralleltest zur anderen Hälfte. Bei hinreichend großer Ergebnismenge sollten die Mittelwerte und weitere statistische Kenngrößen gleich sein. Die Zuteilung der einzelnen Items zu den Testhälften erfolgt üblicherweise nach der Odd-Even-Methode, d. h. Items mit ungerader (odd) Laufnummer kommen in die eine, Items mit gerader (even) Laufnummer in die andere Testhälfte. Da man, mathematisch gesehen, in diesem Fall jedoch eigentlich nur die Reliabilität des „halben“ Tests erhält und die Split-Half-Reliabilität die tatsächliche Reliabilität unterschätzt, muss das ursprüngliche Ergebnis mit der Spearman-Brown-Korrektur korrigiert werden. Die Testhalbierungsmethode führt bei Tests mit Geschwindigkeitskomponente (Speed-Test) zu einem verzerrten Reliabilitätskoeffizienten (künstlich erhöht oder verringert). Retest-Reliabilität Die Retest-Reliabilität (auch: Re-Test-Reliabilität) ist die Reliabilität bei einer Messwiederholung: Der gleiche Test wird den Versuchspersonen zu verschiedenen Zeitpunkten dargeboten. Die Ergebnisse der ersten und zweiten Messung werden korreliert. Beim Test-Retest-Verfahren wird geprüft, ob eine Wiederholung der Messung bei Konstanz der zu messenden Eigenschaft die gleichen Messwerte liefert. Die Retest-Reliabilität gibt den Grad der Übereinstimmung an. Für viele Tests ist eine Wiederholung entsprechend dem Test-Retest-Verfahren nur theoretisch möglich, da die mit dem Test einhergehenden Erinnerungs-, Lern- oder Übungseffekte das Ergebnis beeinflussen und eine „Scheinreliabilität“ vortäuschen können. So besteht etwa bei mathematischen Aufgaben die Möglichkeit, dass der Proband sich an die Lösung aus dem ersten Test erinnert. Das Zeitintervall zwischen den Messungen muss also groß genug sein, um Gedächtniseffekte auszuschließen, gleichzeitig aber kurz genug, um Merkmalskonstanz zu gewährleisten. Mit der Retest-Reliabilität können keine systematischen, versuchsbedingten Fehler entdeckt werden. Interne Konsistenz Die interne Konsistenz ist ein Maß dafür, wie die Items einer Skala miteinander zusammenhängen. Interne Konsistenz stellt gewissermaßen einen Umweg dar, die Messgenauigkeit eines Instruments zu erheben, wenn kein Retest oder Paralleltest zur Reliabilitätsbestimmung zur Verfügung steht. Es erfolgt die Reliabilitätsmessung also intern, wobei jedes Item gewissermaßen als Paralleltest behandelt und mit jedem anderen Item korreliert wird (Interkorrelationsmatrix). Die Güte eines Items kann hierbei ermittelt werden, indem die interne Konsistenz berechnet wird, wenn das Item nicht in der Skala enthalten wäre. Eine gebräuchliche Kenngröße für die interne Konsistenz kann bei dichotomen Items mit der Kuder-Richardson-Formel berechnet werden. Für Items einer Intervallskala ist je nach Messmodell eine Kenngröße durch tau-äquivalente Reliabilität (= „Cronbachs Alpha“) oder kongenerische Reliabilität gegeben, alternativ auch McDonald’s Omega. Interrater-Reliabilität Die Interrater-Reliabilität ist keine Form der Reliabilität, obwohl der Name das suggeriert. Stattdessen wird sie dem Gütekriterium Objektivität zugeordnet, da sie die Übereinstimmung zwischen verschiedenen Beobachtern misst. Weitere gängige Übereinstimmungsmaße sind zum Beispiel Cohens Kappa oder der Übereinstimmungskoeffizient nach Holsti.

Verbesserungsmöglichkeiten

Siehe auch

Literatur

Weblinks

Wiktionary: Reliabilität – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. Christian Becker-Carus, Mike Wendt: Allgemeine Psychologie. Eine Einführung. 2. Auflage. Springer Verlag, Berlin, Heidelberg 2017, ISBN 978-3-662-53006-1, S. 21.
  2. William Revelle, Richard E. Zinbarg: Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma In: Psychometrika. 2009, Vol. 74, No. 1, S. 145–154, doi:10.1007/s11336-008-9102-z.
Normdaten (Sachbegriff): GND: 4213628-3