Information

Reduzieren des Deckeneffekts mit einem Likert-Skalenmaß

Reduzieren des Deckeneffekts mit einem Likert-Skalenmaß

Ich konzipiere eine Psychologiestudie, deren Hauptendpunkt die wahrgenommene Wirksamkeit verschiedener medizinischer Behandlungen ist. In Pilotversuchen haben wir eine bipolare Likert-Skala verwendet, um die wahrgenommene Wirksamkeit zu messen:

  • Sehr ineffizient
  • Unwirksam
  • Etwas wirkungslos
  • Etwas effektiv
  • Wirksam
  • Sehr effektiv

Leider weisen Pilotdaten auf einen großen Deckeneffekt hin. Bei der Kombination zweier ähnlicher Pilotstudien (n = 73) hatten nur vier Antworten eine wahrgenommene Wirksamkeit unter "Etwas effektiv":

(Ich überlagere hier ein Dotplot auf einem Standard-Boxplot.)

Sind andere psychometrische Skalen besser geeignet, die geclusterten Antworten am oberen Ende der Skala zu trennen? Verbessert das Hinzufügen von mehr Items zur Likert-Skala (z. B. das Erhöhen auf 8 Optionen) die Sache, ohne zu viel Zuverlässigkeit einzubüßen? Referenzen werden nach Möglichkeit besonders geschätzt.


Hier ein paar Gedanken:

Finden Sie heraus, ob das Konstrukt Deckeneffekte hat oder ob es sich um ein Messproblem handelt: Sie müssen sich überlegen, ob die Personen tatsächlich zwischen den bewerteten Objekten unterscheiden.

Mehrere Elemente pro bewertetem Objekt: Für jede medizinische Behandlung können Sie die Teilnehmer bitten, mehrere Fragen zu beantworten. Sie könnten dann den Mittelwert ihrer Antworten für die Items bilden, um eine Gesamtbewertung jeder Behandlung für jeden Teilnehmer zu erhalten. Dies erhöht die Anzahl möglicher Scores und soll auch die Zuverlässigkeit der Messung erhöhen.

Ist das Ziel, die Gruppeneigenschaft oder eine Einzeleigenschaft zu messen: Wenn Sie beispielsweise ein Maß für den Grad erhalten möchten, in dem eine Gruppe eine Behandlung für wirksam hält, sollten Sie durch die Mittelung über viele Personen ein differenziertes Maß erhalten. Selbst wenn die Leute im Allgemeinen mit 4,5 und 6 antworten, wird eine Behandlung mehr 4 und 5 haben und eine andere mehr 5 und 6 haben. Das Ergebnis ist, dass der Mittelwert solcher Bewertungen immer noch nuanciert gemessen wird, und Sie können dann Dinge sagen, wie eine Behandlung mit einem Mittelwert von 4,5 und eine andere mit einem Mittelwert von 5,5 und so weiter. In diesem Sinne können Sie immer noch die Meinungen zur Wirksamkeit auf Gruppenebene vergleichen.

Erzwungene Auswahl oder Rangfolgeformat: Sie könnten eine erzwungene Auswahl oder ein Rangfolgeformat anwenden, bei dem die Teilnehmer gebeten werden, eine Rangfolge oder eine vergleichende Bewertung der relativen Wirksamkeit einer Reihe von Behandlungen vorzunehmen. Dies hat Vor- und Nachteile. Es wird Ihnen offensichtlich ein gutes Verständnis der Wahrnehmung der relativen Wirksamkeit vermitteln, aber Sie haben keine Informationen darüber, wie wirksam sie die Behandlungen im Vergleich zu einem allgemeinen Wirksamkeitsstandard wahrnehmen.

Antwortskala ändern: Es gibt viele Auswahlmöglichkeiten für Antwortskalen. Sie können weitere Skalenpunkte hinzufügen (z. B. zur 7- oder 10-Punkte-Skala wechseln). Sie könnten sogar eine Skala entwerfen, die nicht ausbalanciert ist, sodass Sie die Effektivität stärker unterscheiden. Persönlich denke ich, dass Sie ein Prinzip brauchen, um Ihre Wahl der Skala zu bestimmen. Eine gute allgemeine Regel ist, mit Personen zu sprechen, die die Bewertung vornehmen, und herauszufinden, mit welchen Worten sie die Wirksamkeit von Behandlungen beschreiben. Wie viele Unterscheidungen machen sie? Was ist der Unterschied zwischen ineffektiv und sehr ineffektiv in ihrem Kopf?


Mittel

Demographische Information

Ein Hintergrundinformationsblatt, bestehend aus Alter, Bildungsjahr, Geschlecht und ob sie aktuell Raucher waren, wurde verwendet, um demografische Informationen über die Teilnehmer zu erhalten.

Krankenhausangst- und Depressionsskala

Die persische Version der Hospital Anxiety and Depression Scale (HADS) wurde verwendet, um das Angst- und Depressionsniveau der Teilnehmer zu beurteilen. Die HADS ist eine 14-Item-Skala, in der die Items in einem Vier-Punkte-Antwortformat mit einer Gesamtpunktzahl von 0 bis 21 für jede der Subskalen (Angst und Depression mit je sieben Items) beantwortet werden. Beispielartikel umfassen “Ich habe das Interesse an meinem Aussehen verloren” (Depression) und �unruhigende Gedanken gehen mir durch den Kopf” (Angst). Ein höherer Wert weist auf schwere Angstzustände oder Depressionen hin. Die Skala hat eine akzeptable Zuverlässigkeit (Cronbach’s α von 0,78 bzw. 0,86 für die HADS-Angst bzw. -Depression) und eine zufriedenstellende Validität (Montazeri et al. 2003).

Wahrgenommene Anfälligkeit für Krankheitsskala

Die persische Version der 15-Punkte Perceived Vulnerability to Disease Scale (PVDS) wurde verwendet, um die wahrgenommene Anfälligkeit der Teilnehmer für Infektionskrankheiten zu bewerten, die spezifisch wahrgenommene Infektiosität (sieben-Punkte-Unterskala) und Keimaversion (acht-Punkte-Unterskala) ist. Die Teilnehmer antworten auf jedes Item auf einer siebenstufigen Skala (von “trifft überhaupt nicht zu” bis “trifft voll und ganz zu”), wobei etwa die Hälfte der Items umgekehrt bewertet wird (Ahmadzadeh et al. 2013 Duncan et al. 2009). Beispielartikel umfassen “Im Allgemeinen bin ich sehr anfällig für Erkältungen, Grippe und andere Infektionskrankheiten” (wahrgenommene Infektiosität) und “Ich bevorzuge es, mir kurz nach dem Händeschütteln die Hände zu waschen” (Keimabneigung). Eine höhere Punktzahl weist auf eine schwere Form der wahrgenommenen Ansteckbarkeit, Keimaversion oder wahrgenommene Anfälligkeit für Krankheiten (als Ganzes) hin. Es hat einen Cronbach’s α von 0,70, 0,72 und 0,70 für wahrgenommene Infektiosität, Keimaversion bzw. PVDS-Gesamtscore (Ahmadzadeh et al. 2013).

Datenanalyse

Deskriptive Statistiken wurden verwendet, um die Merkmale der Teilnehmer zu verstehen. Analysen zu psychometrischen Eigenschaften umfassten die CTT-Analyse und die Rasch-Modellanalyse. Die CTT-Analyse umfasste interne Konsistenz, Test-Retest-Reliabilität, korrigierte Item-Total-Korrelation, durchschnittliche Varianz extrahiert (AVE), zusammengesetzte Reliabilität, Standardmessfehler, gleichzeitige Validität und explorative Faktorenanalyse (EFA). Die Rasch-Modellanalyse umfasste das mittlere Quadrat der Ausstattung und des Outfits (MnSq) für jedes Element, die Zuverlässigkeit der Trennung von Gegenständen und Personen und den Trennungsindex von Gegenständen und Personen. Außerdem wurde die differenzielle Itemfunktionalität (DIF) basierend auf der Rasch-Analyse verwendet, um die Messinvarianz über Geschlecht und Alter hinweg zu testen (Wu et al. 2017). Alle deskriptiven und CTT-Analysen wurden unter Verwendung von IBM SPSS 23.0 (IBM Corp., Armonk, NY) durchgeführt. Auch die Rasch-Modellanalysen wurden mit WINSTEPS 3.75.0 durchgeführt.


3. Ergebnisse

Die Ergebnisse werden als Diagramme mit auf der horizontalen Achse und der Leistungsmetrik auf der vertikalen Achse dargestellt. Um den Vergleich zu erleichtern, werden statistische Methoden, die auf dieselben Daten, im selben Szenario und mit derselben Metrik angewendet wurden, zusammen in derselben Grafik dargestellt. Ohne 2 × 2 ANOVA ergibt sich insgesamt 1050 Graphen, die wir als 42 Figuren mit 5 × 5 Panels strukturieren. Es ist weder praktikabel noch aufschlussreich, alle Zahlen in diesem Bericht darzustellen. Die Zahlen sind in S1 Anhang enthalten. Die meisten Grafiken zeigen qualitativ ähnliche Muster und im Ergebnisteil präsentieren wir eine unserer Meinung nach faire und repräsentative Auswahl. Insbesondere präsentieren wir für jede Verteilung die Ergebnisse für ein bestimmtes Wertepaar des und des Störparameters. Diese Werte sind in der dritten und sechsten Spalte von Tabelle 2 aufgeführt.

3.1 Verallgemeinerte Gammaverteilung

Abb. 3 zeigt die Ergebnisse für die Gamma-Verteilung mit Cn = 1 und . Im ersten Panel konvergiert die rohe Gruppendifferenz gegen Null und das CI wird enger, da Cl nimmt ab. Dementsprechend, wie Cl nimmt ab, Bayesian T-test und TOST wechseln, um die Gruppenäquivalenz zu unterstützen. Im Gegensatz dazu schwankt die Differenz zwischen logarithmisch-transformierten Gruppendaten um den wahren Wert, wobei CI breiter wird als Cl CL nimmt ab. Dementsprechend schlägt log-TOST keine Äquivalenz für niedrige vor Cl, jedoch der Bayes'sche Log-T-Test wechselt immer noch zu einem falschen Ergebnis und zeigt nur eine geringfügige Verbesserung gegenüber Bayesian T-Test auf Rohdaten. Cohens D geht gegen Null mit abnehmendem Cl sowohl für Roh- als auch für Logdaten. Entsprechend, T-testen und protokollieren T-Testen Sie beide nicht, um einen Gruppenunterschied für niedrig zu erkennen Cl, mit Log-T-Test zeigt eine bessere Leistung von bis zu 6,9 Prozentpunkten (pp) gegenüber rohem T-Prüfung. Der Rang-basierte Test zeigt eine ähnliche Leistung (bis zu 3,2 pp Unterschied) wie log-T-test, während getrimmt T-Test zeigt größte Lücke zum Log-T-Test mit bis zu 20 pp. Die Testleistung im Dreigruppendesign liefert ähnliche Ergebnisse, mit F-Testnachlauf um bis zu 10,1 pp hinter Log-F-Test und der rangbasierte Test, während alle drei Tests einen Wechsel von der Gruppendifferenzerkennung zu keiner Erkennung zeigen, wenn der Floor-Effekt stärker wird.

Die Panels werden in der Reihenfolge von links nach rechts, von oben nach unten bezeichnet. Horizontale Achse in jedem Panel zeigt Cl ( um genau zu sein). Die farbigen Polygone im ersten Feld zeigen die mittlere Gruppendifferenz (dicke Linie) und ihr 95 %-KI (Oberfläche). Die blaue Farbe zeigt Ergebnisse mit logarithmisch transformierten Daten, während die rote Farbe Ergebnisse mit Rohdaten anzeigt. Das zweite Panel zeigt Cohens D zusammen mit CIs. Das Layout ähnelt dem Layout des ersten Panels. Das dritte Panel zeigt die Ergebnisse des TOST-Äquivalenztestverfahrens. Die vertikale Achse zeigt den Anteil der Fälle, die Gruppenäquivalenz unterstützten. Im vierten Feld zeigt die vertikale Achse die Wahrscheinlichkeit der Hypothese einer Gruppenmittelwert-Äquivalenz relativ zur Hypothese einer Gruppenmittelwertdifferenz. Die blaue und rote Farbe im dritten und vierten Panel kennzeichnen, ob die Methoden auf transformierte oder auf Rohdaten angewendet werden. Die vertikale Achse im fünften und sechsten Feld zeigt den Anteil der Ablehnungen der Nullhypothese (Gruppenäquivalenz). Fünftes Panel zeigt Ergebnisse von T-test (rot), log-T-Test (blau), MW-Test (grün) und getrimmt T-test (gelb). Das sechste Panel zeigt Ergebnisse aus dreistufigenF-Test mit transformierten Daten (blau) und Rohdaten (rot). Die grüne Linie zeigt die Ergebnisse des KW-Tests. Die Werte in den Feldern eins, zwei und vier wurden als Median über die Wiederholungen erhalten.

Andere Auswahlmöglichkeiten von und Cn haben keinen Einfluss auf die qualitative Natur der Ergebnisse. Beachten Sie, dass Cn und fungieren beide als Skala in Bezug auf E[logX]. Wenn statistische Methoden auf logarithmisch transformierte Daten angewendet werden, dann ist eine andere Wahl von und Cn nur skaliert Cl und streckt oder schrumpft die horizontale Achse in Abb. 3. In Bezug auf E[x], höhere Werte von und Cn CI enger machen, den mittleren Gruppenunterschied erhöhen, aber auch die Form des CI beeinflussen. Die Leistungslücken zwischen den Tests vergrößern sich mit und Cn mit steigender absoluter Testleistung steigen.

3.2 Waldverteilung

Abb. 4 zeigt die Ergebnisse für die Wald-Verteilung mit σ = 1 und . Beachten Sie, dass der Schweregrad des Bodeneffekts zunimmt, wenn B erhöht sich. Wir haben die horizontale Achse in Abb. 4 umgedreht, um den Vergleich zwischen den Figuren zu erleichtern. Der CI der Gruppendifferenz nimmt sowohl bei den Rohdaten als auch bei den logarithmisch transformierten Daten gegen Null ab. Beide CIs werden mit zunehmender Stärke des Floor-Effekts enger. Die CIs von Cohens D sind für beide Datentypen identisch, mit Cohens D gegen Null abnehmend. Als Konsequenz die T-testen und protokollieren T-test (und auch MW-Test) zeigen eine ähnliche Leistung. Getrimmt T-Test schneidet mit einem Abstand von bis zu 20 % am schlechtesten ab T-Prüfung. Alle Zweigruppen- und Dreigruppentests zeigen eine Abnahme der Leistung mit zunehmender Stärke des Bodeneffekts. Wenn der Bodeneffekt stärker wird, werden sowohl TOST als auch Bayesian T-Test Wechsel zur Selbsthilfegruppe Äquivalenz.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Anpassungen an σ und ändern Sie den Maßstab und den Offset von B aber ansonsten die qualitative Natur der Ergebnisse nicht ändern. Höhere Werte von und niedrigere Werte von σ führen zu einer besseren Testleistung und die Abstände zwischen den Tests sind größer, wenn beide Werte groß sind. Diese Anpassungen deuten auch darauf hin, dass die Testleistung nicht gegen Null konvergiert. Die Leistung am Konvergenzpunkt hängt ab von σ und .

3.3 Beta-Primzahlverteilung

Abb. 5 zeigt die Ergebnisse für die Beta-Prime-Verteilung mit Cn = 0,15 und . Die mittlere Gruppendifferenz ist negativ, aber nahe Null, während die mittlere Gruppendifferenz der logarithmisch skalierten Daten um den wahren Wert von oszilliert. In beiden Fällen wird das CI breiter, da Cl nimmt ab. Die Testleistung im Zwei-Gruppen- und im Drei-Gruppen-Szenario sinkt mit Abnahmen in Cl. Die Leistung von T-test und F-Test mit Rohdaten liegt im Bereich [0, 0.1] unabhängig von Cl. Ähnlich, Bayesian T-Test zeigt die Unterstützung für keinen Unterschied von Null bei Rohdaten unabhängig davon an Cl, aber mit Log-Daten Bayesian T-test wechselt von der Unterstützung der Differenz zur Unterstützung der Nicht-Differenz. Protokoll-T-testen und protokollieren-F-Test zeigen beste Leistung, gefolgt von rangbasierten Tests (Lücke von bis zu 20,1 bzw. 19,4 pp) und von getrimmten T-Test (Lücke von bis zu 60,8 pp). TOST erkennt selten Äquivalenz, da der TOST-Schwellenwert zu konservativ ist.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Große Werte von Cn und erhöhen Sie die (negative) Mittelwertdifferenz und die Breite des CI. Die CI der protokollierten Daten bleibt davon unberührt. Schließlich führt ein größeres Ergebnis zu einer besseren Testleistung, einschließlich der Leistung von Bayesian T-Test auf log-skalierten Daten.

3.4 Beta-Verteilung

Abb. 6 zeigt die Ergebnisse für die Beta-Verteilung mit Cdu = −0,2 und . Denken Sie daran, dass in diesem Fall die Logit-Transformation anstelle der Log-Transformation verwendet wird. Die Differenz im Mittelwert der Logit-Werte oszilliert um den wahren Wert, während bei Rohdaten die Differenz mit abnehmendem . gegen Null abnimmt Cl. Im ersteren Fall nimmt die CI-Breite mit zunehmendem Bodeneffekt zu, während sie im letzteren Fall konstant bleibt. Cohens D sowohl der Roh- als auch der Logit-Daten nimmt mit abnehmender Menge ab Cl während der entsprechende CI konstant bleibt. Die Logite T-Test zeigt die beste Testleistung, gefolgt von einem rangbasierten Test mit einer Lücke von bis zu 19,1 pp und roh T-testen und trimmen T-Test mit noch größeren Lücken. In allen vier Fällen wird ein Wechsel von hoher Ausschussrate zu niedriger Ausschussrate beobachtet, da Cl nimmt ab. Das Szenario mit drei Gruppen zeigt ähnliche Ergebnisse. Bayesian T-Testschalter, um Äquivalenz statt Gruppenunterschied zu unterstützen, da Cl nimmt ab. Wie im vorherigen Abschnitt sind die TOST-Schwellenwerte zu konservativ, um eine Äquivalenz zu erkennen. Es kann jedoch ein Wechsel zur Unterstützung von Äquivalenz beobachtet werden, wenn TOST auf Daten angewendet wird, die mit größeren Werten von generiert wurden.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Größer und kleiner Cdu die Testleistung verbessern. Kleinere Werte von Cdu machen CIs enger, während die mittlere Differenz erhöht wird. In allen Fällen stimmt die logitbasierte Differenzschätzung mit der wahren Gruppendifferenz überein .

3.5 Beta-Binomialverteilung

Abb. 7 zeigt die Ergebnisse für die Beta-Verteilung mit Cdu = −0.3, n = 7 und . In diesem Fall hebt die blaue Farbe eine Transformation mit Logit-Funktion hervor. Sowohl bei den transformierten als auch bei den Rohdaten sind die CIs ähnlich: Der Mittelwert nimmt mit abnehmender ab Cl während die CI-Breite konstant bleibt. Ein ähnliches Muster wird bei Cohens . beobachtet D. Der rangbasierte Test schneidet mit einem Abstand von bis zu 25,3 pp zum Logit am besten ab T-Prüfung. Die Logite T-Test zeigt eine bessere Leistung als das Rohmaterial T-Test, wenn die Daten nicht vom Bodeneffekt betroffen sind. Getrimmt T-Test schneidet mit einem Abstand von bis zu 49,9 pp zum rangbasierten Test am schlechtesten ab. Ähnliche Ergebnisse werden im Drei-Gruppen-Szenario erzielt, wobei ein rangbasierter Test die beste Leistung zeigt. Größere und größere Werte von n die Testleistung verbessern. Beide n und erhöhen Sie die mittlere Differenz, während höher n führt zu einem breiteren CI.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Mit stärkerem Bodeneffekt, Bayesian T-Test begünstigt die Hypothese, dass es keinen Gruppenunterschied gibt. TOST erkennt erneut keine Äquivalenz, da die Schwellenwerte zu konservativ sind.

3.6 Ordinales logistisches Regressionsmodell

Abb. 8 zeigt die Ergebnisse für OLRM mit σ = 0,8 und Schwellenwerte bei −3, −1, 1, 3. Auch hier zeigen blaue Linien Ergebnisse für Daten, die mit der Logit-Funktion transformiert wurden. In diesem Fall Cl = −Cdu. Wir haben diese Tatsache genutzt, um in Abb. 8 sowohl den Boden- als auch den Deckeneffekt zu zeigen Cl nimmt ab, Bodeneffekt nimmt zu, während Cl nimmt der Deckeneffekt zu. Beachten Sie, dass eine der Gruppen in Bezug auf weiter versetzt war Cl auf der horizontalen Achse, was erklärt, warum die Graphen nicht vollständig symmetrisch um Cl = 0. Bei Decken- und Bodeneffekt geht die positive Mittelwertdifferenz gegen Null und das CI wird enger. Dies gilt sowohl für rohe und transformierte Daten als auch für ihre Cohens D. Die Testleistung nimmt mit zunehmendem Ausmaß des Decken- und Bodeneffekts ab. Zum Testvergleich sind alle Tests mit Ausnahme von getrimmt T-Test zeigen vergleichbare Leistung. TOST unterstützt die Gleichwertigkeit am Boden und an der Decke. Ähnlich, Bayesian T-Test begünstigt Gleichwertigkeit an Decke und Boden. Beachten Sie, dass die Simulation im Prinzip darüber hinaus erweitert werden könnte Cl = −5 und Cl = 5, jedoch bei Cl = -5 bereits mehr als 90% der Werte null sind und das Vorhandensein des Bodeneffekts für einen Untersucher offensichtlich sein sollte.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

3.7 Zwei-Wege-Faktor-Design

Abb. 9 zeigt den Vergleich der Erkennungsrate von Rang-basiertem SRHT (grün) mit ANOVA (rot) und mit ANOVA an transformierten Daten (blau). Log-Transformation wird mit positiven Ergebnissen in den ersten drei Spalten verwendet. Die Logit-Transformation wird mit begrenztem Ergebnis in der vierten, fünften und sechsten Spalte verwendet. Gestrichelte Linien zeigen den stärkeren Haupteffekt, gestrichelte Linien zeigen den schwächeren Haupteffekt und durchgezogene Linien zeigt die Wechselwirkung. Die vertikale Achse zeigt den Anteil der Ablehnungen der Hypothese, dass es keine Hauptwirkung/Interaktion gibt. Wie im vorherigen Abschnitt zeigt die horizontale Achse die Werte der Parameter, die verwendet werden, um den Bodeneffekt zu erzeugen. Der Bodeneffekt nimmt in negativer (nach links) Richtung der horizontalen Achse zu. Dies gilt auch für die Wald-Verteilung, in diesem Fall haben wir die Werte von umgekehrt B so dass höhere Werte im linken Teil der Achse liegen. Die Panelspalten zeigen sechs verschiedene Datengenerierungsprozesse, während die Zeilen fünf verschiedene Haupteffekt-/Interaktionskonstellationen zeigen.Diese Konstellationen wurden in Abb. 2 beschrieben. Denken Sie vor allem daran, dass es in der Situation „kein X“ zwei Haupteffekte, aber keine Interaktion gab, „kein ME“ eine Situation mit Interaktion, aber keine Haupteffekte und in den verbleibenden drei Situationen beide Haupteffekte bezeichnet und es kam zu einer Interaktion.

Abbildung zeigt den Vergleich der Erkennungsrate von Rang-basierter SRHT (grün) mit ANOVA (rot) und mit ANOVA an transformierten Daten (blau). Weitere Details sind im Text angegeben.

Beachten Sie zunächst, dass die Erkennungsleistung unter allen Bedingungen mit zunehmender Stärke des Bodeneffekts abnahm. In der „no X“-Situation gab es zwei Haupteffekte, aber keine Interaktion. Bei den Tests gelang es meist, die Haupteffekte zu erkennen, wenn der Bodeneffekt schwach war. Die Tests haben in den meisten Fällen die Erkennung von Interaktionen korrekt vermieden. Als eine Ausnahme, F-Test (mit Rohdaten) erkannte Interaktion, wenn der Bodeneffekt schwach war, während die Daten aus der Gamma- oder Wald-Verteilung generiert wurden. F-test konnte darüber hinaus den stärkeren Haupteffekt mit Betaprime und Betaverteilung (Spalte 3 und 4) nicht feststellen, was im Gegensatz zu den beiden anderen Methoden stand. SRHT übertraf die anderen beiden Tests mit Beta-Binomialdaten, während mit Beta prime und Beta verteilten Daten der log F-Test zeigte leichten Vorteil gegenüber SRHT.

„no ME“ bezeichnet die Situation mit einer Interaktion, aber ohne Haupteffekte. Alle Methoden haben es richtig vermieden, Haupteffekte zu erkennen. Bei der Roh-ANOVA traten Probleme bei der Erkennung von Interaktionen auf, wenn die Daten aus der Beta- und Beta-Primzahlverteilung generiert wurden. In diesen Fällen ist das Protokoll F-test zeigte einen Leistungsvorteil gegenüber SRHT. Im Gegensatz dazu war SRHT beim Nachweis von Interaktionen am erfolgreichsten, wenn Daten aus der Beta-Binomialverteilung generiert wurden.

In den verbleibenden drei Situationen traten sowohl Haupteffekte als auch eine Interaktion auf. Beachten Sie, dass die drei Ergebnisse in den letzten drei Zeilen sehr ähnlich sind, außer dass sie unterschiedliche Permutationen zwischen den beiden Haupteffekten und der Interaktion zeigen. Vergleichen Sie die dritte und vierte Zeile: Vertauscht man die gestrichelten und die durchgezogenen Linien, erhält man sehr ähnliche Ergebnisse. Zwischen der vierten und der fünften Reihe werden die gepunkteten und die durchgezogenen Linien vertauscht. Dies ist vielleicht nicht überraschend, da die drei verschiedenen Interaktionstypen durch Vertauschen der wahren Mittelwerte zwischen den Faktoren erhalten wurden.

Alle drei statistischen Methoden stießen auf Probleme, ungekreuzte Interaktionen zu erkennen. Die einzige Ausnahme war die log-ANOVA an Gamma-verteilten Daten, wenn der Bodeneffekt schwach war. Dementsprechend stießen alle Tests (wieder mit Ausnahme der log-ANOVA an Gamma-verteilten Daten) auf Probleme, den schwächeren Haupteffekt (gestrichelte Linien) in Gegenwart von gekreuzten und doppelt gekreuzten Interaktionen zu erkennen. In Bezug auf die Haupteffekte, die die ungekreuzte Interaktion begleiteten, zeigte die ANOVA mit transformierten Daten die beste Leistung, gefolgt von einem rangbasierten Test und einer ANOVA. Auch hier, wenn die Daten aus Beta Prime und Beta Distribution generiert werden F Test mit transformierten Daten zeigte einen Vorteil gegenüber SRHT, während SRHT im Fall der Beta-Binomialverteilung profitierte. In all diesen drei Fällen ist die rohe F-Test zeigte eine schlechte Leistung bei der Erkennung der Haupteffekte. Wenn Daten aus dem Ordered Logistic-Modell generiert wurden, zeigten die drei Tests eine ähnliche Leistung.

Im Szenario ohne Interaktion („kein X“) und mit ungekreuzter Interaktion, wenn die Daten aus Beta-, Beta-Prime- und Beta-Binomialverteilung generiert wurden, fragt sich der Leser vielleicht, wie die Interaktionserkennungsleistung aussehen würde, wenn man größer wählen würde Cl. Aufgrund der Beschränkungen der Betafunktion ist eine solche Wahl nicht möglich, man kann jedoch die Effektstärke erhöhen, d. h. die Gruppenunterschiede skalieren, um eine leichtere Erkennung zu ermöglichen. Die letzte Abbildung im S1-Anhang zeigt die Erkennungsrate im 2 × 2-Faktor-Szenario, wobei die obere Grenze in Tabelle 2 in der vierten Spalte aufgeführt ist. Die Abbildung zeigt, dass für große Cl im „no X“-Szenario bietet SRHT zumindest eine gewisse Unterstützung für die Interaktion mit Daten aus der Beta-, Beta-Prime- und Beta-Binomialverteilung. Die Interaktionserkennungsleistung der anderen beiden Methoden bleibt davon unberührt. Der größere verbessert nicht die Erkennung ungekreuzter Interaktionen für diese drei Verteilungen. Interessanterweise roh F-Test übertrifft Protokoll F-test wann und Cl sind groß.

3.8 Parameterwiederherstellung mit geordneter logistischer Regression und Beta-Binomialverteilung

Wie in den Abschnitten 3.5 und 3.6 gezeigt, brachte die Anwendung der Logit-Transformation auf diskrete Daten keine Leistungsverbesserung im Vergleich zu Methoden, die auf untransformierte Daten angewendet wurden. Ein solches Ergebnis wirft die Frage auf, ob dieses Ergebnis eine Ineffektivität der ausgewählten Transformation beschreibt oder ob die diskreten Daten eine allgemeinere Inferenzherausforderung darstellen, die eine rangbasierte Lösung erfordert. In diesem Abschnitt geben wir Klarheit, indem wir die OLRM- und Beta-Binomialverteilung an die aus OLRM generierten Daten anpassen. Wie bereits in der Einleitung erwähnt, ist die Schwierigkeit bei diesem Verfahren rechnerisch. Die analytischen Ergebnisse zur Parameterschätzung mit OLRM oder Beta-Binomialverteilung unter der in der aktuellen Arbeit verwendeten Parametrisierung sind in der Literatur nicht verfügbar. Näherungsverfahren sind verfügbar, aber rechenaufwendig. Aus diesen Gründen wurde in den vorherigen Abschnitten auf eine Parameterwiederherstellung (d. h. dasselbe Modell wird verwendet, um die Daten zu generieren und anzupassen) verzichtet, obwohl sie interessante Informationen über die bestmögliche Leistung liefern würde. Aus diesen Gründen berücksichtigt der aktuelle Abschnitt weder die Leistung über 10000 Wiederholungen noch die Leistung über eine Reihe von störenden Parametern. Es wird nur ein einziges Forschungsszenario betrachtet. Um die Wahl des Szenarios weniger willkürlich und weniger künstlich zu gestalten, passen wir das in der Einleitung diskutierte Forschungsszenario an. Wir fragen, wie sich das Ausmaß des Deckeneffekts auf die Schlussfolgerungen bezüglich des Replikationsversuchs von [2] auswirken würde. Insbesondere haben wir OLRM an die Daten aus [1] und [2] angepasst. Wir haben die Schwierigkeit für jedes der sechs Items in der Originalstudie separat geschätzt und wir haben einen separaten Parametersatz für die Replikationsstudie geschätzt. Die Itemschwierigkeit der Kontrollgruppe war Cdu während die Itemschwierigkeit der experimentellen Gruppe war Die Schwellenwerte wurden über die Items und über die Datensätze gepoolt. Der Gruppenunterschied war bei allen Items identisch, jedoch wurden zwei separate Parameter für Original- und Replikationsstichprobe verwendet. Im zweiten Schritt wurden mehrere Sätze gefälschter Daten aus dem OLRM mit Schwellenwerten generiert und die Gruppendifferenz wurde auf die Medianschätzungen fixiert, die aus der ursprünglichen Studie im vorherigen Schritt erhalten wurden. Ähnlich dem Verfahren, das verwendet wurde, um die Ergebnisse in Abschnitt 3.6 zu erhalten, Cdu wurde variiert, um die Stärke des Deckeneffekts anzupassen. OLRM wurde an jeden gefälschten Datensatz angepasst. Beachten Sie, dass ein separates Cdu, und für jeden gefälschten Datensatz wurde ein separater Satz von Schwellenwerten geschätzt. Da keine Wiederholungen verfügbar waren, wird nur die Medianschätzung des Gruppenunterschieds zusammen mit dem 95 %-Prozentintervall angezeigt. Um die Schätzungen zu erhalten, wurde die Markov-Ketten-Monte-Carlo-Methode verwendet. Die technischen Details dieser Methode sind in Abschnitt 2.3 beschrieben.

Das linke Feld von Fig. 10 zeigt die Schätzung der Gruppendifferenz (vertikale Achse) als Funktion des Deckeneffekts, der von links nach rechts zunimmt. Die Medianschätzung (schwarz) stimmt mit der wahren Gruppendifferenz (blau) überein. Die Breite des 95%-Intervalls (graue Fläche) nimmt mit zunehmendem Ausmaß des Deckeneffekts (und auch des Bodeneffekts) zu.

Abbildung zeigt die Schätzung der Gruppendifferenz auf der vertikalen Achse, die durch Anpassen von OLRM (linkes Feld) und Beta-Binomialverteilung (rechtes Feld) an die mit OLRM durch Manipulation der Größe des Deckeneffekts erzeugten Daten erhalten wurde Cdu. Cdu wird auf der horizontalen Achse angezeigt und die Stärke des Deckeneffekts nimmt von links nach rechts zu. In Anlehnung an die genaue Schreibweise in Abschnitt 2.3 zeigt die schwarze Linie den Median-Schätzwert der Gruppendifferenz, während die graue Fläche das 95 %-Intervall des Schätzwertes zeigt. Die blaue Linie zeigt den wahren Wert, der von OLRM verwendet wird, das die Daten generiert hat, und der wahre Wert entspricht einer OLRM-Schätzung der Gruppendifferenz in [1] (d. h. Median-Schätzung von D0). Die Kreuze zeigen die Schwierigkeit der sechs Items (d. h. ) in der Originalstudie (grün [1]) und in der Replikationsstudie (rot [2]), während Cich und Gitterlinien der horizontalen Achse zeigen die OLRM-Schwellenwerte, die durch Zusammenführen der Original- und Replikationsdaten erhalten wurden.

Wie bereits in der Einleitung argumentiert, kann die Parameterwiederherstellung nützlich sein, um die Best-Case-Leistung zu schätzen, aber wir glauben nicht, dass sie die Überlegenheit des Anpassungs-/Erzeugungsmodells gegenüber einem anderen statistischen Modell zeigt, das an dieselben Daten angepasst ist. Daher können die Ergebnisse im linken Feld von Abb. 10 nicht verwendet werden, um für die Überlegenheit der Leistung von OLRM gegenüber der Leistung von beispielsweise linearen Methoden, die in Abschnitt 3.6 betrachtet wurden, zu argumentieren. Daher haben wir eine abschließende Untersuchung hinzugefügt, in der der Gruppenunterschied mit einem Beta-Binomial-Modell mit Parametern geschätzt wurde Cl und Cdu. Die Ergebnisse sind im rechten Feld von Fig. 10 dargestellt. Der Median der Gruppendifferenz ist nicht konstant und stimmt nicht mit der wahren Gruppendifferenz von OLRM überein. Ähnlich wie bei der OLRM-Schätzung nimmt die Breite des prozentualen Intervalls jedoch mit zunehmendem Ausmaß des Deckeneffekts zu.

Die Kreuze in Abb. 10 zeigen die Schwierigkeit der sechs Items in der Originalstudie (grün [1]) und in der Replikationsstudie (rot [2]), während die Häkchen auf der horizontalen Achse die OLRM-Schwellenwerte zeigen, die durch das Poolen des Originals erhalten wurden und die Replikationsdaten. Die Items waren in der Replikationsstudie schwieriger als in der Originalstudie. Um auf die Frage vom Anfang der Einleitung zurückzukommen: Maskiert der stärkere Deckeneffekt in der Replikationsstudie den signifikanten Gruppenunterschied? Betrachten wir die Frage, ob die Wahrscheinlichkeit, dass die Gruppendifferenz kleiner als Null ist, kleiner als 0,025 ist, dann lautet die Antwort nein. Über alle Elemente hinweg überschreitet die untere Grenze des OLRM-Prozentintervalls nicht null für alle Ebenen von Cl die dem Schwierigkeitsgrad des Gegenstands entsprechen. Dies gilt für das Beta-Binomial-Modell, mit Ausnahme des schwierigsten Elements. Wenn die Original- und die Replikationsstudie aus sechs Items bestanden, mit der Schwierigkeit des sechsten Items, dann würde der signifikante Gruppenunterschied in der Replikationsstudie aufgrund des Deckeneffekts verschwinden. Angesichts der tatsächlichen Schwierigkeit der Items in der Replikationsstudie ist ein solches Verschwinden jedoch im Zusammenhang mit der Schätzung mit Beta-Binomialverteilung sehr unwahrscheinlich.

3.9 Mittelwert, Varianz und Schiefe

Abb. 11 zeigt, wie sich die Größe des Bodeneffekts auf die Erwartung, Varianz und Schiefe der in Spalten gezeigten Verteilungen auswirkt. Beachten Sie, dass OLRM sowohl einen Deckeneffekt als auch einen Bodeneffekt manifestiert, weil Cl = −Cdu. Um den Vergleich zu erleichtern, wurden die mit Betaverteilung, Betabinomial und OLRM erhaltenen Werte auf das Intervall [0, 1] skaliert. Mit Ausnahme der Beta-Primzahlverteilung nimmt der Mittelwert ab, da Cl nimmt ab. Die Varianz geht für die Gamma-Verteilung und die Wald-Verteilung gegen Null, während im Fall der Beta-Primzahl-Verteilung die Varianz mit abnehmendem zunimmt Cl. Um die Beta- und Beta-Binomialverteilung zu berücksichtigen, wie Cl nimmt ab, die Varianz nimmt zunächst zu, erreicht das Maximum bei Cl = Cdu (entspricht ein = B) und nimmt dann ab als Cl < Cdu. Die Varianz von OLRM zeigt das Maximum bei Cl = 0, während die Schräge zu diesem Zeitpunkt Null ist. Wie Cl → −∞ die Varianz geht gegen Null und die Verteilung weist eine positive Schiefe auf. Wie Cl → ∞, die Verteilung zeigt eine negative Schiefe und ihre Varianz geht gegen Null. Mit Ausnahme von OLRM ist der Schiefe positiv. Für alle Verteilungen mit Ausnahme der Wald-Verteilung nimmt die Schiefe zu, da Cl nimmt ab.

Die Abbildung zeigt, wie sich die Größe des Bodeneffekts auf die Erwartung, Varianz und Schiefe der in Spalten gezeigten Verteilungen auswirkt. In jedem Panel nimmt die Stärke des Bodeneffekts von rechts nach links zu. Weitere Details sind im Text angegeben.

Die Verteilungen erfüllen größtenteils alle CFE-Bedingungen. Eine Ausnahme ist die Wald-Verteilung, die eine abnehmende Schiefe zeigt und somit die vierte Bedingung nicht erfüllt. Die Beta-Prime-Distribution bietet den ergänzenden Fall, sie erfüllt nur die vierte Bedingung und verfehlt die restlichen Bedingungen. Beachten Sie, dass die zweite Bedingung überprüft werden kann, indem die mittlere Differenz berücksichtigt wird, die im ersten Feld der vorherigen Abbildungen aus dem Ergebnisabschnitt angezeigt wird. Alle Mittelwertunterschiede, mit Ausnahme der Beta-Prime-Verteilung, nehmen mit abnehmendem Wert ab Cl.


2 Antworten 2

Es hängt ganz von der Analyse ab, die Sie durchführen. Niemand wird hinter Ihnen her, wenn Sie die Antworten gruppieren, aber das macht den Fragebogen ungültig - Sie hätten stattdessen einfach "Zustimmen / Nicht zustimmen" fragen können.

Der Zweck der Likert-Skala besteht darin, den Grad der Zustimmung des Responders zu ermitteln, der in einer solchen Gruppierung völlig ignoriert würde.

Sie können dies tun, aber Sie verringern wahrscheinlich die Qualität Ihrer Daten erheblich.

In den meisten Fällen*, in denen Sie eine Likert-Skala verwenden, müssen Sie einen starken Deckeneffekt** einkalkulieren. Stellen Sie sich vor, Sie würden etwas wie "Unsere Anwendung ist einfach zu verwenden" fragen und Ihre Kunden können zwischen den Optionen "Stimmt voll und ganz" bis "Stimmt nicht zu" wählen. Wenn Sie sich ein Histogramm der Antworten ansehen, werden Sie feststellen, dass Sie im Teil "Zustimmen" viel mehr Antworten haben als im Teil "Nicht zustimmen".

Es gibt statistische Möglichkeiten, dies zu entdecken und damit umzugehen, aber Sie sollten sie nicht benötigen, wenn Sie Ihre Ergebnisse nicht in peer-reviewed Journals veröffentlichen möchten. Aber hier ist die praktische Art, die Dinge zu betrachten.

  • Das Verhältnis der Antworten "stimme nicht zu" zu "stimme nicht zu" ist nicht interessant, denn Sie werden fast immer mehr Zustimmungen als Ablehnungen haben, selbst wenn Ihre Software mittelmäßig ist. Es muss wirklich böse sein, das Verhältnis umzukehren.
  • Interessant ist die Histogrammform. Bei einer Likert-Skala erhalten Sie eine etwas schiefe Gauss-Kurve, die nach rechts verschoben ist (positive Antworten sind rechts vorausgesetzt) ​​und rechts abgeschnitten. Für die besten Anwendungen wird die Kurve so weit nach rechts verschoben, dass Sie den "Höcker" der Glockenkurve nicht sehen können und Sie sehen nur die erste Steigung davon, also sehen Sie eine nach oben geneigte Linie anstelle einer Glocke. Wenn Sie die Metriken Ihrer Benutzer dazu bringen können, diese Form zu zeigen, haben Sie es groß gemacht. Andernfalls sehen Sie den Buckel irgendwo in der rechten Hälfte der Skala. Interessante Metriken sind, wie weit rechts es ist, wie viel Prozent der Leute Antworten gegeben haben, die unter die modale Antwort fallen, und, wenn Sie tiefer darauf eingehen möchten, Steilheits-/Schiefheitsmaße. Diese Metriken geben bereits einige Informationen, aber sie glänzen wirklich für Vergleiche (z. B. Zufriedenheit zwischen Funktionen Ihrer Software, um zu sehen, was Ihre Benutzer wirklich hassen. Oder vergleichen Sie Ihre eigene Software mit der Konkurrenz und sehen Sie, wo Ihre aufholen muss).

Je detaillierter Ihre Daten sind, desto besser können Sie diese Metriken verwenden. Zwei- bis vierwertige Verteilungen sind für sie praktisch nutzlos. Geht man aber zu hoch, ist der Mensch nicht in der Lage, die eigenen Einstellungen präzise genug zu differenzieren. Daher verwenden Fragebögen normalerweise fünf- bis neunwertige Skalen (mit einem starken ideologischen Kampf zwischen den Lagern der "gerade-" und der "ungerade-zahligen Skala"). Sie haben bereits diese Art von Daten, also verwenden Sie sie. Wenn Sie es auf die Werte "Zustimmen" und "Nicht zustimmen" zusammenfassen, ist es unmöglich, die Histogramme zu zeichnen und die Metriken zu berechnen, die Ihnen echte Informationen liefern.

Noch ein Wort der Vorsicht zu den oben genannten Metriken: Berechnen Sie niemals Mittelwerte für Ihre Daten, die mit einer Likert-Skala gesammelt wurden. Likert-Skalendaten sind ordinal und behandeln sie auf diese Weise. Methoden wie ein arithmetisches Mittel werden für Kardinaldaten erstellt, und obwohl Sie damit ein numerisches Ergebnis erhalten, hat es keine wirkliche Bedeutung, und jede darauf angewendete Argumentation ist irreführend.

[*] Sie sagen nicht, was Sie messen. Ich habe Erfahrung mit der Messung von Zufriedenheit und verwandten Konzepten wie Benutzerfreundlichkeit usw. - im Allgemeinen werden Antworten durch die Einstellung der Benutzer zu einem Produkt bestimmt, und ich gehe davon aus, dass Sie auf dieser Site etwas Ähnliches messen (außerdem ist dies die kanonische Verwendung von Likert-Skalen, sie wurden für Einstellungen entwickelt). Ich weiß nicht, wie sehr die Antwort auf eine völlig andere Verwendung der Likert-Skalen zutrifft.

[**] Für besonders Interessierte: Peterson, Robert A. und William R. Wilson. "Kundenzufriedenheit messen: Fakt und Artefakt." Zeitschrift der Akademie für Marketingwissenschaft 20.1 (1992): 61-71.


Beispiele für Testdecken

Beispielsweise muss ein Kind möglicherweise drei Fragen hintereinander auslassen, bevor der Tester aufhört, Fragen zu stellen. Dem Tester gehen jedoch die Fragen aus, bevor das Kind drei hintereinander verpassen kann. Dies bedeutet nicht, dass das Kind keine Fragen übersehen hat. Sie haben vielleicht eine verpasst, ein paar mehr beantwortet, zwei verpasst, mehr beantwortet usw., bis keine weiteren Fragen mehr verfügbar sind.

Die IQ-Werte von Kindern, die die Obergrenze eines IQ-Tests erreicht haben, sind möglicherweise nicht genau, d.

Natürlich kann die Punktzahl auch richtig sein, aber wenn Kinder die Obergrenze eines Tests erreichen, können wir nur wissen, dass die Punktzahl, die sie erhalten haben, ihre ist niedrigste mögliche Punktzahl. Ihre tatsächliche Punktzahl könnte ein wenig oder viel höher sein, aber es ist unmöglich, dies zu wissen, wenn man Tests als einziges Messinstrument verwendet.


Beschriftete Größenskalen: Eine kritische Überprüfung

Labeled Magnitude Scales (LMS) erfreuen sich in der sensorischen Gemeinschaft großer Beliebtheit. Es wurde behauptet, dass sie traditionelle Antwortmethoden wie Kategoriebewertung und Größenschätzung übertreffen, weil sie angeblich Daten auf Verhältnisebene generierten, einen gültigen Vergleich von individuellen und Gruppenunterschieden ermöglichten und nicht anfällig für Obergrenzeneffekte waren (z. B. Green et al., 1993, Limet al., 2009). Keine dieser Behauptungen scheint jedoch begründet zu sein. Obwohl die Antworten auf dem LMS denen der Größenschätzung sehr ähnlich sind, ist es fraglich, ob eine dieser Methoden Daten auf Verhältnisebene liefert. Darüber hinaus kann der Vergleich von LMS-Daten zwischen Einzelpersonen und Gruppen ungültig sein, da LMS-Daten mit der Manipulation des experimentellen Kontexts variieren. Darüber hinaus macht die Beschränkung des LMS am oberen Ende der Skala es möglicherweise anfällig für Deckeneffekte. Daher scheint keiner der ursprünglichen Ansprüche zu gelten.Darüber hinaus hat das LMS einen Nachteil gegenüber herkömmlichen Skalierungsmethoden, da seinen Antworten kein einfaches kognitives algebraisches Modell zugrunde zu liegen scheint, was es unklar macht, was LMS-Antworten genau bedeuten.

Höhepunkte

► Labeled Magnitude Scale (LMS) liefert unwahrscheinlich Daten auf Verhältnisebene. ► LMS erlaubt aufgrund der Abhängigkeit vom Reizkontext keine Vergleiche über Gruppen. ► Eine Beschränkung von LMS auf ein Maximum kann zu Deckeneffekten führen. ► LMS fehlt ein einfaches zugrundeliegendes kognitives algebraisches Modell.


Datensammlung [ bearbeiten | Quelle bearbeiten]

Ein Deckeneffekt bei der Datenerhebung, wenn die Varianz einer unabhängigen Variablen nicht über ein bestimmtes Maß hinaus gemessen oder geschätzt wird, ist ein häufig auftretendes praktisches Problem bei der Datensammlung in vielen wissenschaftlichen Disziplinen. Ein solcher Deckeneffekt ist oft das Ergebnis von Einschränkungen bei den Instrumenten zur Datenerfassung. Wenn bei der Datenerfassung ein Deckeneffekt auftritt, gibt es eine Bündelung von Scores auf der oberen Ebene, die von einem Instrument gemeldet wird. ΐ]

Einschränkungen der Antwortverzerrung [ bearbeiten | Quelle bearbeiten]

Eine Bevölkerungsumfrage zu Lebensstilvariablen, die gesundheitliche Ergebnisse beeinflussen, könnte eine Frage zu den Rauchgewohnheiten beinhalten. Um sich vor der Möglichkeit zu schützen, dass ein Befragter, der ein starker Raucher ist, eine genaue Antwort zum Rauchen ablehnt, könnte der höchste Rauchanteil, nach dem in dem Erhebungsinstrument gefragt wird, „zwei Packungen pro Tag oder mehr“ sein. Dies führt zu einem Deckeneffekt, indem Personen, die drei oder mehr Packungen pro Tag rauchen, nicht von Personen unterschieden werden, die genau zwei Packungen rauchen. Eine Bevölkerungsumfrage zum Einkommen könnte in ähnlicher Weise eine höchste Antwortquote von "100.000 USD pro Jahr oder mehr" haben, anstatt höhere Einkommensbereiche einzubeziehen, da die Befragten möglicherweise überhaupt keine Antworten geben, wenn die Umfragefragen ihr Einkommen zu spezifisch angeben. Auch dies führt zu einem Obergrenzeneffekt, der Personen mit einem Jahreseinkommen von 500.000 US-Dollar oder mehr nicht von denen unterscheidet, deren Einkommen genau 100.000 US-Dollar pro Jahr beträgt.

Bereich der Instrumentenbeschränkungen [ bearbeiten | Quelle bearbeiten]

Der Datenbereich, der von einem bestimmten Instrument erfasst werden kann, kann durch inhärente Grenzen im Design des Instruments eingeschränkt sein. Oftmals beinhaltet das Design eines bestimmten Instruments Kompromisse zwischen Deckeneffekten und Bodeneffekten. Wenn viele Probanden Werte für eine Variable an der Obergrenze dessen haben, was ein Instrument meldet, ist die Datenanalyse schwierig, da einige tatsächliche Variationen in den Daten nicht in den von diesem Instrument erhaltenen Werten widergespiegelt werden. Α]

Ein Deckeneffekt tritt auf, wenn ein hoher Anteil der Probanden in einer Studie maximale Punktzahlen für die beobachtete Variable aufweist. Dies macht eine Diskriminierung zwischen den Fächern am oberen Ende der Skala unmöglich. Beispielsweise kann eine Prüfungsarbeit dazu führen, dass 50 % der Studierenden 100 % erreichen. Während ein solches Papier als nützlicher Schwellenwerttest dienen kann, erlaubt es kein Ranking der Top-Performer. Aus diesem Grund wird die Überprüfung von Testergebnissen auf einen möglichen Deckeneffekt und den umgekehrten Bodeneffekt häufig in die Validierung von Instrumenten, wie sie zur Messung der Lebensqualität eingesetzt werden, eingebaut. Β]

In einem solchen Fall verhindert der Deckeneffekt, dass das Instrument eine Messung oder Schätzung über einem Grenzwert feststellt, der nicht mit dem beobachteten Phänomen, sondern eher mit dem Design des Instruments zusammenhängt. Ein grobes Beispiel wäre das Messen der Höhe von Bäumen mit einem nur 20 Meter langen Lineal, wenn anhand anderer Beweise ersichtlich ist, dass es Bäume gibt, die viel höher als 20 Meter sind. Die Verwendung des 20-Meter-Lineals als alleiniges Mittel zur Messung von Bäumen würde der Erfassung von Daten über die Baumhöhe eine Grenze setzen. Deckeneffekte und Bodeneffekte begrenzen beide den Bereich der vom Instrument gemeldeten Daten, wodurch die Variabilität der gesammelten Daten verringert wird. Eine begrenzte Variabilität der zu einer Variablen gesammelten Daten kann die Aussagekraft von Statistiken über Korrelationen zwischen dieser Variablen und einer anderen Variablen verringern.

Hochschulaufnahmetests [ bearbeiten | Quelle bearbeiten]

In den verschiedenen Ländern, die Zulassungstests als Hauptelement oder wichtiges Element zur Feststellung der Hochschul- oder Universitätsreife verwenden, beziehen sich die erhobenen Daten auf die unterschiedlichen Leistungen der Bewerber bei den Tests. Wenn ein Hochschulaufnahmetest eine maximal mögliche Punktzahl hat, die ohne perfekte Leistung beim Inhalt des Tests erreicht werden kann, hat die Bewertungsskala des Tests einen Deckeneffekt. Wenn der Inhalt des Tests für viele Testteilnehmer einfach ist, spiegelt der Test möglicherweise nicht die tatsächlichen Leistungsunterschiede (wie sie bei anderen Instrumenten festgestellt würden) zwischen Testteilnehmern am oberen Ende des Testleistungsbereichs wider. Mathematiktests, die in den Vereinigten Staaten für die Hochschulzulassung verwendet werden, und ähnliche Tests, die in Großbritannien für die Hochschulzulassung verwendet werden, veranschaulichen beide Phänomene.

Kognitionspsychologie [ bearbeiten | Quelle bearbeiten]

In der kognitiven Psychologie ist häufig die Messung der Reaktionszeit auf einen bestimmten Reiz von Interesse. Bei diesen Messungen kann eine Obergrenze die niedrigste mögliche Zahl (die wenigsten Millisekunden für eine Antwort) sein und nicht der höchste Wert, wie dies bei der üblichen Interpretation von "Decke" der Fall ist. In Reaktionszeitstudien kann es den Anschein haben, dass die Messungen aufgrund einer scheinbaren Clusterbildung um eine Mindestzeit (wie die 250 ms, die viele Personen zum Drücken einer Taste benötigen) aufgetreten sind. Diese Clusterbildung könnte jedoch tatsächlich eine natürliche physiologische Grenze der Reaktionszeit darstellen und nicht ein Artefakt der Stoppuhrempfindlichkeit (was natürlich ein Deckeneffekt wäre). Weitere statistische Studien und wissenschaftliche Beurteilungen können klären, ob die Beobachtungen auf eine Obergrenze zurückzuführen sind oder der Wahrheit entsprechen.

Gültigkeit von Instrumentenbeschränkungen [ bearbeiten | Quelle bearbeiten]

IQ-Test [ bearbeiten | Quelle bearbeiten]

Einige Autoren [Namensnennung erforderlich] über Hochbegabtenförderung schreiben über die Auswirkungen der Obergrenze bei IQ-Tests, die negative Folgen für den Einzelnen haben. Diese Autoren behaupten manchmal, dass solche Obergrenzen zu einer systematischen Unterschätzung des IQs von intellektuell begabten Menschen führen. In diesem Fall ist es notwendig, sorgfältig zwischen zwei verschiedenen Arten zu unterscheiden, in denen der Begriff "Decke" in Schriften über IQ-Tests verwendet wird.

Die IQ-Werte können für dieselbe Person bei verschiedenen IQ-Tests (Alter 12–13 Jahre) bis zu einem gewissen Grad abweichen. (IQ-Score-Tabellendaten und Pupillen-Pseudonyme, angepasst aus der Beschreibung der KABC-II-Normierungsstudie, zitiert in Kaufman 2009. Γ] )
Schüler KABC-II WISC-III WJ-III
Asher 90 95 111
Brianna 125 110 105
Colin 100 93 101
Danica 116 127 118
Elpha 93 105 93
Fritz 106 105 105
Georgi 95 100 90
Tyrannisieren 112 113 103
Imelda 104 96 97
Jose 101 99 86
Keoku 81 78 75
Löwe 116 124 102

Die Obergrenzen der IQ-Untertests werden durch ihre Bereiche mit zunehmend schwierigeren Gegenständen festgelegt. Ein IQ-Test mit einem breiten Spektrum an zunehmend schwierigeren Fragen hat eine höhere Obergrenze als ein IQ-Test mit einem engen Bereich und wenigen schwierigen Items. Deckeneffekte führen dazu, dass erstens nicht zwischen Hochbegabten unterschieden werden kann (ob mäßig begabt, hochbegabt usw.) und zweitens einige Hochbegabte fälschlicherweise als überdurchschnittlich, aber nicht hochbegabt eingestuft werden.

Angenommen, ein IQ-Test hat drei Untertests: Wortschatz, Arithmetik und Bildanalogien. Die Punktzahlen bei jedem der Untertests werden normalisiert (siehe Standardpunktzahl) und dann zu einer zusammengesetzten IQ-Punktzahl addiert. Nehmen wir nun an, dass Joe die maximale Punktzahl von 20 beim arithmetischen Test erreicht, aber 10 von 20 Punkten beim Wortschatz- und Analogietest. Ist es fair zu sagen, dass Joes Gesamtpunktzahl von 20+10+10 oder 40 seine Gesamtfähigkeit repräsentiert? Die Antwort ist nein, denn Joe hat beim Rechentest die maximal mögliche Punktzahl von 20 erreicht. Hätte der arithmetische Test zusätzliche, schwierigere Aufgaben beinhaltet, hätte Joe bei diesem Untertest möglicherweise 30 Punkte bekommen, was eine "wahre" Punktzahl von 30+10+10 oder 50 ergibt. Vergleichen Sie Joes Leistung mit der von Jim, der 15+15+ erzielte 15 = 45, ohne auf Subtest-Obergrenzen zu stoßen. In der ursprünglichen Formulierung des Tests schnitt Jim besser ab als Joe (45 vs. 40), während Joe eigentlich die höhere "Gesamt"-Intelligenz-Punktzahl als Jim (Punktzahl von 50 für Joe gegenüber 45 für Jim) mit a . hätte erreichen sollen umformulierter Test, der schwierigere arithmetische Items enthält.

In Schriften zur Hochbegabtenförderung werden zwei Gründe für die Annahme angeführt, dass einige IQ-Werte die Intelligenz eines Testteilnehmers unterschätzen:

  1. sie tendieren dazu, alle Untertests besser abzuschneiden als weniger talentierte Menschen
  2. sie schneiden bei einigen Subtests in der Regel viel besser ab als bei anderen, was die Variabilität zwischen den Subtests und die Wahrscheinlichkeit erhöht, dass eine Obergrenze erreicht wird.

Statistische Analyse [ bearbeiten | Quelle bearbeiten]

Deckeneffekte auf die Messung beeinträchtigen die wissenschaftliche Wahrheit und das Verständnis durch eine Reihe verwandter statistischer Abweichungen.

Erstens beeinträchtigen Obergrenzen die Fähigkeit der Ermittler, die zentrale Tendenz der Daten zu bestimmen. Wenn sich ein Obergrenzeneffekt auf Daten bezieht, die für eine abhängige Variable gesammelt wurden, kann die Nichtanerkennung dieses Obergrenzeneffekts „zu der irrigen Schlussfolgerung führen, dass die unabhängige Variable keinen Einfluss hat“. ΐ] Aus mathematischen Gründen, die den Rahmen dieses Artikels sprengen (siehe Varianzanalyse), verringert diese reduzierte Varianz die Sensitivität wissenschaftlicher Experimente, die darauf abzielen, festzustellen, ob sich der Durchschnitt einer Gruppe signifikant vom Durchschnitt einer anderen unterscheidet (z Beispiel: Eine Behandlung einer Gruppe kann einen Effekt hervorrufen, der Effekt kann jedoch nicht erkannt werden, weil der Mittelwert der behandelten Gruppe sich nicht genug vom Mittelwert der unbehandelten Gruppe unterscheidet).

Somit sind "Deckeneffekte ein Komplex von Angelegenheiten und ihre Vermeidung eine Frage der sorgfältigen Bewertung einer Reihe von Problemen". ΐ]


Abschluss

Zusammenfassend lässt sich sagen, dass das 6-Item-R-PMHI solide psychometrische Eigenschaften hat, die es nützlich machen, positive psychische Gesundheit in verschiedenen Umgebungen zu untersuchen. Als validierte, kurze und einfach zu handhabende Maßnahme kann es routinemäßig in großen Umfragen und bei klinischen Populationen eingesetzt werden. Weitere Tests der Skala in verschiedenen Stichproben sind erforderlich, um ihre Validität, Reaktionsfähigkeit und Test-Retest-Reliabilität weiter zu bestimmen. Während die ersten Hinweise auf Reliabilität und Validität der Skala ermutigend sind, sollten zukünftige Studien untersuchen, ob die Skala das mehrdimensionale Konstrukt der positiven psychischen Gesundheit angemessen anspricht.


Bewusste Präsenz und Selbstkontrolle als Maß für das Situationsbewusstsein bei Soldaten – Eine Validierungsstudie

Der Begriff „Achtsamkeit“ wurde in erster Linie für Patienten mit chronischen Stressoren operationalisiert, während er selten in Bezug auf Soldaten verwendet wird. Wir wollten ein modifiziertes Instrument auf Basis des Freiburger Mindfulness Inventory (FMI) validieren, um das Situationsbewusstsein („Achtsamkeit“) von Soldaten in Stresssituationen/Einsätzen zu messen. Das Instrument, das wir in dieser Arbeit untersuchen werden, heißt das Bewusste Präsenz und Selbstkontrolle (CPSC)-Skala.

Methoden

Die CPSC und weitere Instrumente, dh Perceived Stress Scale (PSS), Stressful Military Experiences (PCL-M), Life Satisfaction (BMLSS), Positive Life Construction (ePLC) und Self-perceived Health Affections (VAS), wurden an 281 deutsche Soldaten. Die Soldaten waren hauptsächlich Kampfmitteln, Militärpolizei, Sanitätsdienst und Patienten mit posttraumatischen Belastungsstörungen ausgesetzt.

Ergebnisse

Die 10-Item-CPSC-Skala wies eine einfaktorielle Struktur auf und zeigte eine gute interne Konsistenz (Cronbachs Alpha = .86), es gab weder Decken- noch Bodeneffekte. Die CPSC-Werte korrelierten mäßig mit positiver Lebenskonstruktion und Lebenszufriedenheit und negativ mit wahrgenommenem Stress und gesundheitlichen Beeinträchtigungen. Regressionsanalysen zeigten, dass die Symptome einer posttraumatischen Belastungsstörung (negativ) und die Entwicklung effektiver Strategien zum Umgang mit störenden Bildern und Erfahrungen (positiv) die besten Prädiktor für die CPSC-Werte von Soldaten waren. Soldaten mit gesundheitlichen Beeinträchtigungen, die Auswirkungen auf ihr tägliches Leben zeigten, hatten signifikant niedrigere CPSC-Werte als diejenigen ohne Beeinträchtigung (F = 8,1 p < .0001).

Schlussfolgerungen

Da zentrale Konzeptualisierungen von `Achtsamkeit´ nicht unbedingt im militärischen Kontext diskutiert werden, wurde der FMI für Militärpersonalpopulationen übernommen, während seine zweifaktorielle Struktur mit den Unterkonstrukten `Akzeptanz´ und `Präsenz´ beibehalten wurde. Die resultierende 10-Item-CPSC-Skala hatte eine gute interne Konsistenz, gute Assoziationen mit Maßen für gesundheitliche Beeinträchtigungen und Lebenszufriedenheit und kann daher als kurzes und schnelles Maß in Pre-Post-Missionen und interventionellen Studien verwendet werden.


Kommentare

    Qetelo am 14. Juni 2014 6:06 Uhr

Macht Sinn! Noch eine Frage:
Kann derselbe Test sowohl Boden- als auch Deckeneffekte erleiden? Möglich? Bitte erkläre es mir.

Derselbe Test konnte nicht sowohl Boden- als auch Deckeneffekte für dieselben Probanden aufweisen. Die meisten Probanden konnten weder im oberen noch im unteren Bereich punkten. Es könnte Bodeneffekte für beispielsweise Viertklässler und einen Deckeneffekt für College-Studenten haben.

[…] ein Thema für eine ganze Reihe von Beiträgen, dass ein Test auf oder in der Nähe der angegebenen ‘Klassenstufe’ für den durchschnittlichen Schüler in einer leistungsschwachen Schule einen Bodeneffekt haben wird. Das heißt, die meisten Schüler werden […]

Welche Bedeutung hat der Boden- und Deckeneffekt?

Ok…aber was kann im Kontext einer Gesundheitsforschung sein… während der Verwaltung einer Lebensqualitätsskala für zB.?

Wie könnten Probleme, die durch diese Effekte verursacht werden, in den Experimenten überwunden werden?


Beschriftete Größenskalen: Eine kritische Überprüfung

Labeled Magnitude Scales (LMS) erfreuen sich in der sensorischen Gemeinschaft großer Beliebtheit. Es wurde behauptet, dass sie traditionelle Antwortmethoden wie Kategoriebewertung und Größenschätzung übertreffen, weil sie angeblich Daten auf Verhältnisebene generierten, einen gültigen Vergleich von individuellen und Gruppenunterschieden ermöglichten und nicht anfällig für Obergrenzeneffekte waren (z. B. Green et al., 1993, Limet al., 2009). Keine dieser Behauptungen scheint jedoch begründet zu sein. Obwohl die Antworten auf dem LMS denen der Größenschätzung sehr ähnlich sind, ist es fraglich, ob eine dieser Methoden Daten auf Verhältnisebene liefert. Darüber hinaus kann der Vergleich von LMS-Daten zwischen Einzelpersonen und Gruppen ungültig sein, da LMS-Daten mit der Manipulation des experimentellen Kontexts variieren. Darüber hinaus macht die Beschränkung des LMS am oberen Ende der Skala es möglicherweise anfällig für Deckeneffekte. Daher scheint keiner der ursprünglichen Ansprüche zu gelten. Darüber hinaus hat das LMS einen Nachteil gegenüber herkömmlichen Skalierungsmethoden, da seinen Antworten kein einfaches kognitives algebraisches Modell zugrunde zu liegen scheint, was es unklar macht, was LMS-Antworten genau bedeuten.

Höhepunkte

► Labeled Magnitude Scale (LMS) liefert unwahrscheinlich Daten auf Verhältnisebene. ► LMS erlaubt aufgrund der Abhängigkeit vom Reizkontext keine Vergleiche über Gruppen. ► Die Beschränkung von LMS auf ein Maximum kann zu Deckeneffekten führen. ► LMS fehlt ein einfaches zugrundeliegendes kognitives algebraisches Modell.


Kommentare

    Qetelo am 14. Juni 2014 6:06 Uhr

Macht Sinn! Noch eine Frage:
Kann derselbe Test sowohl Boden- als auch Deckeneffekte erleiden? Möglich? Bitte erkläre es mir.

Derselbe Test konnte nicht sowohl Boden- als auch Deckeneffekte für dieselben Probanden aufweisen. Die meisten Probanden konnten weder im oberen noch im unteren Bereich punkten. Es könnte Bodeneffekte für beispielsweise Viertklässler und einen Deckeneffekt für College-Studenten haben.

[…] ein Thema für eine ganze Reihe von Beiträgen, dass ein Test auf oder in der Nähe der angegebenen ‘Klassenstufe’ für den durchschnittlichen Schüler in einer leistungsschwachen Schule einen Bodeneffekt haben wird. Das heißt, die meisten Schüler werden […]

Welche Bedeutung hat der Boden- und Deckeneffekt?

Ok…aber was kann im Kontext einer Gesundheitsforschung sein… während der Verwaltung einer Lebensqualitätsskala für zB.?

Wie könnten die entstandenen Probleme in den Experimenten überwunden werden?


Datensammlung [ bearbeiten | Quelle bearbeiten]

Ein Deckeneffekt bei der Datenerhebung, wenn die Varianz einer unabhängigen Variablen nicht über ein bestimmtes Maß hinaus gemessen oder geschätzt wird, ist ein häufig auftretendes praktisches Problem bei der Datensammlung in vielen wissenschaftlichen Disziplinen. Ein solcher Deckeneffekt ist oft das Ergebnis von Einschränkungen bei den Instrumenten zur Datenerfassung. Wenn bei der Datenerfassung ein Deckeneffekt auftritt, gibt es eine Bündelung von Scores auf der oberen Ebene, die von einem Instrument gemeldet wird. ΐ]

Einschränkungen der Antwortverzerrung [ bearbeiten | Quelle bearbeiten]

Eine Bevölkerungsumfrage zu Lebensstilvariablen, die gesundheitliche Ergebnisse beeinflussen, könnte eine Frage zu den Rauchgewohnheiten beinhalten. Um sich vor der Möglichkeit zu schützen, dass ein Befragter, der ein starker Raucher ist, eine genaue Antwort zum Rauchen ablehnt, könnte der höchste Rauchanteil, nach dem in dem Erhebungsinstrument gefragt wird, „zwei Packungen pro Tag oder mehr“ sein. Dies führt zu einem Deckeneffekt, indem Personen, die drei oder mehr Packungen pro Tag rauchen, nicht von Personen unterschieden werden, die genau zwei Packungen rauchen. Eine Bevölkerungsumfrage zum Einkommen könnte in ähnlicher Weise eine höchste Antwortquote von "100.000 USD pro Jahr oder mehr" haben, anstatt höhere Einkommensbereiche einzubeziehen, da die Befragten möglicherweise überhaupt keine Antworten geben, wenn die Umfragefragen ihr Einkommen zu spezifisch angeben. Auch dies führt zu einem Obergrenzeneffekt, der Personen mit einem Jahreseinkommen von 500.000 US-Dollar oder mehr nicht von denen unterscheidet, deren Einkommen genau 100.000 US-Dollar pro Jahr beträgt.

Bereich der Instrumentenbeschränkungen [ bearbeiten | Quelle bearbeiten]

Der Datenbereich, der von einem bestimmten Instrument erfasst werden kann, kann durch inhärente Grenzen im Design des Instruments eingeschränkt sein. Oftmals beinhaltet das Design eines bestimmten Instruments Kompromisse zwischen Deckeneffekten und Bodeneffekten. Wenn viele Probanden Werte für eine Variable an der Obergrenze dessen haben, was ein Instrument meldet, ist die Datenanalyse schwierig, da einige tatsächliche Variationen in den Daten nicht in den von diesem Instrument erhaltenen Werten widergespiegelt werden. Α]

Ein Deckeneffekt tritt auf, wenn ein hoher Anteil der Probanden in einer Studie maximale Punktzahlen für die beobachtete Variable aufweist. Dies macht eine Diskriminierung zwischen den Fächern am oberen Ende der Skala unmöglich. Beispielsweise kann eine Prüfungsarbeit dazu führen, dass 50 % der Studierenden 100 % erreichen. Während ein solches Papier als nützlicher Schwellenwerttest dienen kann, erlaubt es kein Ranking der Top-Performer. Aus diesem Grund wird die Überprüfung von Testergebnissen auf einen möglichen Deckeneffekt und den umgekehrten Bodeneffekt häufig in die Validierung von Instrumenten, wie sie zur Messung der Lebensqualität eingesetzt werden, eingebaut. Β]

In einem solchen Fall verhindert der Deckeneffekt, dass das Instrument eine Messung oder Schätzung über einem Grenzwert feststellt, der nicht mit dem beobachteten Phänomen, sondern eher mit dem Design des Instruments zusammenhängt.Ein grobes Beispiel wäre das Messen der Höhe von Bäumen mit einem nur 20 Meter langen Lineal, wenn anhand anderer Beweise ersichtlich ist, dass es Bäume gibt, die viel höher als 20 Meter sind. Die Verwendung des 20-Meter-Lineals als alleiniges Mittel zur Messung von Bäumen würde der Erfassung von Daten über die Baumhöhe eine Grenze setzen. Deckeneffekte und Bodeneffekte begrenzen beide den Bereich der vom Instrument gemeldeten Daten, wodurch die Variabilität der gesammelten Daten verringert wird. Eine begrenzte Variabilität der zu einer Variablen gesammelten Daten kann die Aussagekraft von Statistiken über Korrelationen zwischen dieser Variablen und einer anderen Variablen verringern.

Hochschulaufnahmetests [ bearbeiten | Quelle bearbeiten]

In den verschiedenen Ländern, die Zulassungstests als Hauptelement oder wichtiges Element zur Feststellung der Hochschul- oder Universitätsreife verwenden, beziehen sich die erhobenen Daten auf die unterschiedlichen Leistungen der Bewerber bei den Tests. Wenn ein Hochschulaufnahmetest eine maximal mögliche Punktzahl hat, die ohne perfekte Leistung beim Inhalt des Tests erreicht werden kann, hat die Bewertungsskala des Tests einen Deckeneffekt. Wenn der Inhalt des Tests für viele Testteilnehmer einfach ist, spiegelt der Test möglicherweise nicht die tatsächlichen Leistungsunterschiede (wie sie bei anderen Instrumenten festgestellt würden) zwischen Testteilnehmern am oberen Ende des Testleistungsbereichs wider. Mathematiktests, die in den Vereinigten Staaten für die Hochschulzulassung verwendet werden, und ähnliche Tests, die in Großbritannien für die Hochschulzulassung verwendet werden, veranschaulichen beide Phänomene.

Kognitionspsychologie [ bearbeiten | Quelle bearbeiten]

In der kognitiven Psychologie ist häufig die Messung der Reaktionszeit auf einen bestimmten Reiz von Interesse. Bei diesen Messungen kann eine Obergrenze die niedrigste mögliche Zahl (die wenigsten Millisekunden für eine Antwort) sein und nicht der höchste Wert, wie dies bei der üblichen Interpretation von "Decke" der Fall ist. In Reaktionszeitstudien kann es den Anschein haben, dass die Messungen aufgrund einer scheinbaren Clusterbildung um eine Mindestzeit (wie die 250 ms, die viele Personen zum Drücken einer Taste benötigen) aufgetreten sind. Diese Clusterbildung könnte jedoch tatsächlich eine natürliche physiologische Grenze der Reaktionszeit darstellen und nicht ein Artefakt der Stoppuhrempfindlichkeit (was natürlich ein Deckeneffekt wäre). Weitere statistische Studien und wissenschaftliche Beurteilungen können klären, ob die Beobachtungen auf eine Obergrenze zurückzuführen sind oder der Wahrheit entsprechen.

Gültigkeit von Instrumentenbeschränkungen [ bearbeiten | Quelle bearbeiten]

IQ-Test [ bearbeiten | Quelle bearbeiten]

Einige Autoren [Namensnennung erforderlich] über Hochbegabtenförderung schreiben über die Auswirkungen der Obergrenze bei IQ-Tests, die negative Folgen für den Einzelnen haben. Diese Autoren behaupten manchmal, dass solche Obergrenzen zu einer systematischen Unterschätzung des IQs von intellektuell begabten Menschen führen. In diesem Fall ist es notwendig, sorgfältig zwischen zwei verschiedenen Arten zu unterscheiden, in denen der Begriff "Decke" in Schriften über IQ-Tests verwendet wird.

Die IQ-Werte können für dieselbe Person bei verschiedenen IQ-Tests (Alter 12–13 Jahre) bis zu einem gewissen Grad abweichen. (IQ-Score-Tabellendaten und Pupillen-Pseudonyme, angepasst aus der Beschreibung der KABC-II-Normierungsstudie, zitiert in Kaufman 2009. Γ] )
Schüler KABC-II WISC-III WJ-III
Asher 90 95 111
Brianna 125 110 105
Colin 100 93 101
Danica 116 127 118
Elpha 93 105 93
Fritz 106 105 105
Georgi 95 100 90
Tyrannisieren 112 113 103
Imelda 104 96 97
Jose 101 99 86
Keoku 81 78 75
Löwe 116 124 102

Die Obergrenzen der IQ-Untertests werden durch ihre Bereiche mit zunehmend schwierigeren Gegenständen festgelegt. Ein IQ-Test mit einem breiten Spektrum an zunehmend schwierigeren Fragen hat eine höhere Obergrenze als ein IQ-Test mit einem engen Bereich und wenigen schwierigen Items. Deckeneffekte führen dazu, dass erstens nicht zwischen Hochbegabten unterschieden werden kann (ob mäßig begabt, hochbegabt usw.) und zweitens einige Hochbegabte fälschlicherweise als überdurchschnittlich, aber nicht hochbegabt eingestuft werden.

Angenommen, ein IQ-Test hat drei Untertests: Wortschatz, Arithmetik und Bildanalogien. Die Punktzahlen bei jedem der Untertests werden normalisiert (siehe Standardpunktzahl) und dann zu einer zusammengesetzten IQ-Punktzahl addiert. Nehmen wir nun an, dass Joe die maximale Punktzahl von 20 beim arithmetischen Test erreicht, aber 10 von 20 Punkten beim Wortschatz- und Analogietest. Ist es fair zu sagen, dass Joes Gesamtpunktzahl von 20+10+10 oder 40 seine Gesamtfähigkeit repräsentiert? Die Antwort ist nein, denn Joe hat beim Rechentest die maximal mögliche Punktzahl von 20 erreicht. Hätte der arithmetische Test zusätzliche, schwierigere Aufgaben beinhaltet, hätte Joe bei diesem Untertest möglicherweise 30 Punkte bekommen, was eine "wahre" Punktzahl von 30+10+10 oder 50 ergibt. Vergleichen Sie Joes Leistung mit der von Jim, der 15+15+ erzielte 15 = 45, ohne auf Subtest-Obergrenzen zu stoßen. In der ursprünglichen Formulierung des Tests schnitt Jim besser ab als Joe (45 vs. 40), während Joe eigentlich die höhere "Gesamt"-Intelligenz-Punktzahl als Jim (Punktzahl von 50 für Joe gegenüber 45 für Jim) mit a . hätte erreichen sollen umformulierter Test, der schwierigere arithmetische Items enthält.

In Schriften zur Hochbegabtenförderung werden zwei Gründe für die Annahme angeführt, dass einige IQ-Werte die Intelligenz eines Testteilnehmers unterschätzen:

  1. sie tendieren dazu, alle Untertests besser abzuschneiden als weniger talentierte Menschen
  2. sie schneiden bei einigen Subtests in der Regel viel besser ab als bei anderen, was die Variabilität zwischen den Subtests und die Wahrscheinlichkeit erhöht, dass eine Obergrenze erreicht wird.

Statistische Analyse [ bearbeiten | Quelle bearbeiten]

Deckeneffekte auf die Messung beeinträchtigen die wissenschaftliche Wahrheit und das Verständnis durch eine Reihe verwandter statistischer Abweichungen.

Erstens beeinträchtigen Obergrenzen die Fähigkeit der Ermittler, die zentrale Tendenz der Daten zu bestimmen. Wenn sich ein Obergrenzeneffekt auf Daten bezieht, die für eine abhängige Variable gesammelt wurden, kann die Nichtanerkennung dieses Obergrenzeneffekts „zu der irrigen Schlussfolgerung führen, dass die unabhängige Variable keinen Einfluss hat“. ΐ] Aus mathematischen Gründen, die den Rahmen dieses Artikels sprengen (siehe Varianzanalyse), verringert diese reduzierte Varianz die Sensitivität wissenschaftlicher Experimente, die darauf abzielen, festzustellen, ob sich der Durchschnitt einer Gruppe signifikant vom Durchschnitt einer anderen unterscheidet (z Beispiel: Eine Behandlung einer Gruppe kann einen Effekt hervorrufen, der Effekt kann jedoch nicht erkannt werden, weil der Mittelwert der behandelten Gruppe sich nicht genug vom Mittelwert der unbehandelten Gruppe unterscheidet).

Somit sind "Deckeneffekte ein Komplex von Angelegenheiten und ihre Vermeidung eine Frage der sorgfältigen Bewertung einer Reihe von Problemen". ΐ]


Mittel

Demographische Information

Ein Hintergrundinformationsblatt, bestehend aus Alter, Bildungsjahr, Geschlecht und ob sie aktuell Raucher waren, wurde verwendet, um demografische Informationen über die Teilnehmer zu erhalten.

Krankenhausangst- und Depressionsskala

Die persische Version der Hospital Anxiety and Depression Scale (HADS) wurde verwendet, um das Angst- und Depressionsniveau der Teilnehmer zu beurteilen. Die HADS ist eine 14-Item-Skala, in der die Items in einem Vier-Punkte-Antwortformat mit einer Gesamtpunktzahl von 0 bis 21 für jede der Subskalen (Angst und Depression mit je sieben Items) beantwortet werden. Beispielartikel umfassen “Ich habe das Interesse an meinem Aussehen verloren” (Depression) und �unruhigende Gedanken gehen mir durch den Kopf” (Angst). Ein höherer Wert weist auf schwere Angstzustände oder Depressionen hin. Die Skala hat eine akzeptable Zuverlässigkeit (Cronbach’s α von 0,78 bzw. 0,86 für die HADS-Angst bzw. -Depression) und eine zufriedenstellende Validität (Montazeri et al. 2003).

Wahrgenommene Anfälligkeit für Krankheitsskala

Die persische Version der 15-Punkte Perceived Vulnerability to Disease Scale (PVDS) wurde verwendet, um die wahrgenommene Anfälligkeit der Teilnehmer für Infektionskrankheiten zu bewerten, die spezifisch wahrgenommene Infektiosität (sieben-Punkte-Unterskala) und Keimaversion (acht-Punkte-Unterskala) ist. Die Teilnehmer antworten auf jedes Item auf einer siebenstufigen Skala (von “trifft überhaupt nicht zu” bis “trifft voll und ganz zu”), wobei etwa die Hälfte der Items umgekehrt bewertet wird (Ahmadzadeh et al. 2013 Duncan et al. 2009). Beispielartikel umfassen “Im Allgemeinen bin ich sehr anfällig für Erkältungen, Grippe und andere Infektionskrankheiten” (wahrgenommene Infektiosität) und “Ich bevorzuge es, mir kurz nach dem Händeschütteln die Hände zu waschen” (Keimabneigung). Eine höhere Punktzahl weist auf eine schwere Form der wahrgenommenen Ansteckbarkeit, Keimaversion oder wahrgenommene Anfälligkeit für Krankheiten (als Ganzes) hin. Es hat einen Cronbach’s α von 0,70, 0,72 und 0,70 für wahrgenommene Infektiosität, Keimaversion bzw. PVDS-Gesamtscore (Ahmadzadeh et al. 2013).

Datenanalyse

Deskriptive Statistiken wurden verwendet, um die Merkmale der Teilnehmer zu verstehen. Analysen zu psychometrischen Eigenschaften umfassten die CTT-Analyse und die Rasch-Modellanalyse. Die CTT-Analyse umfasste interne Konsistenz, Test-Retest-Reliabilität, korrigierte Item-Total-Korrelation, durchschnittliche Varianz extrahiert (AVE), zusammengesetzte Reliabilität, Standardmessfehler, gleichzeitige Validität und explorative Faktorenanalyse (EFA). Die Rasch-Modellanalyse umfasste das mittlere Quadrat der Ausstattung und des Outfits (MnSq) für jedes Element, die Zuverlässigkeit der Trennung von Gegenständen und Personen und den Trennungsindex von Gegenständen und Personen. Außerdem wurde die differenzielle Itemfunktionalität (DIF) basierend auf der Rasch-Analyse verwendet, um die Messinvarianz über Geschlecht und Alter hinweg zu testen (Wu et al. 2017). Alle deskriptiven und CTT-Analysen wurden unter Verwendung von IBM SPSS 23.0 (IBM Corp., Armonk, NY) durchgeführt. Auch die Rasch-Modellanalysen wurden mit WINSTEPS 3.75.0 durchgeführt.


Beispiele für Testdecken

Beispielsweise muss ein Kind möglicherweise drei Fragen hintereinander auslassen, bevor der Tester aufhört, Fragen zu stellen. Dem Tester gehen jedoch die Fragen aus, bevor das Kind drei hintereinander verpassen kann. Dies bedeutet nicht, dass das Kind keine Fragen übersehen hat. Sie haben vielleicht eine verpasst, ein paar mehr beantwortet, zwei verpasst, mehr beantwortet usw., bis keine weiteren Fragen mehr verfügbar sind.

Die IQ-Werte von Kindern, die die Obergrenze eines IQ-Tests erreicht haben, sind möglicherweise nicht genau, d.

Natürlich kann die Punktzahl auch richtig sein, aber wenn Kinder die Obergrenze eines Tests erreichen, können wir nur wissen, dass die Punktzahl, die sie erhalten haben, ihre ist niedrigste mögliche Punktzahl. Ihre tatsächliche Punktzahl könnte ein wenig oder viel höher sein, aber es ist unmöglich, dies zu wissen, wenn man Tests als einziges Messinstrument verwendet.


3. Ergebnisse

Die Ergebnisse werden als Diagramme mit auf der horizontalen Achse und der Leistungsmetrik auf der vertikalen Achse dargestellt. Um den Vergleich zu erleichtern, werden statistische Methoden, die auf dieselben Daten, im selben Szenario und mit derselben Metrik angewendet wurden, zusammen in derselben Grafik dargestellt. Ohne 2 × 2 ANOVA ergibt sich insgesamt 1050 Graphen, die wir als 42 Figuren mit 5 × 5 Panels strukturieren. Es ist weder praktikabel noch aufschlussreich, alle Zahlen in diesem Bericht darzustellen. Die Zahlen sind in S1 Anhang enthalten. Die meisten Grafiken zeigen qualitativ ähnliche Muster und im Ergebnisteil präsentieren wir eine unserer Meinung nach faire und repräsentative Auswahl. Insbesondere präsentieren wir für jede Verteilung die Ergebnisse für ein bestimmtes Wertepaar des und des Störparameters. Diese Werte sind in der dritten und sechsten Spalte von Tabelle 2 aufgeführt.

3.1 Verallgemeinerte Gammaverteilung

Abb. 3 zeigt die Ergebnisse für die Gamma-Verteilung mit Cn = 1 und . Im ersten Panel konvergiert die rohe Gruppendifferenz gegen Null und das CI wird enger, da Cl nimmt ab. Dementsprechend, wie Cl nimmt ab, Bayesian T-test und TOST wechseln, um die Gruppenäquivalenz zu unterstützen. Im Gegensatz dazu schwankt die Differenz zwischen logarithmisch-transformierten Gruppendaten um den wahren Wert, wobei CI breiter wird als Cl CL nimmt ab. Dementsprechend schlägt log-TOST keine Äquivalenz für niedrige vor Cl, jedoch der Bayes'sche Log-T-Test wechselt immer noch zu einem falschen Ergebnis und zeigt nur eine geringfügige Verbesserung gegenüber Bayesian T-Test auf Rohdaten. Cohens D geht gegen Null mit abnehmendem Cl sowohl für Roh- als auch für Logdaten. Entsprechend, T-testen und protokollieren T-Testen Sie beide nicht, um einen Gruppenunterschied für niedrig zu erkennen Cl, mit Log-T-Test zeigt eine bessere Leistung von bis zu 6,9 Prozentpunkten (pp) gegenüber rohem T-Prüfung. Der Rang-basierte Test zeigt eine ähnliche Leistung (bis zu 3,2 pp Unterschied) wie log-T-test, während getrimmt T-Test zeigt größte Lücke zum Log-T-Test mit bis zu 20 pp. Die Testleistung im Dreigruppendesign liefert ähnliche Ergebnisse, mit F-Testnachlauf um bis zu 10,1 pp hinter Log-F-Test und der rangbasierte Test, während alle drei Tests einen Wechsel von der Gruppendifferenzerkennung zu keiner Erkennung zeigen, wenn der Floor-Effekt stärker wird.

Die Panels werden in der Reihenfolge von links nach rechts, von oben nach unten bezeichnet. Horizontale Achse in jedem Panel zeigt Cl ( um genau zu sein). Die farbigen Polygone im ersten Feld zeigen die mittlere Gruppendifferenz (dicke Linie) und ihr 95 %-KI (Oberfläche). Die blaue Farbe zeigt Ergebnisse mit logarithmisch transformierten Daten, während die rote Farbe Ergebnisse mit Rohdaten anzeigt. Das zweite Panel zeigt Cohens D zusammen mit CIs. Das Layout ähnelt dem Layout des ersten Panels. Das dritte Panel zeigt die Ergebnisse des TOST-Äquivalenztestverfahrens. Die vertikale Achse zeigt den Anteil der Fälle, die Gruppenäquivalenz unterstützten. Im vierten Feld zeigt die vertikale Achse die Wahrscheinlichkeit der Hypothese einer Gruppenmittelwert-Äquivalenz relativ zur Hypothese einer Gruppenmittelwertdifferenz. Die blaue und rote Farbe im dritten und vierten Panel kennzeichnen, ob die Methoden auf transformierte oder auf Rohdaten angewendet werden. Die vertikale Achse im fünften und sechsten Feld zeigt den Anteil der Ablehnungen der Nullhypothese (Gruppenäquivalenz). Fünftes Panel zeigt Ergebnisse von T-test (rot), log-T-Test (blau), MW-Test (grün) und getrimmt T-test (gelb). Das sechste Panel zeigt Ergebnisse aus dreistufigenF-Test mit transformierten Daten (blau) und Rohdaten (rot). Die grüne Linie zeigt die Ergebnisse des KW-Tests. Die Werte in den Feldern eins, zwei und vier wurden als Median über die Wiederholungen erhalten.

Andere Auswahlmöglichkeiten von und Cn haben keinen Einfluss auf die qualitative Natur der Ergebnisse. Beachten Sie, dass Cn und fungieren beide als Skala in Bezug auf E[logX]. Wenn statistische Methoden auf logarithmisch transformierte Daten angewendet werden, dann ist eine andere Wahl von und Cn nur skaliert Cl und streckt oder schrumpft die horizontale Achse in Abb. 3. In Bezug auf E[x], höhere Werte von und Cn CI enger machen, den mittleren Gruppenunterschied erhöhen, aber auch die Form des CI beeinflussen. Die Leistungslücken zwischen den Tests vergrößern sich mit und Cn mit steigender absoluter Testleistung steigen.

3.2 Waldverteilung

Abb. 4 zeigt die Ergebnisse für die Wald-Verteilung mit σ = 1 und . Beachten Sie, dass der Schweregrad des Bodeneffekts zunimmt, wenn B erhöht sich. Wir haben die horizontale Achse in Abb. 4 umgedreht, um den Vergleich zwischen den Figuren zu erleichtern. Der CI der Gruppendifferenz nimmt sowohl bei den Rohdaten als auch bei den logarithmisch transformierten Daten gegen Null ab. Beide CIs werden mit zunehmender Stärke des Floor-Effekts enger. Die CIs von Cohens D sind für beide Datentypen identisch, mit Cohens D gegen Null abnehmend. Als Konsequenz die T-testen und protokollieren T-test (und auch MW-Test) zeigen eine ähnliche Leistung. Getrimmt T-Test schneidet mit einem Abstand von bis zu 20 % am schlechtesten ab T-Prüfung. Alle Zweigruppen- und Dreigruppentests zeigen eine Abnahme der Leistung mit zunehmender Stärke des Bodeneffekts. Wenn der Bodeneffekt stärker wird, werden sowohl TOST als auch Bayesian T-Test Wechsel zur Selbsthilfegruppe Äquivalenz.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Anpassungen an σ und ändern Sie den Maßstab und den Offset von B aber ansonsten die qualitative Natur der Ergebnisse nicht ändern. Höhere Werte von und niedrigere Werte von σ führen zu einer besseren Testleistung und die Abstände zwischen den Tests sind größer, wenn beide Werte groß sind. Diese Anpassungen deuten auch darauf hin, dass die Testleistung nicht gegen Null konvergiert. Die Leistung am Konvergenzpunkt hängt ab von σ und .

3.3 Beta-Primzahlverteilung

Abb. 5 zeigt die Ergebnisse für die Beta-Prime-Verteilung mit Cn = 0,15 und . Die mittlere Gruppendifferenz ist negativ, aber nahe Null, während die mittlere Gruppendifferenz der logarithmisch skalierten Daten um den wahren Wert von oszilliert. In beiden Fällen wird das CI breiter, da Cl nimmt ab. Die Testleistung im Zwei-Gruppen- und im Drei-Gruppen-Szenario sinkt mit Abnahmen in Cl. Die Leistung von T-test und F-Test mit Rohdaten liegt im Bereich [0, 0.1] unabhängig von Cl. Ähnlich, Bayesian T-Test zeigt die Unterstützung für keinen Unterschied von Null bei Rohdaten unabhängig davon an Cl, aber mit Log-Daten Bayesian T-test wechselt von der Unterstützung der Differenz zur Unterstützung der Nicht-Differenz. Protokoll-T-testen und protokollieren-F-Test zeigen beste Leistung, gefolgt von rangbasierten Tests (Lücke von bis zu 20,1 bzw. 19,4 pp) und von getrimmten T-Test (Lücke von bis zu 60,8 pp). TOST erkennt selten Äquivalenz, da der TOST-Schwellenwert zu konservativ ist.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Große Werte von Cn und erhöhen Sie die (negative) Mittelwertdifferenz und die Breite des CI. Die CI der protokollierten Daten bleibt davon unberührt. Schließlich führt ein größeres Ergebnis zu einer besseren Testleistung, einschließlich der Leistung von Bayesian T-Test auf log-skalierten Daten.

3.4 Beta-Verteilung

Abb. 6 zeigt die Ergebnisse für die Beta-Verteilung mit Cdu = −0,2 und . Denken Sie daran, dass in diesem Fall die Logit-Transformation anstelle der Log-Transformation verwendet wird. Die Differenz im Mittelwert der Logit-Werte oszilliert um den wahren Wert, während bei Rohdaten die Differenz mit abnehmendem . gegen Null abnimmt Cl. Im ersteren Fall nimmt die CI-Breite mit zunehmendem Bodeneffekt zu, während sie im letzteren Fall konstant bleibt. Cohens D sowohl der Roh- als auch der Logit-Daten nimmt mit abnehmender Menge ab Cl während der entsprechende CI konstant bleibt. Die Logite T-Test zeigt die beste Testleistung, gefolgt von einem rangbasierten Test mit einer Lücke von bis zu 19,1 pp und roh T-testen und trimmen T-Test mit noch größeren Lücken. In allen vier Fällen wird ein Wechsel von hoher Ausschussrate zu niedriger Ausschussrate beobachtet, da Cl nimmt ab. Das Szenario mit drei Gruppen zeigt ähnliche Ergebnisse. Bayesian T-Testschalter, um Äquivalenz statt Gruppenunterschied zu unterstützen, da Cl nimmt ab. Wie im vorherigen Abschnitt sind die TOST-Schwellenwerte zu konservativ, um eine Äquivalenz zu erkennen. Es kann jedoch ein Wechsel zur Unterstützung von Äquivalenz beobachtet werden, wenn TOST auf Daten angewendet wird, die mit größeren Werten von generiert wurden.

Das Figurenlayout folgt dem Layout von Abb. 3.Einzelheiten finden Sie in Abb. 3.

Größer und kleiner Cdu die Testleistung verbessern. Kleinere Werte von Cdu machen CIs enger, während die mittlere Differenz erhöht wird. In allen Fällen stimmt die logitbasierte Differenzschätzung mit der wahren Gruppendifferenz überein .

3.5 Beta-Binomialverteilung

Abb. 7 zeigt die Ergebnisse für die Beta-Verteilung mit Cdu = −0.3, n = 7 und . In diesem Fall hebt die blaue Farbe eine Transformation mit Logit-Funktion hervor. Sowohl bei den transformierten als auch bei den Rohdaten sind die CIs ähnlich: Der Mittelwert nimmt mit abnehmender ab Cl während die CI-Breite konstant bleibt. Ein ähnliches Muster wird bei Cohens . beobachtet D. Der rangbasierte Test schneidet mit einem Abstand von bis zu 25,3 pp zum Logit am besten ab T-Prüfung. Die Logite T-Test zeigt eine bessere Leistung als das Rohmaterial T-Test, wenn die Daten nicht vom Bodeneffekt betroffen sind. Getrimmt T-Test schneidet mit einem Abstand von bis zu 49,9 pp zum rangbasierten Test am schlechtesten ab. Ähnliche Ergebnisse werden im Drei-Gruppen-Szenario erzielt, wobei ein rangbasierter Test die beste Leistung zeigt. Größere und größere Werte von n die Testleistung verbessern. Beide n und erhöhen Sie die mittlere Differenz, während höher n führt zu einem breiteren CI.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

Mit stärkerem Bodeneffekt, Bayesian T-Test begünstigt die Hypothese, dass es keinen Gruppenunterschied gibt. TOST erkennt erneut keine Äquivalenz, da die Schwellenwerte zu konservativ sind.

3.6 Ordinales logistisches Regressionsmodell

Abb. 8 zeigt die Ergebnisse für OLRM mit σ = 0,8 und Schwellenwerte bei −3, −1, 1, 3. Auch hier zeigen blaue Linien Ergebnisse für Daten, die mit der Logit-Funktion transformiert wurden. In diesem Fall Cl = −Cdu. Wir haben diese Tatsache genutzt, um in Abb. 8 sowohl den Boden- als auch den Deckeneffekt zu zeigen Cl nimmt ab, Bodeneffekt nimmt zu, während Cl nimmt der Deckeneffekt zu. Beachten Sie, dass eine der Gruppen in Bezug auf weiter versetzt war Cl auf der horizontalen Achse, was erklärt, warum die Graphen nicht vollständig symmetrisch um Cl = 0. Bei Decken- und Bodeneffekt geht die positive Mittelwertdifferenz gegen Null und das CI wird enger. Dies gilt sowohl für rohe und transformierte Daten als auch für ihre Cohens D. Die Testleistung nimmt mit zunehmendem Ausmaß des Decken- und Bodeneffekts ab. Zum Testvergleich sind alle Tests mit Ausnahme von getrimmt T-Test zeigen vergleichbare Leistung. TOST unterstützt die Gleichwertigkeit am Boden und an der Decke. Ähnlich, Bayesian T-Test begünstigt Gleichwertigkeit an Decke und Boden. Beachten Sie, dass die Simulation im Prinzip darüber hinaus erweitert werden könnte Cl = −5 und Cl = 5, jedoch bei Cl = -5 bereits mehr als 90% der Werte null sind und das Vorhandensein des Bodeneffekts für einen Untersucher offensichtlich sein sollte.

Das Figurenlayout folgt dem Layout von Abb. 3. Einzelheiten finden Sie in Abb. 3.

3.7 Zwei-Wege-Faktor-Design

Abb. 9 zeigt den Vergleich der Erkennungsrate von Rang-basiertem SRHT (grün) mit ANOVA (rot) und mit ANOVA an transformierten Daten (blau). Log-Transformation wird mit positiven Ergebnissen in den ersten drei Spalten verwendet. Die Logit-Transformation wird mit begrenztem Ergebnis in der vierten, fünften und sechsten Spalte verwendet. Gestrichelte Linien zeigen den stärkeren Haupteffekt, gestrichelte Linien zeigen den schwächeren Haupteffekt und durchgezogene Linien zeigt die Wechselwirkung. Die vertikale Achse zeigt den Anteil der Ablehnungen der Hypothese, dass es keine Hauptwirkung/Interaktion gibt. Wie im vorherigen Abschnitt zeigt die horizontale Achse die Werte der Parameter, die verwendet werden, um den Bodeneffekt zu erzeugen. Der Bodeneffekt nimmt in negativer (nach links) Richtung der horizontalen Achse zu. Dies gilt auch für die Wald-Verteilung, in diesem Fall haben wir die Werte von umgekehrt B so dass höhere Werte im linken Teil der Achse liegen. Die Panelspalten zeigen sechs verschiedene Datengenerierungsprozesse, während die Zeilen fünf verschiedene Haupteffekt-/Interaktionskonstellationen zeigen. Diese Konstellationen wurden in Abb. 2 beschrieben. Denken Sie vor allem daran, dass es in der Situation „kein X“ zwei Haupteffekte, aber keine Interaktion gab, „kein ME“ eine Situation mit Interaktion, aber keine Haupteffekte und in den verbleibenden drei Situationen beide Haupteffekte bezeichnet und es kam zu einer Interaktion.

Abbildung zeigt den Vergleich der Erkennungsrate von Rang-basierter SRHT (grün) mit ANOVA (rot) und mit ANOVA an transformierten Daten (blau). Weitere Details sind im Text angegeben.

Beachten Sie zunächst, dass die Erkennungsleistung unter allen Bedingungen mit zunehmender Stärke des Bodeneffekts abnahm. In der „no X“-Situation gab es zwei Haupteffekte, aber keine Interaktion. Bei den Tests gelang es meist, die Haupteffekte zu erkennen, wenn der Bodeneffekt schwach war. Die Tests haben in den meisten Fällen die Erkennung von Interaktionen korrekt vermieden. Als eine Ausnahme, F-Test (mit Rohdaten) erkannte Interaktion, wenn der Bodeneffekt schwach war, während die Daten aus der Gamma- oder Wald-Verteilung generiert wurden. F-test konnte darüber hinaus den stärkeren Haupteffekt mit Betaprime und Betaverteilung (Spalte 3 und 4) nicht feststellen, was im Gegensatz zu den beiden anderen Methoden stand. SRHT übertraf die anderen beiden Tests mit Beta-Binomialdaten, während mit Beta prime und Beta verteilten Daten der log F-Test zeigte leichten Vorteil gegenüber SRHT.

„no ME“ bezeichnet die Situation mit einer Interaktion, aber ohne Haupteffekte. Alle Methoden haben es richtig vermieden, Haupteffekte zu erkennen. Bei der Roh-ANOVA traten Probleme bei der Erkennung von Interaktionen auf, wenn die Daten aus der Beta- und Beta-Primzahlverteilung generiert wurden. In diesen Fällen ist das Protokoll F-test zeigte einen Leistungsvorteil gegenüber SRHT. Im Gegensatz dazu war SRHT beim Nachweis von Interaktionen am erfolgreichsten, wenn Daten aus der Beta-Binomialverteilung generiert wurden.

In den verbleibenden drei Situationen traten sowohl Haupteffekte als auch eine Interaktion auf. Beachten Sie, dass die drei Ergebnisse in den letzten drei Zeilen sehr ähnlich sind, außer dass sie unterschiedliche Permutationen zwischen den beiden Haupteffekten und der Interaktion zeigen. Vergleichen Sie die dritte und vierte Zeile: Vertauscht man die gestrichelten und die durchgezogenen Linien, erhält man sehr ähnliche Ergebnisse. Zwischen der vierten und der fünften Reihe werden die gepunkteten und die durchgezogenen Linien vertauscht. Dies ist vielleicht nicht überraschend, da die drei verschiedenen Interaktionstypen durch Vertauschen der wahren Mittelwerte zwischen den Faktoren erhalten wurden.

Alle drei statistischen Methoden stießen auf Probleme, ungekreuzte Interaktionen zu erkennen. Die einzige Ausnahme war die log-ANOVA an Gamma-verteilten Daten, wenn der Bodeneffekt schwach war. Dementsprechend stießen alle Tests (wieder mit Ausnahme der log-ANOVA an Gamma-verteilten Daten) auf Probleme, den schwächeren Haupteffekt (gestrichelte Linien) in Gegenwart von gekreuzten und doppelt gekreuzten Interaktionen zu erkennen. In Bezug auf die Haupteffekte, die die ungekreuzte Interaktion begleiteten, zeigte die ANOVA mit transformierten Daten die beste Leistung, gefolgt von einem rangbasierten Test und einer ANOVA. Auch hier, wenn die Daten aus Beta Prime und Beta Distribution generiert werden F Test mit transformierten Daten zeigte einen Vorteil gegenüber SRHT, während SRHT im Fall der Beta-Binomialverteilung profitierte. In all diesen drei Fällen ist die rohe F-Test zeigte eine schlechte Leistung bei der Erkennung der Haupteffekte. Wenn Daten aus dem Ordered Logistic-Modell generiert wurden, zeigten die drei Tests eine ähnliche Leistung.

Im Szenario ohne Interaktion („kein X“) und mit ungekreuzter Interaktion, wenn die Daten aus Beta-, Beta-Prime- und Beta-Binomialverteilung generiert wurden, fragt sich der Leser vielleicht, wie die Interaktionserkennungsleistung aussehen würde, wenn man größer wählen würde Cl. Aufgrund der Beschränkungen der Betafunktion ist eine solche Wahl nicht möglich, man kann jedoch die Effektstärke erhöhen, d. h. die Gruppenunterschiede skalieren, um eine leichtere Erkennung zu ermöglichen. Die letzte Abbildung im S1-Anhang zeigt die Erkennungsrate im 2 × 2-Faktor-Szenario, wobei die obere Grenze in Tabelle 2 in der vierten Spalte aufgeführt ist. Die Abbildung zeigt, dass für große Cl im „no X“-Szenario bietet SRHT zumindest eine gewisse Unterstützung für die Interaktion mit Daten aus der Beta-, Beta-Prime- und Beta-Binomialverteilung. Die Interaktionserkennungsleistung der anderen beiden Methoden bleibt davon unberührt. Der größere verbessert nicht die Erkennung ungekreuzter Interaktionen für diese drei Verteilungen. Interessanterweise roh F-Test übertrifft Protokoll F-test wann und Cl sind groß.

3.8 Parameterwiederherstellung mit geordneter logistischer Regression und Beta-Binomialverteilung

Wie in den Abschnitten 3.5 und 3.6 gezeigt, brachte die Anwendung der Logit-Transformation auf diskrete Daten keine Leistungsverbesserung im Vergleich zu Methoden, die auf untransformierte Daten angewendet wurden. Ein solches Ergebnis wirft die Frage auf, ob dieses Ergebnis eine Ineffektivität der ausgewählten Transformation beschreibt oder ob die diskreten Daten eine allgemeinere Inferenzherausforderung darstellen, die eine rangbasierte Lösung erfordert. In diesem Abschnitt geben wir Klarheit, indem wir die OLRM- und Beta-Binomialverteilung an die aus OLRM generierten Daten anpassen. Wie bereits in der Einleitung erwähnt, ist die Schwierigkeit bei diesem Verfahren rechnerisch. Die analytischen Ergebnisse zur Parameterschätzung mit OLRM oder Beta-Binomialverteilung unter der in der aktuellen Arbeit verwendeten Parametrisierung sind in der Literatur nicht verfügbar. Näherungsverfahren sind verfügbar, aber rechenaufwendig. Aus diesen Gründen wurde in den vorherigen Abschnitten auf eine Parameterwiederherstellung (d. h. dasselbe Modell wird verwendet, um die Daten zu generieren und anzupassen) verzichtet, obwohl sie interessante Informationen über die bestmögliche Leistung liefern würde. Aus diesen Gründen berücksichtigt der aktuelle Abschnitt weder die Leistung über 10000 Wiederholungen noch die Leistung über eine Reihe von störenden Parametern. Es wird nur ein einziges Forschungsszenario betrachtet. Um die Wahl des Szenarios weniger willkürlich und weniger künstlich zu gestalten, passen wir das in der Einleitung diskutierte Forschungsszenario an. Wir fragen, wie sich das Ausmaß des Deckeneffekts auf die Schlussfolgerungen bezüglich des Replikationsversuchs von [2] auswirken würde. Insbesondere haben wir OLRM an die Daten aus [1] und [2] angepasst. Wir haben die Schwierigkeit für jedes der sechs Items in der Originalstudie separat geschätzt und wir haben einen separaten Parametersatz für die Replikationsstudie geschätzt. Die Itemschwierigkeit der Kontrollgruppe war Cdu während die Itemschwierigkeit der experimentellen Gruppe war Die Schwellenwerte wurden über die Items und über die Datensätze gepoolt. Der Gruppenunterschied war bei allen Items identisch, jedoch wurden zwei separate Parameter für Original- und Replikationsstichprobe verwendet. Im zweiten Schritt wurden mehrere Sätze gefälschter Daten aus dem OLRM mit Schwellenwerten generiert und die Gruppendifferenz wurde auf die Medianschätzungen fixiert, die aus der ursprünglichen Studie im vorherigen Schritt erhalten wurden. Ähnlich dem Verfahren, das verwendet wurde, um die Ergebnisse in Abschnitt 3.6 zu erhalten, Cdu wurde variiert, um die Stärke des Deckeneffekts anzupassen. OLRM wurde an jeden gefälschten Datensatz angepasst. Beachten Sie, dass ein separates Cdu, und für jeden gefälschten Datensatz wurde ein separater Satz von Schwellenwerten geschätzt. Da keine Wiederholungen verfügbar waren, wird nur die Medianschätzung des Gruppenunterschieds zusammen mit dem 95 %-Prozentintervall angezeigt. Um die Schätzungen zu erhalten, wurde die Markov-Ketten-Monte-Carlo-Methode verwendet. Die technischen Details dieser Methode sind in Abschnitt 2.3 beschrieben.

Das linke Feld von Fig. 10 zeigt die Schätzung der Gruppendifferenz (vertikale Achse) als Funktion des Deckeneffekts, der von links nach rechts zunimmt. Die Medianschätzung (schwarz) stimmt mit der wahren Gruppendifferenz (blau) überein. Die Breite des 95%-Intervalls (graue Fläche) nimmt mit zunehmendem Ausmaß des Deckeneffekts (und auch des Bodeneffekts) zu.

Abbildung zeigt die Schätzung der Gruppendifferenz auf der vertikalen Achse, die durch Anpassen von OLRM (linkes Feld) und Beta-Binomialverteilung (rechtes Feld) an die mit OLRM durch Manipulation der Größe des Deckeneffekts erzeugten Daten erhalten wurde Cdu. Cdu wird auf der horizontalen Achse angezeigt und die Stärke des Deckeneffekts nimmt von links nach rechts zu. In Anlehnung an die genaue Schreibweise in Abschnitt 2.3 zeigt die schwarze Linie den Median-Schätzwert der Gruppendifferenz, während die graue Fläche das 95 %-Intervall des Schätzwertes zeigt. Die blaue Linie zeigt den wahren Wert, der von OLRM verwendet wird, das die Daten generiert hat, und der wahre Wert entspricht einer OLRM-Schätzung der Gruppendifferenz in [1] (d. h. Median-Schätzung von D0). Die Kreuze zeigen die Schwierigkeit der sechs Items (d. h. ) in der Originalstudie (grün [1]) und in der Replikationsstudie (rot [2]), während Cich und Gitterlinien der horizontalen Achse zeigen die OLRM-Schwellenwerte, die durch Zusammenführen der Original- und Replikationsdaten erhalten wurden.

Wie bereits in der Einleitung argumentiert, kann die Parameterwiederherstellung nützlich sein, um die Best-Case-Leistung zu schätzen, aber wir glauben nicht, dass sie die Überlegenheit des Anpassungs-/Erzeugungsmodells gegenüber einem anderen statistischen Modell zeigt, das an dieselben Daten angepasst ist. Daher können die Ergebnisse im linken Feld von Abb. 10 nicht verwendet werden, um für die Überlegenheit der Leistung von OLRM gegenüber der Leistung von beispielsweise linearen Methoden, die in Abschnitt 3.6 betrachtet wurden, zu argumentieren. Daher haben wir eine abschließende Untersuchung hinzugefügt, in der der Gruppenunterschied mit einem Beta-Binomial-Modell mit Parametern geschätzt wurde Cl und Cdu. Die Ergebnisse sind im rechten Feld von Fig. 10 dargestellt. Der Median der Gruppendifferenz ist nicht konstant und stimmt nicht mit der wahren Gruppendifferenz von OLRM überein. Ähnlich wie bei der OLRM-Schätzung nimmt die Breite des prozentualen Intervalls jedoch mit zunehmendem Ausmaß des Deckeneffekts zu.

Die Kreuze in Abb. 10 zeigen die Schwierigkeit der sechs Items in der Originalstudie (grün [1]) und in der Replikationsstudie (rot [2]), während die Häkchen auf der horizontalen Achse die OLRM-Schwellenwerte zeigen, die durch das Poolen des Originals erhalten wurden und die Replikationsdaten. Die Items waren in der Replikationsstudie schwieriger als in der Originalstudie. Um auf die Frage vom Anfang der Einleitung zurückzukommen: Maskiert der stärkere Deckeneffekt in der Replikationsstudie den signifikanten Gruppenunterschied? Betrachten wir die Frage, ob die Wahrscheinlichkeit, dass die Gruppendifferenz kleiner als Null ist, kleiner als 0,025 ist, dann lautet die Antwort nein. Über alle Elemente hinweg überschreitet die untere Grenze des OLRM-Prozentintervalls nicht null für alle Ebenen von Cl die dem Schwierigkeitsgrad des Gegenstands entsprechen. Dies gilt für das Beta-Binomial-Modell, mit Ausnahme des schwierigsten Elements. Wenn die Original- und die Replikationsstudie aus sechs Items bestanden, mit der Schwierigkeit des sechsten Items, dann würde der signifikante Gruppenunterschied in der Replikationsstudie aufgrund des Deckeneffekts verschwinden. Angesichts der tatsächlichen Schwierigkeit der Items in der Replikationsstudie ist ein solches Verschwinden jedoch im Zusammenhang mit der Schätzung mit Beta-Binomialverteilung sehr unwahrscheinlich.

3.9 Mittelwert, Varianz und Schiefe

Abb. 11 zeigt, wie sich die Größe des Bodeneffekts auf die Erwartung, Varianz und Schiefe der in Spalten gezeigten Verteilungen auswirkt. Beachten Sie, dass OLRM sowohl einen Deckeneffekt als auch einen Bodeneffekt manifestiert, weil Cl = −Cdu. Um den Vergleich zu erleichtern, wurden die mit Betaverteilung, Betabinomial und OLRM erhaltenen Werte auf das Intervall [0, 1] skaliert. Mit Ausnahme der Beta-Primzahlverteilung nimmt der Mittelwert ab, da Cl nimmt ab. Die Varianz geht für die Gamma-Verteilung und die Wald-Verteilung gegen Null, während im Fall der Beta-Primzahl-Verteilung die Varianz mit abnehmendem zunimmt Cl. Um die Beta- und Beta-Binomialverteilung zu berücksichtigen, wie Cl nimmt ab, die Varianz nimmt zunächst zu, erreicht das Maximum bei Cl = Cdu (entspricht ein = B) und nimmt dann ab als Cl < Cdu. Die Varianz von OLRM zeigt das Maximum bei Cl = 0, während die Schräge zu diesem Zeitpunkt Null ist. Wie Cl → −∞ die Varianz geht gegen Null und die Verteilung weist eine positive Schiefe auf. Wie Cl → ∞, die Verteilung zeigt eine negative Schiefe und ihre Varianz geht gegen Null. Mit Ausnahme von OLRM ist der Schiefe positiv. Für alle Verteilungen mit Ausnahme der Wald-Verteilung nimmt die Schiefe zu, da Cl nimmt ab.

Die Abbildung zeigt, wie sich die Größe des Bodeneffekts auf die Erwartung, Varianz und Schiefe der in Spalten gezeigten Verteilungen auswirkt. In jedem Panel nimmt die Stärke des Bodeneffekts von rechts nach links zu. Weitere Details sind im Text angegeben.

Die Verteilungen erfüllen größtenteils alle CFE-Bedingungen. Eine Ausnahme ist die Wald-Verteilung, die eine abnehmende Schiefe zeigt und somit die vierte Bedingung nicht erfüllt. Die Beta-Prime-Distribution bietet den ergänzenden Fall, sie erfüllt nur die vierte Bedingung und verfehlt die restlichen Bedingungen. Beachten Sie, dass die zweite Bedingung überprüft werden kann, indem die mittlere Differenz berücksichtigt wird, die im ersten Feld der vorherigen Abbildungen aus dem Ergebnisabschnitt angezeigt wird. Alle Mittelwertunterschiede, mit Ausnahme der Beta-Prime-Verteilung, nehmen mit abnehmendem Wert ab Cl.


Abschluss

Zusammenfassend lässt sich sagen, dass das 6-Item-R-PMHI solide psychometrische Eigenschaften hat, die es nützlich machen, positive psychische Gesundheit in verschiedenen Umgebungen zu untersuchen. Als validierte, kurze und einfach zu handhabende Maßnahme kann es routinemäßig in großen Umfragen und bei klinischen Populationen eingesetzt werden. Weitere Tests der Skala in verschiedenen Stichproben sind erforderlich, um ihre Validität, Reaktionsfähigkeit und Test-Retest-Reliabilität weiter zu bestimmen. Während die ersten Hinweise auf Reliabilität und Validität der Skala ermutigend sind, sollten zukünftige Studien untersuchen, ob die Skala das mehrdimensionale Konstrukt der positiven psychischen Gesundheit angemessen anspricht.


2 Antworten 2

Es hängt ganz von der Analyse ab, die Sie durchführen. Niemand wird hinter Ihnen her, wenn Sie die Antworten gruppieren, aber das macht den Fragebogen ungültig - Sie hätten stattdessen einfach "Zustimmen / Nicht zustimmen" fragen können.

Der Zweck der Likert-Skala besteht darin, den Grad der Zustimmung des Responders zu ermitteln, der in einer solchen Gruppierung völlig ignoriert würde.

Sie können dies tun, aber Sie verringern wahrscheinlich die Qualität Ihrer Daten erheblich.

In den meisten Fällen*, in denen Sie eine Likert-Skala verwenden, müssen Sie einen starken Deckeneffekt** einkalkulieren. Stellen Sie sich vor, Sie würden etwas wie "Unsere Anwendung ist einfach zu verwenden" fragen und Ihre Kunden können zwischen den Optionen "Stimmt voll und ganz" bis "Stimmt nicht zu" wählen. Wenn Sie sich ein Histogramm der Antworten ansehen, werden Sie feststellen, dass Sie im Teil "Zustimmen" viel mehr Antworten haben als im Teil "Nicht zustimmen".

Es gibt statistische Möglichkeiten, dies zu entdecken und damit umzugehen, aber Sie sollten sie nicht benötigen, wenn Sie Ihre Ergebnisse nicht in peer-reviewed Journals veröffentlichen möchten. Aber hier ist die praktische Art, die Dinge zu betrachten.

  • Das Verhältnis der Antworten "stimme nicht zu" zu "stimme nicht zu" ist nicht interessant, denn Sie werden fast immer mehr Zustimmungen als Ablehnungen haben, selbst wenn Ihre Software mittelmäßig ist. Es muss wirklich böse sein, das Verhältnis umzukehren.
  • Interessant ist die Histogrammform. Bei einer Likert-Skala erhalten Sie eine etwas schiefe Gauss-Kurve, die nach rechts verschoben ist (positive Antworten sind rechts vorausgesetzt) ​​und rechts abgeschnitten. Für die besten Anwendungen wird die Kurve so weit nach rechts verschoben, dass Sie den "Höcker" der Glockenkurve nicht sehen können und Sie sehen nur die erste Steigung davon, also sehen Sie eine nach oben geneigte Linie anstelle einer Glocke. Wenn Sie die Metriken Ihrer Benutzer dazu bringen können, diese Form zu zeigen, haben Sie es groß gemacht. Andernfalls sehen Sie den Buckel irgendwo in der rechten Hälfte der Skala. Interessante Metriken sind, wie weit rechts es ist, wie viel Prozent der Leute Antworten gegeben haben, die unter die modale Antwort fallen, und, wenn Sie tiefer darauf eingehen möchten, Steilheits-/Schiefheitsmaße. Diese Metriken geben bereits einige Informationen, aber sie glänzen wirklich für Vergleiche (z. B. Zufriedenheit zwischen Funktionen Ihrer Software, um zu sehen, was Ihre Benutzer wirklich hassen. Oder vergleichen Sie Ihre eigene Software mit der Konkurrenz und sehen Sie, wo Ihre aufholen muss).

Je detaillierter Ihre Daten sind, desto besser können Sie diese Metriken verwenden. Zwei- bis vierwertige Verteilungen sind für sie praktisch nutzlos. Geht man aber zu hoch, ist der Mensch nicht in der Lage, die eigenen Einstellungen präzise genug zu differenzieren. Daher verwenden Fragebögen normalerweise fünf- bis neunwertige Skalen (mit einem starken ideologischen Kampf zwischen den Lagern der "gerade-" und der "ungerade-zahligen Skala"). Sie haben bereits diese Art von Daten, also verwenden Sie sie. Wenn Sie es auf die Werte "Zustimmen" und "Nicht zustimmen" zusammenfassen, ist es unmöglich, die Histogramme zu zeichnen und die Metriken zu berechnen, die Ihnen echte Informationen liefern.

Noch ein Wort der Vorsicht zu den oben genannten Metriken: Berechnen Sie niemals Mittelwerte für Ihre Daten, die mit einer Likert-Skala gesammelt wurden. Likert-Skalendaten sind ordinal und behandeln sie auf diese Weise. Methoden wie ein arithmetisches Mittel werden für Kardinaldaten erstellt, und obwohl Sie damit ein numerisches Ergebnis erhalten, hat es keine wirkliche Bedeutung, und jede darauf angewendete Argumentation ist irreführend.

[*] Sie sagen nicht, was Sie messen. Ich habe Erfahrung mit der Messung von Zufriedenheit und verwandten Konzepten wie Benutzerfreundlichkeit usw. - im Allgemeinen werden Antworten durch die Einstellung der Benutzer zu einem Produkt bestimmt, und ich gehe davon aus, dass Sie auf dieser Site etwas Ähnliches messen (außerdem ist dies die kanonische Verwendung von Likert-Skalen, sie wurden für Einstellungen entwickelt). Ich weiß nicht, wie sehr die Antwort auf eine völlig andere Verwendung der Likert-Skalen zutrifft.

[**] Für besonders Interessierte: Peterson, Robert A. und William R. Wilson. "Kundenzufriedenheit messen: Fakt und Artefakt." Zeitschrift der Akademie für Marketingwissenschaft 20.1 (1992): 61-71.


Bewusste Präsenz und Selbstkontrolle als Maß für das Situationsbewusstsein bei Soldaten – Eine Validierungsstudie

Der Begriff „Achtsamkeit“ wurde in erster Linie für Patienten mit chronischen Stressoren operationalisiert, während er selten in Bezug auf Soldaten verwendet wird. Wir wollten ein modifiziertes Instrument auf Basis des Freiburger Mindfulness Inventory (FMI) validieren, um das Situationsbewusstsein („Achtsamkeit“) von Soldaten in Stresssituationen/Einsätzen zu messen. Das Instrument, das wir in dieser Arbeit untersuchen werden, heißt das Bewusste Präsenz und Selbstkontrolle (CPSC)-Skala.

Methoden

Die CPSC und weitere Instrumente, dh Perceived Stress Scale (PSS), Stressful Military Experiences (PCL-M), Life Satisfaction (BMLSS), Positive Life Construction (ePLC) und Self-perceived Health Affections (VAS), wurden an 281 deutsche Soldaten. Die Soldaten waren hauptsächlich Kampfmitteln, Militärpolizei, Sanitätsdienst und Patienten mit posttraumatischen Belastungsstörungen ausgesetzt.

Ergebnisse

Die 10-Item-CPSC-Skala wies eine einfaktorielle Struktur auf und zeigte eine gute interne Konsistenz (Cronbachs Alpha = .86), es gab weder Decken- noch Bodeneffekte. Die CPSC-Werte korrelierten mäßig mit positiver Lebenskonstruktion und Lebenszufriedenheit und negativ mit wahrgenommenem Stress und gesundheitlichen Beeinträchtigungen. Regressionsanalysen zeigten, dass die Symptome einer posttraumatischen Belastungsstörung (negativ) und die Entwicklung effektiver Strategien zum Umgang mit störenden Bildern und Erfahrungen (positiv) die besten Prädiktor für die CPSC-Werte von Soldaten waren. Soldaten mit gesundheitlichen Beeinträchtigungen, die Auswirkungen auf ihr tägliches Leben zeigten, hatten signifikant niedrigere CPSC-Werte als diejenigen ohne Beeinträchtigung (F = 8,1 p < .0001).

Schlussfolgerungen

Da zentrale Konzeptualisierungen von `Achtsamkeit´ nicht unbedingt im militärischen Kontext diskutiert werden, wurde der FMI für Militärpersonalpopulationen übernommen, während seine zweifaktorielle Struktur mit den Unterkonstrukten `Akzeptanz´ und `Präsenz´ beibehalten wurde. Die resultierende 10-Item-CPSC-Skala hatte eine gute interne Konsistenz, gute Assoziationen mit Maßen für gesundheitliche Beeinträchtigungen und Lebenszufriedenheit und kann daher als kurzes und schnelles Maß in Pre-Post-Missionen und interventionellen Studien verwendet werden.


Schau das Video: Fragebogenauswertung mit Excel Teil 1 (Dezember 2021).