Information

Was ist die Formel zur Korrektur der Bereichsbeschränkung, wenn Sie die Standardabweichung der unbeschränkten Gruppe nicht kennen?

Was ist die Formel zur Korrektur der Bereichsbeschränkung, wenn Sie die Standardabweichung der unbeschränkten Gruppe nicht kennen?

Wie lautet die Formel für die Bereichseinschränkung, wenn Sie die Standardabweichung der unbeschränkten Gruppe nicht kennen?

Zum Beispiel führen Sie einen Auswahlprozess durch, die erste Stufe ist ein kognitiver Leistungstest und als Ergebnis kennen Sie die Standardabweichung der Bevölkerung nicht.


Meine Antwort

In diesem Szenario ist die uneingeschränkte Gruppe die Population der Personen, die sich im Auswahlprozess befinden. Held und Foley (1994, Table 3) https://conservancy.umn.edu/bitstream/handle/11299/116989/v18n4p355.pdf zeigen beispielsweise die Konsequenzen unterschiedlicher Selektionsverhältnisse auf die Schätzungen des Validitätskoeffizienten.

Zusammenfassend ist die uneingeschränkte Gruppe der gesamte Bewerberpool, der Ihre Prüfung ablegt. Die eingeschränkte Gruppe sind diejenigen, die basierend auf Ihren Auswahlkriterien ausgewählt werden.

Alternative

Für jeden kognitiven Leistungstest sollte ein Handbuch enthalten sein, und dieses Handbuch sollte Validitätsinformationen enthalten, einschließlich der SD der Bevölkerung. Viele von ihnen sind so genormt, dass es einfach ist (z. B. ist die SD von WAIS 15, die SD von Stanford-Binet ist 10). Ermitteln und verwenden Sie die Werte aus dem Prüfhandbuch.

Ich denke jedoch, dass dies in der Praxis nicht getan werden sollte. Besorgniserregend sind hier nicht alle Erwachsenen im erwerbsfähigen Alter der Welt/Region, sondern alle Erwachsenen im erwerbsfähigen Alter der Welt/Region, die sich bei der Organisation beworben haben.


Sind Sie bereit, Ihr Forschungsziel zu untersuchen? Forschungsumfragen helfen Ihnen, Erkenntnisse von Ihrer Zielgruppe zu gewinnen. Die von Ihnen gesammelten Daten geben Ihnen Einblicke, um die Kundenbedürfnisse zu erfüllen, was zu mehr Umsatz und Kundenbindung führt. Die Berechnung und Bestimmung der Stichprobengröße ist für den Forscher unerlässlich, um die richtige Anzahl von Befragten zu bestimmen, wobei die Qualität der Forschungsstudie zu berücksichtigen ist.

Wie sollten Sie also die Stichprobengröße bestimmen? Woher wissen Sie, wer Ihre Umfrage erhalten soll? Wie entscheiden Sie über die Anzahl der Zielgruppen?

Das Versenden zu vieler Umfragen kann teuer werden, ohne dass Sie einen definitiven Vorteil gegenüber einer kleineren Stichprobe haben. Wenn Sie jedoch zu wenige versenden, haben Sie nicht genügend Daten, um genaue Schlussfolgerungen zu ziehen. Wenn Sie wissen, wie Sie die Stichprobengröße genau berechnen und bestimmen, können Sie sich einen Vorteil gegenüber Ihren Mitbewerbern verschaffen. Werfen wir einen Blick darauf, was eine gute Probe beinhaltet. Sehen wir uns außerdem die Berechnungsformel für die Stichprobengröße an, damit Sie die perfekte Stichprobengröße für Ihre nächste Umfrage ermitteln können.

Was ist ‘Probengröße’?

‘Sample size’ ist ein Marktforschungsbegriff, der verwendet wird, um die Anzahl der Personen zu definieren, die in die Forschung einbezogen werden. Forscher wählen ihre Stichprobe basierend auf demografischen Merkmalen wie Alter, Geschlecht oder Standort aus.

Proben können vage oder spezifisch sein. Zum Beispiel möchten Sie vielleicht wissen, was Menschen im Alter zwischen 18 und 25 Jahren von Ihrem Produkt halten. Oder Sie verlangen möglicherweise nur, dass Ihre Stichprobe in den Vereinigten Staaten lebt, wodurch Sie einen breiten Bevölkerungskreis erhalten. Die Gesamtzahl der Personen in einer bestimmten Stichprobe ist die Stichprobengröße.

Warum müssen Sie die Stichprobengröße bestimmen?

Nehmen wir an, Sie sind Marktforscher in den USA und möchten eine Umfrage oder einen Fragebogen versenden. Der Zweck der Umfrage besteht darin, die Gefühle Ihres Publikums gegenüber einem neuen Mobiltelefon, das Sie auf den Markt bringen, zu verstehen. Sie möchten wissen, was die Leute in den USA über das neue Produkt denken, um den Erfolg oder Misserfolg des Telefons vor der Markteinführung vorherzusagen.

Hypothetisch wählen Sie die Einwohnerzahl von New York, die 8,49 Millionen beträgt. Sie verwenden eine Formel zur Bestimmung des Stichprobenumfangs, um eine Stichprobe von 500 Personen auszuwählen, die den Anforderungen des Verbraucherpanels entsprechen. Anhand der Antworten können Sie bestimmen, wie Ihr Publikum auf das neue Produkt reagieren wird.

Um zu wissen, wie man eine Stichprobengröße bestimmt, ist jedoch mehr erforderlich, als nur Ihre Umfrage an so viele Personen wie möglich zu richten. Wenn Ihre Stichprobengröße zu groß ist, können Ressourcen, Zeit und Geld verschwendet werden. Eine zu kleine Stichprobengröße ermöglicht es Ihnen nicht, maximale Erkenntnisse zu gewinnen, was zu nicht schlüssigen Ergebnissen führt.

Welche Begriffe werden in Bezug auf die Stichprobengröße verwendet?

Bevor wir uns mit der Bestimmung der Stichprobengröße befassen, werfen wir einen Blick auf die Begriffe, die Sie kennen sollten:

  1. Einwohnerzahl: Die Bevölkerungsgröße gibt an, wie viele Personen zu Ihrer Demografie passen. Sie möchten beispielsweise Informationen zu Ärzten mit Wohnsitz in Nordamerika erhalten. Ihre Bevölkerungszahl ist die Gesamtzahl der Ärzte in Nordamerika. Mach dir keine Sorgen! Ihre Bevölkerungsgröße muss nicht immer so groß sein. Kleinere Populationsgrößen können dennoch genaue Ergebnisse liefern, solange Sie wissen, wen Sie repräsentieren möchten.
  2. Vertrauensniveau: Das Vertrauensniveau sagt Ihnen, wie sicher Sie sein können, dass Ihre Daten korrekt sind. Sie wird als Prozentsatz ausgedrückt und am Konfidenzintervall ausgerichtet. Wenn Ihr Konfidenzniveau beispielsweise 90 % beträgt, sind Ihre Ergebnisse höchstwahrscheinlich zu 90 % genau.
  3. Die Fehlerquote (Konfidenzintervall): Wenn es um Umfragen geht, gibt es keine Möglichkeit, 100% genau zu sein. Konfidenzintervalle sagen Ihnen, wie weit Sie von der Bevölkerung entfernt sind, was bedeutet, dass Sie bereit sind, zuzulassen, dass Ihre Daten sinken. Eine Fehlerspanne beschreibt, wie nahe Sie vernünftigerweise davon ausgehen können, dass ein Umfrageergebnis relativ zum tatsächlichen Bevölkerungswert abfällt. Denken Sie daran, wenn Sie Hilfe bei diesen Informationen benötigen, können Sie unseren Fehlerspannenrechner verwenden.
  4. Standardabweichung: Die Standardabweichung ist das Maß für die Streuung eines Datensatzes von seinem Mittelwert. Es misst die absolute Variabilität einer Verteilung. Je höher die Streuung oder Variabilität, desto größer die Standardabweichung und desto größer die Größenordnung der Abweichung. Sie haben beispielsweise Ihre Umfrage bereits verschickt. Wie viel Varianz erwarten Sie bei Ihren Antworten? Diese Antwortvariation ist der Standardabweichung.

Berechnungsformel für Stichprobengröße – Erfahren Sie, wie Sie eine Stichprobengröße bestimmen

Nachdem alle notwendigen Begriffe definiert sind, ist es an der Zeit zu lernen, wie Sie die Stichprobengröße mithilfe einer Stichprobenberechnungsformel bestimmen.

Ihr Konfidenzniveau entspricht einem Z-Score. Dies ist ein konstanter Wert, der für diese Gleichung benötigt wird. Hier sind die Z-Scores für die gängigsten Konfidenzniveaus:

Wenn Sie ein anderes Konfidenzniveau wählen, können Ihnen verschiedene Online-Tools helfen, Ihre Punktzahl zu finden.

Erforderlicher Stichprobenumfang = (Z-Score)2 * StdAbw*(1-StdAbw) / (Fehlermarge)2

Hier ist ein Beispiel für die mathematische Funktionsweise unter der Annahme, dass Sie ein Konfidenzniveau von 90 %, eine Standardabweichung von 0,6 und eine Fehlerspanne (Konfidenzintervall) von +/- 4% gewählt haben.

603 Befragte werden benötigt und das wird Ihre Stichprobengröße.

Wie wird eine Stichprobengröße bestimmt?

Die Bestimmung der richtigen Stichprobengröße für Ihre Umfrage ist eine der häufigsten Fragen, die Forscher zu Beginn einer Marktforschungsstudie stellen. Glücklicherweise ist die Bestimmung der Stichprobengröße nicht so schwer zu berechnen, wie Sie es vielleicht von einem alten Statistikunterricht an der High School kennen.

Bevor Sie Ihre Stichprobengröße berechnen können, stellen Sie sicher, dass Sie die folgenden Dinge haben:

  • Ziele und Zielsetzungen: Was erhoffen Sie sich von der Umfrage? Planen Sie, die Ergebnisse auf eine ganze Bevölkerungsgruppe oder Bevölkerung zu übertragen? Möchten Sie sehen, wie eine bestimmte Gruppe denkt? Versuchen Sie eine große Entscheidung zu treffen oder nur eine Richtung vorzugeben? Wenn Sie Ihre Umfrageergebnisse auf eine größere Population projizieren, ist die Stichprobengröße entscheidend. Sie möchten sicherstellen, dass es ausgewogen ist und die Community als Ganzes widerspiegelt. Wenn Sie versuchen, ein Gefühl für die Präferenzen zu bekommen, ist die Stichprobengröße nicht so entscheidend. Sie befragen beispielsweise Hausbesitzer in den USA zu den Kosten für die Kühlung ihrer Häuser im Sommer. Ein Hausbesitzer im Süden gibt wahrscheinlich viel mehr Geld aus, um sein Haus in der feuchten Hitze zu kühlen, als jemand in Denver, wo das Klima trockener und kühler ist. Um die genauesten Ergebnisse zu erhalten, müssen Sie Antworten von Personen aus allen US-Gebieten und Umgebungen erhalten. Wenn Sie nur Antworten von einem Extrem wie dem warmen Süden sammeln, werden Ihre Ergebnisse verzerrt.
  • Präzisionsniveau: Wie genau sollen die Umfrageergebnisse den wahren Wert nachahmen, wenn alle geantwortet haben? Auch hier: Wenn diese Umfrage bestimmt, wie Sie Millionen von Dollar ausgeben werden, dann sollte Ihre Stichprobengröße genau bestimmt werden. Je genauer Sie sein müssen, desto größer ist die Stichprobe, die Sie haben möchten, und desto mehr muss Ihre Stichprobe die Gesamtpopulation darstellen. Wenn Ihre Bevölkerung klein ist, sagen wir, 200 Personen, möchten Sie vielleicht die gesamte Bevölkerung befragen, anstatt sie mit einer Stichprobe zu reduzieren.
  • Vertrauensniveau? Denken Sie an Vertrauen aus der Perspektive des Risikos. Wie viel Risiko sind Sie bereit einzugehen? Hier werden Ihre Konfidenzintervallzahlen wichtig. Wie sicher möchten Sie sein – 98 % sicher, 95 % zuversichtlich? Beachten Sie, dass der von Ihnen gewählte Konfidenzprozentsatz einen großen Einfluss auf die Anzahl der Fertigstellungen hat, die Sie für die Genauigkeit benötigen. Dies kann die Länge der Umfrage und die Anzahl der benötigten Antworten erhöhen, was zu höheren Kosten für Ihre Umfrage führt. Wenn Sie die tatsächlichen Zahlen und Beträge hinter den Prozentsätzen kennen, können Sie Ihre Anforderungen an die Stichprobengröße im Vergleich zu den Umfragekosten besser verstehen. Sie möchten beispielsweise zu 99% sicher sein. Nachdem Sie die Formel zur Bestimmung des Stichprobenumfangs verwendet haben, müssen Sie zusätzlich 1000 Befragte sammeln. Dies bedeutet wiederum, dass Sie für Proben bezahlen oder Ihre Umfrage noch ein oder zwei Wochen weiterlaufen lassen. Sie müssen feststellen, ob die erhöhte Genauigkeit wichtiger ist als die Kosten.
  • Bevölkerungsvariabilität: Welche Variabilität gibt es in Ihrer Population? Mit anderen Worten, wie ähnlich oder unterschiedlich ist die Bevölkerung?
    Wenn Sie Verbraucher zu einem breiten Thema befragen, können Sie viele Variationen haben. Sie benötigen eine größere Stichprobengröße, um ein möglichst genaues Bild der Grundgesamtheit zu erhalten. Wenn Sie jedoch eine Population mit ähnlichen Merkmalen befragen, ist Ihre Variabilität geringer und Sie können weniger Personen in die Stichprobe aufnehmen. Mehr Variabilität bedeutet mehr Stichprobe, und weniger Variabilität entspricht weniger Stichprobe. Wenn Sie sich nicht sicher sind, können Sie mit einer Variabilität von 50 % beginnen.
  • Antwortrate: Sie möchten, dass alle auf Ihre Umfrage antworten. Leider gibt es in jeder Umfrage gezielte Befragte, die die Studie entweder nie öffnen oder auf halbem Weg abbrechen. Ihre Antwortrate hängt davon ab, wie stark Ihre Bevölkerung mit Ihrem Produkt, Ihrer Serviceorganisation oder Ihrer Marke verbunden ist. Je höher die Antwortrate, desto höher das Engagement Ihrer Bevölkerung. Ihre Basisstichprobengröße ist die Anzahl der Antworten, die Sie für eine erfolgreiche Umfrage erhalten müssen.
  • Betrachten Sie Ihr Publikum: Zusätzlich zu der Variabilität innerhalb Ihrer Population müssen Sie sicherstellen, dass Ihre Stichprobe keine Personen enthält, die nicht von den Ergebnissen profitieren. Einer der größten Fehler, die Sie bei der Bestimmung der Stichprobengröße machen können, besteht darin, zu vergessen, Ihre tatsächliche Zielgruppe zu berücksichtigen. Sie möchten beispielsweise keine Umfrage zur Qualität der örtlichen Wohnungsausstattung an eine Gruppe von Hausbesitzern senden.
  • Konzentrieren Sie sich auf die Ziele Ihrer Umfrage: Sie können mit allgemeinen demografischen Merkmalen und Merkmalen beginnen, aber können Sie diese Merkmale noch weiter eingrenzen? Die Eingrenzung Ihrer Zielgruppe macht es einfacher, mit einer kleinen Stichprobengröße ein genaueres Ergebnis zu erhalten. Sie möchten beispielsweise wissen, wie die Menschen auf neue Automobiltechnologien reagieren. Ihre aktuelle Population umfasst jeden, der ein Auto in einem bestimmten Markt besitzt. Sie wissen jedoch, dass Ihre Zielgruppe Menschen sind, die Autos fahren, die jünger als fünf Jahre sind. Sie können Personen mit einem älteren Fahrzeug aus Ihrer Stichprobe entfernen, da diese Ihr Produkt wahrscheinlich nicht kaufen werden.

Sobald Sie wissen, was Sie sich von Ihrer Umfrage erhoffen und welche Variablen in Ihrer Population vorhanden sind, können Sie entscheiden, wie Sie den Stichprobenumfang berechnen. Die Verwendung der Formel zur Bestimmung der Stichprobengröße ist ein guter Ausgangspunkt, um genaue Ergebnisse zu erhalten. Nachdem Sie Ihren Stichprobenumfang berechnet haben, möchten Sie eine zuverlässige Kundenbefragungssoftware finden, mit der Sie Umfrageantworten genau erfassen und in analysierte Berichte umwandeln können .

Tipps zur Erhöhung der Antwortquote

Um das Ziel Ihrer Umfrage zu erreichen, müssen Sie möglicherweise einige Methoden ausprobieren, um die Rücklaufquote zu erhöhen, wie zum Beispiel:


Unterschied zwischen Z-Test und T-Test

Z-Test vs. T-Test

Manchmal ist es einfach nicht praktikabel, jedes einzelne Stück eines Artikels zu messen. Aus diesem Grund haben wir statistische Methoden zur Lösung von Problemen entwickelt und verwenden diese. Der praktischste Weg, dies zu tun, besteht darin, nur eine Stichprobe der Bevölkerung zu messen. Einige Methoden testen Hypothesen durch Vergleich. Die beiden bekannteren statistischen Hypothesentests sind der T-Test und der Z-Test. Versuchen wir, die beiden aufzuschlüsseln.

Ein T-Test ist ein statistischer Hypothesentest. In einem solchen Test folgt die Teststatistik einer Student-T-Verteilung, wenn die Nullhypothese wahr ist. Die T-Statistik wurde von W.S. Gossett unter dem Pseudonym “Student”. Der T-Test wird auch als “Student T-Test” bezeichnet. Es ist sehr wahrscheinlich, dass der T-Test das am häufigsten verwendete statistische Datenanalyseverfahren zum Testen von Hypothesen ist, da er unkompliziert und einfach zu verwenden ist. Darüber hinaus ist es flexibel und an eine Vielzahl von Umständen anpassbar.

Es gibt verschiedene T-Tests und zwei am häufigsten angewendete Tests sind die Einstichproben- und die Paarstichproben-T-Tests. Ein-Stichproben-T-Tests werden verwendet, um einen Stichprobenmittelwert mit dem bekannten Populationsmittelwert zu vergleichen. Zweistichproben-T-Tests hingegen werden verwendet, um entweder unabhängige Stichproben oder abhängige Stichproben zu vergleichen.

Der T-Test wird, zumindest theoretisch, am besten angewendet, wenn Sie eine begrenzte Stichprobengröße (n < 30) haben, solange die Variablen ungefähr normalverteilt sind und die Variation der Ergebnisse in den beiden Gruppen nicht zuverlässig unterschiedlich ist. Es ist auch großartig, wenn Sie die Standardabweichung der Populationen nicht kennen. Wenn die Standardabweichung bekannt ist, ist es am besten, eine andere Art von statistischem Test zu verwenden, den Z-Test. Der Z-Test wird auch angewendet, um Stichproben- und Populationsmittelwerte zu vergleichen, um festzustellen, ob ein signifikanter Unterschied zwischen ihnen besteht. Z-Tests verwenden immer die Normalverteilung und werden idealerweise auch angewendet, wenn die Standardabweichung bekannt ist. Z-Tests werden oft angewendet, wenn die bestimmten Bedingungen anderweitig erfüllt sind, andere statistische Tests wie T-Tests werden stattdessen verwendet. Z-Tests werden oft bei großen Stichproben (n > 30) angewendet. Wenn der T-Test in großen Stichproben verwendet wird, wird der t-Test dem Z-Test sehr ähnlich. Bei den Stichprobenvarianzen von T-Tests können Schwankungen auftreten, die bei Z-Tests nicht vorhanden sind. Aus diesem Grund gibt es Unterschiede in beiden Testergebnissen.

1. Der Z-Test ist ein statistischer Hypothesentest, der einer Normalverteilung folgt, während der T-Test einer T-Verteilung nach Student folgt.
2. Ein T-Test ist geeignet, wenn Sie kleine Stichproben (n < 30) handhaben, während ein Z-Test geeignet ist, wenn Sie mittlere bis große Stichproben handhaben (n > 30).
3. Der T-Test ist anpassungsfähiger als der Z-Test, da der Z-Test oft bestimmte Bedingungen erfordert, um zuverlässig zu sein. Darüber hinaus verfügt der T-Test über viele Methoden, die für jeden Bedarf geeignet sind.
4. T-Tests werden häufiger verwendet als Z-Tests.
5. Z-Tests werden T-Tests vorgezogen, wenn Standardabweichungen bekannt sind.


So bestimmen Sie den Stichprobenumfang, Bestimmen des Stichprobenumfangs

Um nachzuweisen, dass ein Prozess verbessert wurde, müssen Sie die Prozessfähigkeit vor und nach der Implementierung von Verbesserungen messen. Auf diese Weise können Sie die Prozessverbesserung (z. B. Fehlerreduzierung oder Produktivitätssteigerung) quantifizieren und die Auswirkungen in ein geschätztes Finanzergebnis übersetzen – etwas, das Unternehmensleiter verstehen und schätzen können. Wenn Daten für den Prozess nicht ohne weiteres verfügbar sind, wie viele Mitglieder der Bevölkerung sollten ausgewählt werden, um sicherzustellen, dass die Bevölkerung angemessen repräsentiert wird? Wenn Daten erhoben wurden, wie stellen Sie fest, ob Sie über genügend Daten verfügen?

Die Bestimmung der Stichprobengröße ist ein sehr wichtiges Thema, da zu große Stichproben Zeit, Ressourcen und Geld verschwenden können, während zu kleine Stichproben zu ungenauen Ergebnissen führen können. In vielen Fällen können wir leicht den minimalen Stichprobenumfang bestimmen, der erforderlich ist, um einen Prozessparameter wie den Mittelwert der Grundgesamtheit zu schätzen.

Wenn Stichprobendaten erfasst und der Stichprobenmittelwert berechnet wird, weicht dieser Stichprobenmittelwert normalerweise vom Grundgesamtheitsmittelwert ab . Dieser Unterschied zwischen Stichproben- und Grundgesamtheitsmittelwert kann als Fehler angesehen werden. Die Fehlerspanne ist die maximale Differenz zwischen dem beobachteten Stichprobenmittelwert und dem wahren Wert des Grundgesamtheitsmittelwerts:

ist als kritischer Wert bekannt, der positive Wert, der an der vertikalen Grenze für den Bereich im rechten Ende der Standardnormalverteilung liegt.

ist die Standardabweichung der Grundgesamtheit.

Wenn wir diese Formel neu anordnen, können wir nach der Stichprobengröße auflösen, die erforderlich ist, um Ergebnisse zu erhalten, die mit einer bestimmten Konfidenz und Fehlerspanne genau sind.

Diese Formel kann verwendet werden, wenn Sie die erforderliche Stichprobengröße kennen und ermitteln möchten, die erforderlich ist, um den Mittelwert mit einer Sicherheit von innerhalb von zu ermitteln. Sie können diese Formel trotzdem verwenden, wenn Sie Ihre Populationsstandardabweichung nicht kennen und Sie eine kleine Stichprobengröße haben. Obwohl es unwahrscheinlich ist, dass Sie wissen, wann der Mittelwert der Grundgesamtheit nicht bekannt ist, können Sie dies möglicherweise aus einem ähnlichen Prozess oder aus einem Pilottest/einer Simulation ermitteln.

Lassen Sie uns all diesen statistischen Mumbo-Jumbo zum Laufen bringen. Nehmen wir zum Beispiel, dass wir einen Internet Service Provider (ISP) gründen möchten und für unseren Geschäftsplan und unser Modell die durchschnittliche Internetnutzung von Haushalten in einer Woche schätzen müssen.

Beispiel für die Berechnung des Stichprobenumfangs

Problem
Wir möchten einen ISP gründen und müssen für unseren Geschäftsplan und unser Modell die durchschnittliche Internetnutzung von Haushalten in einer Woche schätzen. Wie viele Haushalte müssen wir nach dem Zufallsprinzip auswählen , um zu 95 Prozent sicher zu sein , dass der Stichprobenmittelwert innerhalb einer Minute vom Bevölkerungsdurchschnitt liegt . Angenommen, eine frühere Umfrage zur Haushaltsnutzung ergab = 6,95 Minuten.

Lösung
Wir lösen nach der Stichprobengröße .

Eine Konfidenz von 95 % entspricht = 0,05. Jeder der schattierten Schwänze in der folgenden Abbildung hat eine Fläche von = 0,025. Der Bereich links und rechts von = 0 ist 0,5 – 0,025 oder 0,475. In der Tabelle der Standardnormalverteilung () entspricht eine Fläche von 0,475 einem Wert von 1,96. Der kritische Wert ist daher = 1,96.

Die Fehlerspanne = 1 und die Standardabweichung = 6,95. Mit der Formel für die Stichprobengröße können wir berechnen:

Wir müssen also mindestens 186 (aufgerundet) zufällig ausgewählte Haushalte beproben. Bei dieser Stichprobe sind wir zu 95 Prozent sicher, dass der Stichprobenmittelwert innerhalb von 1 Minute der tatsächlichen Population der Internetnutzung entspricht.

Diese Formel kann verwendet werden, wenn Sie die erforderliche Stichprobengröße kennen und ermitteln möchten, die erforderlich ist, um den Mittelwert mit einer Sicherheit von innerhalb von zu ermitteln. Sie können diese Formel trotzdem verwenden, wenn Sie Ihre Populationsstandardabweichung nicht kennen und Sie eine kleine Stichprobengröße haben. Obwohl es unwahrscheinlich ist, dass Sie wissen, wann der Mittelwert der Grundgesamtheit nicht bekannt ist, können Sie dies möglicherweise aus einem ähnlichen Prozess oder aus einem Pilottest/einer Simulation ermitteln.


So beheben Sie Heteroskedastizität

Wenn Sie den Grund für die Heteroskedastizität herausfinden, können Sie sie möglicherweise korrigieren und Ihr Modell verbessern. Ich zeige Ihnen drei gängige Ansätze, um Heteroskedastizität in Homoskedastizität umzuwandeln.

Um zu veranschaulichen, wie diese Lösungen funktionieren, modellieren wir anhand einer beispielhaften Querschnittsstudie die Zahl der Autounfälle durch die Bevölkerung von Städten. Diese Daten sind fiktiv, aber sie veranschaulichen das Problem und seine Lösung richtig. Sie können die CSV-Datendatei herunterladen, um es selbst auszuprobieren: Heteroskedastizität. Wir verwenden Unfall als abhängige Variable und Bevölkerung als unabhängige Variable.

Stellen Sie sich vor, wir passen einfach das Modell an und erzeugen die Residuendiagramme. In der Regel sehen Sie im Diagramm der Residuen nach angepassten Werten Heteroskedastizität. Wenn wir also die oben in diesem Beitrag gezeigte Handlung sehen, wissen wir, dass wir ein Problem haben.

Querschnittstudien haben ein größeres Risiko für Residuen mit nicht konstanter Varianz aufgrund der größeren Disparität zwischen den größten und den kleinsten Werten. Stellen Sie sich für unsere Studie die große Bandbreite der Bevölkerung von Städten bis hin zu Großstädten vor!

Im Allgemeinen sollten Sie die Quelle der nicht konstanten Varianz identifizieren, um das Problem zu beheben. Ein guter Ausgangspunkt ist eine Variable mit einer großen Bandbreite.

Wir haben Heteroskedastizität festgestellt, was können wir nun dagegen tun? Es gibt verschiedene Methoden, um dieses Problem zu beheben. Ich behandle drei Methoden, die ich in meiner bevorzugten Reihenfolge aufliste. Meine Präferenz basiert auf der Minimierung des Umfangs der Datenmanipulation. Möglicherweise müssen Sie mehrere Ansätze ausprobieren, um zu sehen, welcher am besten funktioniert. Diese Methoden sind für reine Heteroskedastizität geeignet, aber nicht unbedingt für die unreine Form.

Variablen neu definieren

Wenn es sich bei Ihrem Modell um ein Querschnittsmodell mit großen Unterschieden zwischen den Größen der Beobachtungen handelt, können Sie das Modell auf verschiedene Weise angeben, das die Auswirkungen des Größenunterschieds verringert. Ändern Sie dazu das Modell von der Verwendung des Rohmaßes auf die Verwendung von Raten und Pro-Kopf-Werten. Natürlich beantwortet diese Art von Modell eine etwas andere Art von Frage. Sie müssen feststellen, ob dieser Ansatz sowohl für Ihre Daten als auch für das, was Sie lernen müssen, geeignet ist.

Ich bevorzuge diese Methode, wenn es angebracht ist, da sie am wenigsten an den Originaldaten herumbastelt. Sie passen nur die spezifischen Variablen an, die in einer oft sinnvollen Weise geändert werden müssen. Tatsächlich zwingt Sie diese Praxis dazu, über verschiedene Möglichkeiten nachzudenken, Ihr Modell zu spezifizieren, was es häufig verbessert, über das bloße Entfernen von Heteroskedastizität hinaus.

Für unser ursprüngliches Modell verwendeten wir die Bevölkerung, um die Anzahl der Unfälle vorherzusagen. Wenn man darüber nachdenkt, ist es nicht überraschend, dass größere Städte mehr Unfälle haben. Das ist nicht besonders aufschlussreich.

Wir können das Modell jedoch ändern, sodass wir die Bevölkerung verwenden, um den Unfall vorherzusagen Bewertung. Dieser Ansatz reduziert den Einfluss der Skalierung und gelangt zum zugrunde liegenden Verhalten. Versuchen Sie dies mit unserem Beispieldatensatz. Ich verwende die Unfallrate als abhängige Variable und Bevölkerung als unabhängige Variable. Das Residuendiagramm ist unten.

Das Diagramm der Residuen nach angepasstem Wert sieht besser aus. Wenn es um ein paar nervige Werte im sehr hohen Bereich ginge, wäre es brauchbar. Hätte dieser Ansatz Homoskedastizität erzeugt, würde ich bei dieser Lösung bleiben und die folgenden Methoden nicht anwenden.

Gewichtete Regression

Die gewichtete Regression ist eine Methode, die jedem Datenpunkt eine Gewichtung basierend auf der Varianz seines angepassten Wertes zuweist. Die Idee ist, Beobachtungen, die mit höheren Varianzen verbunden sind, kleine Gewichte zu geben, um ihre quadrierten Residuen zu verkleinern. Die gewichtete Regression minimiert die Summe der gewichteten quadrierten Residuen. Wenn Sie die richtigen Gewichte verwenden, wird Heteroskedastizität durch Homoskedastizität ersetzt.

Ich bevorzuge diesen Ansatz etwas weniger, als die Variablen neu zu definieren. Zum einen beinhaltet die gewichtete Regression mehr Datenmanipulation, da sie die Gewichtungen auf alle Variablen anwendet. Es ist auch weniger intuitiv. Und wenn Sie direkt dazu überspringen, verpassen Sie möglicherweise die Gelegenheit, ein aussagekräftigeres Modell anzugeben, indem Sie die Variablen neu definieren.

Für unsere Daten wissen wir, dass höhere Populationen mit höheren Varianzen verbunden sind. Folglich müssen wir Beobachtungen großer Populationen geringere Gewichte zuweisen. Das theoretisch richtige Gewicht zu finden kann schwierig sein. Wenn Sie jedoch eine Variable identifizieren können, die mit der sich ändernden Varianz verknüpft ist, besteht ein üblicher Ansatz darin, die Umkehrung dieser Variablen als Gewichtung zu verwenden. In unserem Fall entspricht die Spalte "Gewicht" im Datensatz 1 / Bevölkerung.

Ich gehe zurück auf die Verwendung von Unfällen als abhängige Variable und Bevölkerung als unabhängige Variable. Ich teile der Software jedoch mit, eine gewichtete Regression durchzuführen und die Gewichtungsspalte anzuwenden. Das Residuendiagramm ist unten. Für die gewichtete Regression ist es wichtig, die standardisierten Residuen zu bewerten, da nur diese Art von Residuen uns zeigt, dass die gewichtete Regression die Heteroskedastizität fixiert hat.

Dieser Restplot sieht toll aus! Die Varianz der Residuen ist über den gesamten Bereich der angepassten Werte konstant. Homoskedastizität!

Transformiere die abhängige Variable

Ich spare mir immer das Umwandeln der Daten für den letzten Ausweg, weil es die meisten Manipulationen beinhaltet. Es macht auch die Interpretation der Ergebnisse sehr schwierig, da die Einheiten Ihrer Daten weg sind. Die Idee ist, dass Sie Ihre Originaldaten in verschiedene Werte umwandeln, die gut aussehende Residuen erzeugen. Wenn nichts anderes funktioniert, versuchen Sie eine Transformation, um Homoskedastizität zu erzeugen.

Ich passe das Originalmodell neu an, verwende aber eine Box-Cox-Transformation für die abhängige Variable.

Wie Sie sehen, hat die Datentransformation in diesem Datensatz Homoskedastizität erzeugt. Das ist gut, denn ich wollte diesen Ansatz sowieso verwenden! Wir bleiben beim gewichteten Regressionsmodell.

Denken Sie daran, dass es viele verschiedene Gründe für Heteroskedastizität gibt. Die Identifizierung der Ursache und die Lösung des Problems, um Homoskedastizität zu erzeugen, kann umfangreiche Fachkenntnisse erfordern. In den meisten Fällen sind Sanierungsmaßnahmen bei schwerer Heteroskedastizität erforderlich. Wenn Ihr Hauptziel jedoch darin besteht, den Gesamtbetrag der abhängigen Variablen vorherzusagen, anstatt die spezifischen Auswirkungen der unabhängigen Variablen zu schätzen, müssen Sie die nicht konstante Varianz möglicherweise nicht korrigieren.

Wenn Sie Regression lernen und Ihnen der Ansatz gefällt, den ich in meinem Blog verwende, lesen Sie mein eBook!

Teile das:

Verwandt


Persönlichkeit, politische Fähigkeiten und Arbeitsleistung

Basierend auf der sozioanalytischen Perspektive der Leistungsprognose [Hogan, R. (1991). Persönlichkeits- und Persönlichkeitsbewertung. In M. D. Dunnette, L. Hough, (Hrsg.), Handbuch der Arbeits- und Organisationspsychologie (2. Aufl., S. 873–919). Chicago: Rand McNally Hogan, R., & Shelton, D. (1998). Eine sozialanalytische Perspektive auf die Arbeitsleistung. Menschliche Leistung, 11, 129–144.] untersucht die vorliegende Studie, ob Motive zu auskommen und zu komm voran Leistung steigern, wenn sie interaktiv mit sozialer Effektivität kombiniert werden. Konkret untersuchten wir, ob Interaktionen der Fünf-Faktoren-Modell-Konstrukte von Verträglichkeit und Gewissenhaftigkeit mit politischen Fähigkeiten die Arbeitsleistung vorhersagen. Unsere Ergebnisse unterstützten unsere Hypothese für die Interaktion zwischen Verträglichkeit und politischer Fähigkeit. Darüber hinaus stellten wir nach Korrektur der Unzuverlässigkeit und des eingeschränkten Bereichs der Gewissenhaftigkeit fest, dass seine Interaktion mit politischen Fähigkeiten auch die Arbeitsleistung signifikant vorhersagte, wenn auch nicht genau wie angenommen. Implikationen der Ergebnisse und Richtungen für zukünftige Forschung werden gegeben.


Was ist die Formel zur Korrektur der Bereichsbeschränkung, wenn Sie die Standardabweichung der unbeschränkten Gruppe nicht kennen? - Psychologie

    Gravetter, F.J., Wallnau, L.B. (1996). Statistik für die Verhaltenswissenschaften:
    Ein erster Kurs für Studierende der Psychologie und Pädagogik, 4. Auflage.
    New York: West Publishing.
    Kapitel 16: Korrelation und Regression

Korrelation ist eine statistische Technik, die die Beziehung zwischen zwei Variablen misst und beschreibt.

    Beachten Sie, dass dies bedeutet, dass von jeder Person mindestens zwei Werte vorliegen müssen, eine für jede der beiden Variablen.

Betrachten Sie das folgende Beispiel:

Datensatz Streudiagramm
Ja
x

1) Die Richtung der Beziehung

positive Korrelation (eine positive Zahl) bedeutet, dass sich die beiden Variablen tendenziell in die gleiche Richtung bewegen. Das heißt, wenn einer größer wird, wird auch der andere größer.

2) Die Form der Beziehung

    3) Der Grad der Beziehung

    Eine Korrelation misst auch die "Stärke" der Beziehung zwischen X und Y. Eine Korrelation hat einen Wert zwischen -1 und +1. Eine Korrelation von 0 bedeutet, dass kein Zusammenhang besteht. Eine +1 bedeutet, dass zwischen zwei eine positive "perfekte Korrelation" besteht, und eine -1 bedeutet, dass eine negative perfekte Korrelation besteht.

Warum (und wann) verwenden wir Korrelationen?

Vorhersage - Wenn wir wissen, dass zwei Variablen eng miteinander verbunden sind, können wir möglicherweise den Wert der einen anhand des Wertes der anderen vorhersagen.

Gültigkeit - Wenn Sie einen neuen Test (TEST A) für X entwickeln und wissen möchten, ob er wirklich X misst, dann können Sie sehen, ob TEST A mit Dingen korreliert, von denen Sie bereits wissen, dass sie mit X korrelieren.

Zuverlässigkeit - Wenn Sie denselben Test zweimal an denselben Personen durchführen, können Sie die beiden Punktesätze korrelieren. Wenn der Test zuverlässig ist, sollte er beide Male ähnliche Ergebnisse liefern, was eine hohe Korrelation ergibt

Okay, wie quantifizieren wir die Idee der Korrelation? Es gibt eine Reihe von verschiedenen Korrelationen, wir konzentrieren uns auf das gebräuchlichste Maß, die Pearson-Produkt-Moment-Korrelation.

    Das ist konzeptionell gemeint, aber was genau bedeutet das?

Denken Sie daran, dass eine "perfekte Korrelation" r = 1.0 (oder -1.0) ist. Das bedeutet, dass die Zahl im Zähler gleich der Zahl im Nenner ist. Unten haben wir zwei Dinge, wie viel ändert sich X und wie viel ändert sich Y. Oben haben wir, wie viel sich X und Y zusammen ändern. Wenn diese drei Teile das Gleiche ergeben, dann haben wir und r = 1.0.

jetzt überlegen wir, wie wir eigentlich Rechner.

müssen ein neues Konzept einführen: Summe der Produkte von Abweichungen (SP)

    Dies ist das Definitionsformel mit anderen Worten, wir berechnen die Durchschnittswerte für X und Y. Dann ermitteln wir für jeden Punkt, wie weit jeder Punkt von diesen Mittelwerten entfernt ist, multiplizieren dann die X- und Y-Abweichungen und addieren sie dann alle.

          wir können SP auch berechnen mit a Berechnungsformel:

        Okay, jetzt berechnen wir die Pearson-Korrelation (r).

        mit anderen Worten, wir haben oben SP, das ist unser Maß für die Kovariabilität von X und Y. Unten haben wir unser Maß für die Variabilität von X allein und Y allein

        Es gibt also eine ziemlich starke positive Korrelation, da wir mit steigendem X voraussagen können, dass Y es auch wird.

          1) Die Richtung der Beziehung - positiv oder negativ
          2) Die Form der Beziehung - linear oder nichtlinear
          3) Der Grad der Beziehung – die „Stärke“ der Beziehung
          4) Korrelationen beschreiben eine Beziehung zwischen zwei Variablen, erklären aber NICHT, warum die Variablen zusammenhängen
          5) Korrelationen werden stark durch den Bereich der Punktzahlen in den Daten beeinflusst
          6) Extreme Werte können dramatische Auswirkungen auf Korrelationen haben
          7) Wenn wir uns überlegen, "wie gut" eine Beziehung ist, sollten wir wirklich r 2 berücksichtigen, nicht nur r.

        Schauen wir uns jeden Punkt etwas genauer an

        4) Korrelationen beschreiben eine Beziehung zwischen zwei Variablen, erklären aber NICHT, warum die Variablen zusammenhängen

          Der grundlegende Grund dafür ist, dass wir, die Experimentatoren, in einer Korrelationsstudie keine Kontrolle haben. Das heißt, wir manipulieren nicht eine (oder mehrere) Variable(n), während wir alles andere konstant halten.
            Infolgedessen können wir keine kausalen Behauptungen aufstellen

          a) Angenommen, Dr. Steward stellt fest, dass die Raten von verschüttetem Kaffee und die Schwere von Flugzeugturbulenzen stark positiv korreliert sind.

          korrelativ gesehen könnte man argumentieren, dass das Verschütten von Kaffee Turbulenzen verursacht

          b) Suppose that Dr. Cranium finds a positive correlation between head size and digit span (describe digit span).

          correlationally speaking, one might argue that people with bigger heads have bigger digit spans (instead of something like, head size and digit span increase with age)

          c) Suppose the Dr. Ruth finds a positive correlation between the number of baby's born and the rate of stork sightings (I believe that such a correlation has been reported)

          correlationally speaking, one might interpret this as support for the hypothesis that storks bring babies to home

          Often what you may find is that there is an other variable Z, that causes both X and Y, so X and Y may seem causally related, when they aren't

          5) Correlations are greatly affected by the range of scores in the data

            We've already seen an example of this. Consider the correlation between age and height.

          Suppose that in one study we look for a correlation between age and height, but we only test 0 to 10 yr olds. But in a second study we look for the same relationship but only test 25 to 25 yr olds. In the first case we will probably find a strong positive correlation, but in the later case we may find a near 0 correlation.

          Which correlation is correct? Both are, if considered with respect to the range represented in the data. We should conclude that the strong positive correlation exists for a restricted range. That is, from years 0 to 10, there is a strong positive correlation between age and height. (note: a non-linear function is appropriate for this relationship)

          7) When considering "how good" a relationship is, we really should consider r 2 , not just r.

          r 2 is called the coefficient of determination

          In other words, suppose that we find that the correlation (r) between height and weight is 0.76. We can use this information to predict a person's weight, if we know their height. But, notice that the correlation is not perfect, so we know that we may be off by a bit.

          But we also know that we'll be close. The r 2 for this relationship is (0.76) 2 = .578. What we can conclude from this is that 57.8% of the variability in weight can be accounted for from the relationship that it has with height.

          notice that if we do have a perfect correlation (r = 1.0), then r 2 = 1.0 2 = 1.0. So 100% of the variance in Y can be accounted for by X.

          Jawohl. We can test predictions about whether or not there is a relationship and even about what direction the relationship has. At the population level, a relationship is represented by rho ( r ), and at the sample level by our familar r.

            Two-tailed:

              h0: r = 0, there is no relationship between X&Y

              the only tricky part is remembering that df = n - 2

            Why subtract 2? Because we know two values, X & Y, so we lose two degrees of freedom.

            Lineare Regression - a brief introduction

            Let's start by talking about lines and graphs. Consider the follwing graph.

            So as X goes up by 1, Y goes up by 0.5. Das nennt man slope (b). This is a constant.

            Die intercept (a) is the value of Y when X = 0. This is also a constant.

            We can describe the line in the following linear equation:

            in other words, using the linear equation, we can determine the value of Y, if we know the values of X, b, & a

            - recall that predicting Y based on X is one of the main things that this chapter is all about

            Okay, now let's return to our scatter plots. Let's start with the case of r = 1.0.

            When we do a regression analysis, what we are doing is trying to find the line (and linear equation) that best fits the data points. For this example it is pretty easy. There is only one possible line that makes sense to fit to this set of data.

            Now let's look at a case when the correlation is not perfect.

            Now it isn't as easy. Clearly no single straight line will fit each data point (that is, you can't draw a single line through all of the data points). In fact it is not too hard to imagine several different possible lines fitting to this data. What we want is the line (and linear equation) the fits the best.

            What does it mean to be the line that best fits the data?

              Basically what we want to do is minimize the error. That is, the line that differs the least from all of the data points is the best fitting line.

              remember what the line is, it is a formula (a linear equation) that predicts the value of Y given X, a, & b. So what we want to do is pick the line that gives the best estimate of Y. That is, the line that makes the smallest error in estimating all of the Y values.

              We find the least-squares solution

              To get this we'll look at each point, and compare the actual value for Y with the predicted value of Y (called , or (pronounced "Y-hat")

            SSError = total squared error = formula

            We get the values from the line, and the Y values from the actual data points

                The formula for the slope of the best fitting line is:

              The formula for the intercept of the best fitting line is:

              slope = b = SP/SSX = 14/64 = .22

              intercept = a = - b = 2.0 - (.22)(6.0) = .68

              So the regression equation is:

              = .22(X) + .68

              So now we have our regression equation for these data. We can use this equation to predict Y, given values of X. However, there are some precautions that we will need to consider when interpreting the regression.

                1) The predicted value is not perfect (unless r = 1.0). Notice that none of the data points actually fit exactly on the line. So there is error. Die standard error of the estimate describes the typical error in using to estimate Y.

                First we need our total squared error

              Then we'll divide that by our degrees of freedom (which gives us a measure of variance, or mean squared error)

              remember that df = n - 2

              Then finally, to get the standard error of the estimate we take the square root of the whole thing (like standard deviation)

              So in the end we end up with:

              An easier way to compute SError is to use the correlational information.

              SSError = (1 - r 2 )SSJa = (1 - (+0.875) 2 )(4) = (1 - .766)(4) = .9375


              Inhalt

              Although Mann and Whitney [1] developed the Mann–Whitney U test under the assumption of continuous responses with the alternative hypothesis being that one distribution is stochastically greater than the other, there are many other ways to formulate the null and alternative hypotheses such that the Mann–Whitney U test will give a valid test. [2]

              A very general formulation is to assume that:

              1. All the observations from both groups are independent of each other,
              2. The responses are at least ordinal (i.e., one can at least say, of any two observations, which is the greater),
              3. Under the null hypothesis H0, the distributions of both populations are equal. [3]
              4. The alternative hypothesis h1 is that the distributions are not equal.

              Under the general formulation, the test is only consistent when the following occurs under h1:

              1. The probability of an observation from population x exceeding an observation from population Ja is different (larger, or smaller) than the probability of an observation from Ja exceeding an observation from X i.e., P(x > Ja) ≠ P(Ja > x) or P(x > Ja) + 0.5 · P(x = Ja) ≠ 0.5 .

              Under more strict assumptions than the general formulation above, e.g., if the responses are assumed to be continuous and the alternative is restricted to a shift in location, i.e., F1(x) = F2(x + δ) , we can interpret a significant Mann–Whitney U test as showing a difference in medians. Under this location shift assumption, we can also interpret the Mann–Whitney U test as assessing whether the Hodges–Lehmann estimate of the difference in central tendency between the two populations differs from zero. The Hodges–Lehmann estimate for this two-sample problem is the median of all possible differences between an observation in the first sample and an observation in the second sample.

              Otherwise, if both the dispersions and shapes of the distribution of both samples differ, the Mann-Whitney U test fails a test of medians. It is possible to show examples, where medians are numerically equal, while the test rejects the null hypothesis with a small p-value. [4] [5]

              The Mann–Whitney U test / Wilcoxon rank-sum test is not the same as the Wilcoxon signed-rank test, although both are nonparametric and involve summation of ranks. The Mann–Whitney U test is applied to independent samples. The Wilcoxon signed-rank test is applied to matched or dependent samples.

              The test involves the calculation of a statistic, usually called U, whose distribution under the null hypothesis is known. In the case of small samples, the distribution is tabulated, but for sample sizes above

              20, approximation using the normal distribution is fairly good. Some books tabulate statistics equivalent to U, such as the sum of ranks in one of the samples, rather than U selbst.

              The Mann–Whitney U test is included in most modern statistical packages. It is also easily calculated by hand, especially for small samples. Dazu gibt es zwei Möglichkeiten.

              For comparing two small sets of observations, a direct method is quick, and gives insight into the meaning of the U statistic, which corresponds to the number of wins out of all pairwise contests (see the tortoise and hare example under Examples below). For each observation in one set, count the number of times this first value wins over any observations in the other set (the other value loses if this first is larger). Count 0.5 for any ties. The sum of wins and ties is U (i.e.: U 1 > ) for the first set. U for the other set is the converse (i.e.: U 2 > ).

              1. Assign numeric ranks to all the observations (put the observations from both groups to one set), beginning with 1 for the smallest value. Where there are groups of tied values, assign a rank equal to the midpoint of unadjusted rankings. E.g., the ranks of (3, 5, 5, 5, 5, 8) are (1, 3.5, 3.5, 3.5, 3.5, 6) (the unadjusted rank would be (1, 2, 3, 4, 5, 6) ).
              2. Now, add up the ranks for the observations which came from sample 1. The sum of ranks in sample 2 is now determined, since the sum of all the ranks equals n(n + 1)/2 where n is the total number of observations.
              3. U is then given by: [6]

              The maximum value of U is the product of the sample sizes for the two samples (i.e.: U i = n 1 n 2 =n_<1>n_<2>> ). In such a case, the "other" U would be 0.

              Illustration of calculation methods Edit

              Suppose that Aesop is dissatisfied with his classic experiment in which one tortoise was found to beat one hare in a race, and decides to carry out a significance test to discover whether the results could be extended to tortoises and hares in general. He collects a sample of 6 tortoises and 6 hares, and makes them all run his race at once. The order in which they reach the finishing post (their rank order, from first to last crossing the finish line) is as follows, writing T for a tortoise and H for a hare:

              What is the value of U?

              • Using the direct method, we take each tortoise in turn, and count the number of hares it beats, getting 6, 1, 1, 1, 1, 1, which means that U = 11 . Alternatively, we could take each hare in turn, and count the number of tortoises it beats. In this case, we get 5, 5, 5, 5, 5, 0, so U = 25. Note that the sum of these two values for U = 36 , which is 6×6 .
              • Using the indirect method:

              Example statement of results Edit

              In reporting the results of a Mann–Whitney U test, it is important to state:

              • A measure of the central tendencies of the two groups (means or medians since the Mann–Whitney U test is an ordinal test, medians are usually recommended)
              • The value of U (perhaps with some measure of effect size, such as common language effect size or rank-biserial correlation).
              • The sample sizes
              • The significance level.

              In practice some of this information may already have been supplied and common sense should be used in deciding whether to repeat it. A typical report might run,

              "Median latencies in groups E and C were 153 and 247 ms the distributions in the two groups differed significantly (Mann–Whitney U = 10.5 , n1 = n2 = 8 , P < 0.05 two-tailed)."

              A statement that does full justice to the statistical status of the test might run,

              "Outcomes of the two treatments were compared using the Wilcoxon–Mann–Whitney two-sample rank-sum test. The treatment effect (difference between treatments) was quantified using the Hodges–Lehmann (HL) estimator, which is consistent with the Wilcoxon test. [7] This estimator (HLΔ) is the median of all possible differences in outcomes between a subject in group B and a subject in group A. A non-parametric 0.95 confidence interval for HLΔ accompanies these estimates as does ρ, an estimate of the probability that a randomly chosen subject from population B has a higher weight than a randomly chosen subject from population A. The median [quartiles] weight for subjects on treatment A and B respectively are 147 [121, 177] and 151 [130, 180] kg. Treatment A decreased weight by HLΔ = 5 kg (0.95 CL [2, 9] kg, 2P = 0.02 , ρ = 0.58 )."

              However it would be rare to find so extended a report in a document whose major topic was not statistical inference.

              For large samples, U is approximately normally distributed. In that case, the standardized value

              wo mU und σU are the mean and standard deviation of U, is approximately a standard normal deviate whose significance can be checked in tables of the normal distribution. mU und σU are given by

              The formula for the standard deviation is more complicated in the presence of tied ranks. If there are ties in ranks, σ should be corrected as follows:

              wo n = n1 + n2 , Tich is the number of subjects sharing rank ich, und k is the number of (distinct) ranks.

              If the number of ties is small (and especially if there are no large tie bands) ties can be ignored when doing calculations by hand. The computer statistical packages will use the correctly adjusted formula as a matter of routine.

              Note that since U1 + U2 = n1n2 , the mean n1n2/2 used in the normal approximation is the mean of the two values of U. Therefore, the absolute value of the z statistic calculated will be same whichever value of U wird genutzt.

              It is a widely recommended practice for scientists to report an effect size for an inferential test. [9] [10]

              Proportion of concordance out of all pairs Edit

              The following three measures are equivalent.

              Common language effect size Edit

              One method of reporting the effect size for the Mann–Whitney U test is with F, the common language effect size. [11] [12] As a sample statistic, the common language effect size is computed by forming all possible pairs between the two groups, then finding the proportion of pairs that support a direction (say, that items from group 1 are larger than items from group 2). [12] To illustrate, in a study with a sample of ten hares and ten tortoises, the total number of ordered pairs is ten times ten or 100 pairs of hares and tortoises. Suppose the results show that the hare ran faster than the tortoise in 90 of the 100 sample pairs in that case, the sample common language effect size is 90%. This sample value is an unbiased estimator of the population value, so the sample suggests that the best estimate of the common language effect size in the population is 90%. [13]

              Die Beziehung zwischen F and the Mann–Whitney U (specifically U 1 > ) is as follows:

              Ρ statistic Edit

              A statistic called ρ that is linearly related to U and widely used in studies of categorization (discrimination learning involving concepts), and elsewhere, [14] is calculated by dividing U by its maximum value for the given sample sizes, which is simply n1×n2 . ρ is thus a non-parametric measure of the overlap between two distributions it can take values between 0 and 1, and it is an estimate of P(Ja > x) + 0.5 P(Ja = x) , where x und Ja are randomly chosen observations from the two distributions. Both extreme values represent complete separation of the distributions, while a ρ of 0.5 represents complete overlap. The usefulness of the ρ statistic can be seen in the case of the odd example used above, where two distributions that were significantly different on a Mann–Whitney U test nonetheless had nearly identical medians: the ρ value in this case is approximately 0.723 in favour of the hares, correctly reflecting the fact that even though the median tortoise beat the median hare, the hares collectively did better than the tortoises collectively. [ Zitat benötigt ]

              Area-under-curve (AUC) statistic for ROC curves Edit

              Die U statistic is equivalent to the area under the receiver operating characteristic curve (AUC) that can be readily calculated. [15] [16]

              Note that this is the same definition as the common language effect size from the section above. i.e.: the probability that a classifier will rank a randomly chosen positive instance higher than a randomly chosen negative one (assuming 'positive' ranks higher than 'negative'). [17]

              Because of its probabilistic form, the U statistic can be generalised to a measure of a classifier's separation power for more than two classes: [18]

              Where C is the number of classes, and the Rk, term of AUCk, considers only the ranking of the items belonging to classes k und (i.e., items belonging to all other classes are ignored) according to the classifier's estimates of the probability of those items belonging to class k. AUCk,k will always be zero but, unlike in the two-class case, generally AUCk, ≠ AUC,k , which is why the m measure sums over all (k,) pairs, in effect using the average of AUCk, and AUC,k.

              Rank-biserial correlation Edit

              A method of reporting the effect size for the Mann–Whitney U test is with a measure of rank correlation known as the rank-biserial correlation. Edward Cureton introduced and named the measure. [19] Like other correlational measures, the rank-biserial correlation can range from minus one to plus one, with a value of zero indicating no relationship.

              There is a simple difference formula to compute the rank-biserial correlation from the common language effect size: the correlation is the difference between the proportion of pairs favorable to the hypothesis (F) minus its complement (i.e.: the proportion that is unfavorable (du)). This simple difference formula is just the difference of the common language effect size of each group, and is as follows: [11]

              For example, consider the example where hares run faster than tortoises in 90 of 100 pairs. The common language effect size is 90%, so the rank-biserial correlation is 90% minus 10%, and the rank-biserial R = 0.80 .

              An alternative formula for the rank-biserial can be used to calculate it from the Mann–Whitney U (either U 1 > or U 2 > ) and the sample sizes of each group: [20]

              This formula is useful when the data are not available, but when there is a published report, because U and the sample sizes are routinely reported. Using the example above with 90 pairs that favor the hares and 10 pairs that favor the tortoise, U2 is the smaller of the two, so U2 = 10 . This formula then gives R = 1 – (2×10) / (10×10) = 0.80 , which is the same result as with the simple difference formula above.

              Comparison to Student's T-test Edit

              The Mann–Whitney U test tests a null hypothesis of that the probability that a randomly drawn observation from one group is larger than a randomly drawn observation from the other is equal to 0.5 against an alternative that this probability is not 0.5 (see Mann–Whitney U test#Assumptions and formal statement of hypotheses). In contrast, a t-test tests a null hypothesis of equal means in two groups against an alternative of unequal means. Hence, except in special cases, the Mann–Whitney U test and the t-test do not test the same hypotheses and should be compared with this in mind.

              Ordinal data The Mann–Whitney U test is preferable to the T-test when the data are ordinal but not interval scaled, in which case the spacing between adjacent values of the scale cannot be assumed to be constant. Robustness As it compares the sums of ranks, [21] the Mann–Whitney U test is less likely than the T-test to spuriously indicate significance because of the presence of outliers. However, the Mann-Whitney U test may have worse type I error control when data are both heteroscedastic and non-normal. [22] Efficiency When normality holds, the Mann–Whitney U test has an (asymptotic) efficiency of 3/ π or about 0.95 when compared to the T-Prüfung. [23] For distributions sufficiently far from normal and for sufficiently large sample sizes, the Mann–Whitney U test is considerably more efficient than the T. [24] This comparison in efficiency, however, should be interpreted with caution, as Mann-Whitney and the t-test do not test the same quantities. If, for example, a difference of group means is of primary interest, Mann-Whitney is not an appropriate test. [25]

              The Mann–Whitney U test will give very similar results to performing an ordinary parametric two-sample T-test on the rankings of the data. [26]

              Different distributions Edit

              Alternatives Edit

              If one desires a simple shift interpretation, the Mann–Whitney U test should nicht be used when the distributions of the two samples are very different, as it can give erroneous interpretation of significant results. [29] In that situation, the unequal variances version of the T-test may give more reliable results.

              Similarly, some authors (e.g., Conover [ vollständiges Zitat erforderlich ] ) suggest transforming the data to ranks (if they are not already ranks) and then performing the T-test on the transformed data, the version of the T-test used depending on whether or not the population variances are suspected to be different. Rank transformations do not preserve variances, but variances are recomputed from samples after rank transformations.

              The Brown–Forsythe test has been suggested as an appropriate non-parametric equivalent to the F-test for equal variances. [ Zitat benötigt ]

              A more powerful test is the Brunner-Munzel test, outperforming the Mann-Whitney U test in case of violated assumption of exchangeability. [30]

              Der Mann-Whitney U test is a special case of the Proportional odds model, allowing for covariate-adjustment. [31]

              Kendall's tau Edit

              The Mann–Whitney U test is related to a number of other non-parametric statistical procedures. For example, it is equivalent to Kendall's tau correlation coefficient if one of the variables is binary (that is, it can only take two values). [ Zitat benötigt ]

              In many software packages, the Mann–Whitney U test (of the hypothesis of equal distributions against appropriate alternatives) has been poorly documented. Some packages incorrectly treat ties or fail to document asymptotic techniques (e.g., correction for continuity). A 2000 review discussed some of the following packages: [32]

                has ranksum in its Statistics Toolbox. 's statistics base-package implements the test wilcox.test in its "stats" package.
              • The R package
              • wilcoxonZ will calculate the z statistic for a Wilcoxon two-sample, paired, or one-sample test. implements the test in its PROC NPAR1WAY procedure. has an implementation of this test provided by SciPy[33] (SPSS Inc., Chicago, IL) (SPSS Inc., Chicago, IL) has an implementation of this test provided by Apache Commons[34] has implementations of this test through several packages. In the package HypothesisTests.jl, this is found as pvalue(MannWhitneyUTest(X, Y)) [35] (SAS Institute Inc., Cary, NC) (MathSoft, Inc., Seattle, WA) (StatSoft, Inc., Tulsa, OK) (Unistat Ltd, London) (SPSS Inc, Chicago) (StatsDirect Ltd, Manchester, UK) implements all common variants. (Stata Corporation, College Station, TX) implements the test in its ranksum command. (Cytel Software Corporation, Cambridge, Massachusetts) implements the test in its WILCOXON function.

              The statistic appeared in a 1914 article [36] by the German Gustav Deuchler (with a missing term in the variance).

              In a single paper in 1945, Frank Wilcoxon proposed [37] both the one-sample signed rank and the two-sample rank sum test, in a test of significance with a point null-hypothesis against its complementary alternative (that is, equal versus not equal). However, he only tabulated a few points for the equal-sample size case in that paper (though in a later paper he gave larger tables).

              A thorough analysis of the statistic, which included a recurrence allowing the computation of tail probabilities for arbitrary sample sizes and tables for sample sizes of eight or less appeared in the article by Henry Mann and his student Donald Ransom Whitney in 1947. [1] This article discussed alternative hypotheses, including a stochastic ordering (where the cumulative distribution functions satisfied the pointwise inequality Fx(T) < FJa(T) ). This paper also computed the first four moments and established the limiting normality of the statistic under the null hypothesis, so establishing that it is asymptotically distribution-free.


              Calculation of sample size

              The use of statistical formulas for determining the sample size implies, first of all, the choice of a significant benchmark for the measures to be made based on the results provided by the qualitative research to be performed, usually, the researcher has, in this sense, two alternatives:

              It can monitor the measurement of variables and determine specific indicators that express their evolution. Thus, the researcher can follow the determination of the frequency of visit of a commercial unit and the appropriate indicator describing this variable to be the weekly average frequency of visiting the group in question, in the specialized literature, the choice of this alternative is designated under the concept of sampling in relation to the variables investigated.

              It may be aimed at evaluating specific attributes of the investigated marketing phenomenon. For example, the researcher may pursue the identification of consumers’ preferences for the interior arrangement of a commercial unit, this evaluating a set of representative attributes for the interior design, in the specialized literature, the choice of this alternative is designated under the sampling concept with the investigated characteristics.


              Statistical errors are common in scientific literature, and about 50% of the published articles have at least one error (1). Many of the statistical procedures including correlation, regression, t tests, and analysis of variance, namely parametric tests, are based on the assumption that the data follows a normal distribution or a Gaussian distribution (after Johann Karl Gauss, 1777�) that is, it is assumed that the populations from which the samples are taken are normally distributed (2-5). The assumption of normality is especially critical when constructing reference intervals for variables (6). Normality and other assumptions should be taken seriously, for when these assumptions do not hold, it is impossible to draw accurate and reliable conclusions about reality (2, 7).

              With large enough sample sizes (> 30 or 40), the violation of the normality assumption should not cause major problems (4) this implies that we can use parametric procedures even when the data are not normally distributed (8). If we have samples consisting of hundreds of observations, we can ignore the distribution of the data (3). According to the central limit theorem, (a) if the sample data are approximately normal then the sampling distribution too will be normal (b) in large samples (> 30 or 40), the sampling distribution tends to be normal, regardless of the shape of the data (2, 8) and (c) means of random samples from any distribution will themselves have normal distribution (3). Although true normality is considered to be a myth (8), we can look for normality visually by using normal plots (2, 3) or by significance tests, that is, comparing the sample distribution to a normal one (2, 3). It is important to ascertain whether data show a serious deviation from normality (8). The purpose of this report is to overview the procedures for checking normality in statistical analysis using SPSS.


              Schau das Video: Varians og spredning (Dezember 2021).