Konfidenzintervall für die Differenz zweier Bevölkerungsanteile

Vertrauensintervalle sind ein Teil von Inferenzstatistik. Die Grundidee hinter diesem Thema besteht darin, den Wert einer unbekannten Population zu schätzen Parameter unter Verwendung einer statistischen Stichprobe. Wir können nicht nur den Wert eines Parameters schätzen, sondern auch unsere Methoden anpassen, um die Differenz zwischen zwei verwandten Parametern zu schätzen. Zum Beispiel möchten wir vielleicht den Unterschied zwischen dem Prozentsatz der männlichen US-Wahlbevölkerung, die ein bestimmtes Gesetz unterstützt, und der weiblichen Wahlbevölkerung ermitteln.

Wir werden sehen, wie diese Art der Berechnung durchgeführt wird, indem ein Konfidenzintervall für die Differenz zweier Bevölkerungsanteile erstellt wird. Dabei werden wir einen Teil der Theorie hinter dieser Berechnung untersuchen. Wir werden einige Ähnlichkeiten darin sehen, wie wir a konstruieren Konfidenzintervall für einen einzelnen Bevölkerungsanteil sowie ein Konfidenzintervall für die Differenz zweier Populationsmittel.

instagram viewer

Allgemeines

Bevor wir uns die spezifische Formel ansehen, die wir verwenden werden, betrachten wir den Gesamtrahmen, in den diese Art von Konfidenzintervall passt. Die Form des Konfidenzintervalltyps, den wir betrachten werden, wird durch die folgende Formel angegeben:

Schätzung +/- Fehlerquote

Viele Konfidenzintervalle sind von diesem Typ. Es gibt zwei Zahlen, die wir berechnen müssen. Der erste dieser Werte ist die Schätzung für den Parameter. Der zweite Wert ist die Fehlerquote. Diese Fehlerquote erklärt die Tatsache, dass wir eine Schätzung haben. Das Konfidenzintervall liefert uns einen Bereich möglicher Werte für unseren unbekannten Parameter.

Bedingungen

Wir sollten sicherstellen, dass alle Bedingungen erfüllt sind, bevor wir eine Berechnung durchführen. Um ein Konfidenzintervall für die Differenz zweier Bevölkerungsanteile zu finden, müssen wir sicherstellen, dass Folgendes gilt:

  • Wir haben zwei einfache Zufallsstichproben aus großen Populationen. Hier bedeutet "groß", dass die Population mindestens 20-mal größer ist als die Größe der Stichprobe. Die Stichprobengrößen werden mit bezeichnet n1 und n2.
  • Unsere Personen wurden unabhängig voneinander ausgewählt.
  • In jeder unserer Stichproben gibt es mindestens zehn Erfolge und zehn Misserfolge.

Wenn das letzte Element in der Liste nicht erfüllt ist, gibt es möglicherweise einen Weg, dies zu umgehen. Wir können das ändern Plus-Vier-Konfidenzintervall Bau und erhalten robuste Ergebnisse. Im weiteren Verlauf gehen wir davon aus, dass alle oben genannten Bedingungen erfüllt sind.

Proben und Bevölkerungsanteile

Jetzt sind wir bereit, unser Konfidenzintervall zu konstruieren. Wir beginnen mit der Schätzung der Differenz zwischen unseren Bevölkerungsanteilen. Beide Bevölkerungsanteile werden anhand eines Stichprobenanteils geschätzt. Diese Stichprobenanteile sind Statistiken, die durch Teilen der Anzahl der Erfolge in jeder Stichprobe und anschließendes Teilen durch die jeweilige Stichprobengröße ermittelt werden.

Der erste Bevölkerungsanteil wird mit bezeichnet p1. Wenn die Anzahl der Erfolge in unserer Stichprobe aus dieser Population beträgt k1, dann haben wir einen Stichprobenanteil von k1 / n1.

Wir bezeichnen diese Statistik mit p̂1. Wir lesen dieses Symbol als "p1-hat "weil es aussieht wie das Symbol p1 mit einem Hut oben drauf.

In ähnlicher Weise können wir einen Stichprobenanteil aus unserer zweiten Population berechnen. Der Parameter aus dieser Population ist p2. Wenn die Anzahl der Erfolge in unserer Stichprobe aus dieser Population beträgt k2und unser Stichprobenanteil ist p̂2 = k2 / n2.

Diese beiden Statistiken werden zum ersten Teil unseres Konfidenzintervalls. Die Schätzung von p1 ist p̂1. Die Schätzung von p2 ist p̂2. Also die Schätzung für den Unterschied p1 - p2 ist p̂1 - p̂2.

Stichprobenverteilung der Differenz der Stichprobenanteile

Als nächstes müssen wir die Formel für die Fehlerquote erhalten. Dazu betrachten wir zunächst die Stichprobenverteilung von p̂1 . Dies ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p1 und n1 Versuche. Der Mittelwert dieser Verteilung ist der Anteil p1. Die Standardabweichung dieser Art von Zufallsvariablen hat eine Varianz von p1 (1 - p1 )/n1.

Die Stichprobenverteilung von p̂2 ist ähnlich dem von p̂1 . Ändern Sie einfach alle Indizes von 1 auf 2 und wir haben eine Binomialverteilung mit dem Mittelwert von p2 und Varianz von p2 (1 - p2 )/n2.

Wir brauchen nun einige Ergebnisse aus der mathematischen Statistik, um die Stichprobenverteilung von p̂ zu bestimmen1 - p̂2. Der Mittelwert dieser Verteilung ist p1 - p2. Aufgrund der Tatsache, dass sich die Varianzen addieren, sehen wir, dass die Varianz der Stichprobenverteilung ist p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. Die Standardabweichung der Verteilung ist die Quadratwurzel dieser Formel.

Es gibt einige Anpassungen, die wir vornehmen müssen. Das erste ist, dass die Formel für die Standardabweichung von p̂1 - p̂2 verwendet die unbekannten Parameter von p1 und p2. Wenn wir diese Werte wirklich kennen würden, wäre dies natürlich überhaupt kein interessantes statistisches Problem. Wir müssten den Unterschied zwischen nicht schätzen p1 und p2.. Stattdessen könnten wir einfach die genaue Differenz berechnen.

Dieses Problem kann behoben werden, indem ein Standardfehler anstelle einer Standardabweichung berechnet wird. Alles, was wir tun müssen, ist, die Bevölkerungsanteile durch Stichprobenanteile zu ersetzen. Standardfehler werden anhand von Statistiken anstelle von Parametern berechnet. Ein Standardfehler ist nützlich, da er eine Standardabweichung effektiv schätzt. Für uns bedeutet dies, dass wir den Wert der Parameter nicht mehr kennen müssen p1 und p2. .Da diese Stichprobenanteile bekannt sind, wird der Standardfehler durch die Quadratwurzel des folgenden Ausdrucks angegeben:

1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.

Der zweite Punkt, den wir ansprechen müssen, ist die besondere Form unserer Stichprobenverteilung. Es stellt sich heraus, dass wir eine Normalverteilung verwenden können, um die Stichprobenverteilung von p̂ zu approximieren1 - p̂2. Der Grund dafür ist etwas technisch, wird aber im nächsten Absatz erläutert.

Beide p̂1 und P2 eine binomiale Stichprobenverteilung haben. Jede dieser Binomialverteilungen kann durch eine Normalverteilung recht gut angenähert werden. Also p̂1 - p̂2 ist eine Zufallsvariable. Es wird als lineare Kombination zweier Zufallsvariablen gebildet. Jedes von diesen wird durch eine Normalverteilung angenähert. Daher ist die Stichprobenverteilung von p̂1 - p̂2 ist auch normal verteilt.

Konfidenzintervallformel

Wir haben jetzt alles, was wir brauchen, um unser Konfidenzintervall zusammenzustellen. Die Schätzung ist (p̂1 - p̂2) und die Fehlerquote beträgt z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Der Wert, für den wir eingeben z * wird durch das Maß an Vertrauen bestimmt C. Häufig verwendete Werte für z * sind 1,645 für 90% Vertrauen und 1,96 für 95% Vertrauen. Diese Werte für z * bezeichnen den Teil der Standardnormalverteilung, wo genau C. Prozent der Verteilung liegt zwischen -z * und z *.

Die folgende Formel gibt uns ein Konfidenzintervall für die Differenz zweier Bevölkerungsanteile:

(p̂1 - p̂2) +/- z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5