Im StatistikenDer Begriff robust oder robust bezieht sich auf die Stärke eines statistischen Modells, von Tests und Verfahren gemäß den spezifischen Bedingungen der statistischen Analyse, die eine Studie erreichen möchte. Unter der Voraussetzung, dass diese Bedingungen einer Studie erfüllt sind, können die Modelle mithilfe mathematischer Beweise auf ihre Richtigkeit überprüft werden.
Viele Modelle basieren auf idealen Situationen, die bei der Arbeit mit realen Daten nicht vorhanden sind. Infolgedessen liefert das Modell möglicherweise korrekte Ergebnisse, auch wenn die Bedingungen nicht genau erfüllt sind.
Robuste Statistiken sind daher alle Statistiken, die eine gute Leistung erbringen, wenn Daten aus einem breiten Spektrum von Daten abgerufen werden Wahrscheinlichkeitsverteilungen, die von Ausreißern oder kleinen Abweichungen von Modellannahmen in einem bestimmten Bereich weitgehend unberührt bleiben Datensatz. Mit anderen Worten, eine robuste Statistik ist resistent gegen Fehler in den Ergebnissen.
Eine Möglichkeit, ein allgemein gängiges robustes statistisches Verfahren zu beobachten, besteht darin, nicht weiter als t-Verfahren zu suchen, bei denen Hypothesentests verwendet werden, um die genauesten statistischen Vorhersagen zu ermitteln.
T-Prozeduren beobachten
Als Beispiel für Robustheit werden wir betrachten t-Prozeduren, zu denen die Konfidenzintervall für einen Populationsmittelwert mit unbekannter Populationsstandardabweichung sowie Hypothesentests zum Populationsmittelwert.
Die Verwendung von t-Verfahren setzt Folgendes voraus:
- Der Datensatz, mit dem wir arbeiten, ist a einfache Zufallsstichprobe der Bevölkerung.
- Die Population, aus der wir eine Stichprobe gezogen haben, ist normal verteilt.
In der Praxis mit Beispielen aus der Praxis haben Statistiker selten eine normalverteilte Bevölkerung, daher lautet die Frage stattdessen: „Wie robust sind unsere t-Verfahren? "
Im Allgemeinen ist die Bedingung, dass wir eine einfache Zufallsstichprobe haben, wichtiger als die Bedingung, dass wir eine Stichprobe aus einer normalverteilten Population gezogen haben; Der Grund dafür ist, dass der zentrale Grenzwertsatz eine Stichprobenverteilung gewährleistet, die ungefähr ist normal - je größer unsere Stichprobengröße ist, desto näher liegt die Stichprobenverteilung des Stichprobenmittelwerts normal.
Wie T-Prozeduren als robuste Statistik funktionieren
Also Robustheit für t-Verfahren hängen von der Stichprobengröße und der Verteilung unserer Stichprobe ab. Überlegungen hierzu sind:
- Wenn die Stichprobengröße groß ist, was bedeutet, dass wir 40 oder mehr Beobachtungen haben, dann t-Prozeduren können auch bei verzerrten Verteilungen verwendet werden.
- Wenn die Stichprobengröße zwischen 15 und 40 liegt, können wir verwenden t-Verfahren für jede geformte Verteilung, es sei denn, es gibt Ausreißer oder einen hohen Grad an Schiefe.
- Wenn die Stichprobengröße weniger als 15 beträgt, können wir verwenden t- Verfahren für Daten, die keine Ausreißer, einen einzelnen Peak und nahezu symmetrisch haben.
In den meisten Fällen wurde die Robustheit durch technische Arbeit in der mathematischen Statistik hergestellt. Glücklicherweise müssen wir diese fortgeschrittenen mathematischen Berechnungen nicht unbedingt durchführen, um richtig zu arbeiten benutze sie; Wir müssen nur verstehen, was die allgemeinen Richtlinien für die Robustheit unserer spezifischen statistischen Methode sind.
T-Prozeduren fungieren als robuste Statistiken, da sie in der Regel eine gute Leistung für diese Modelle liefern, indem die Größe der Stichprobe in die Grundlage für die Anwendung des Verfahrens einbezogen wird.