Angenommen Reihenfolge der DatenEine Frage, die wir uns vielleicht fragen, ist, ob die Sequenz durch zufällige Phänomene entstanden ist oder ob die Daten nicht zufällig sind. Zufälligkeit ist schwer zu identifizieren, da es sehr schwierig ist, Daten einfach zu betrachten und festzustellen, ob sie allein durch Zufall erzeugt wurden oder nicht. Eine Methode, mit der festgestellt werden kann, ob eine Sequenz tatsächlich zufällig aufgetreten ist, wird als Lauftest bezeichnet.
Der Lauftest ist ein Signifikanztest oder Hypothesentest. Das Verfahren für diesen Test basiert auf einem Lauf oder einer Sequenz von Daten, die ein bestimmtes Merkmal aufweisen. Um zu verstehen, wie der Lauftest funktioniert, müssen wir zuerst das Konzept eines Laufs untersuchen.
Datensequenzen
Wir beginnen mit einem Beispiel für Läufe. Betrachten Sie die folgende Folge von zufälligen Ziffern:
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Eine Möglichkeit, diese Ziffern zu klassifizieren, besteht darin, sie in zwei Kategorien aufzuteilen, entweder gerade (einschließlich der Ziffern 0, 2, 4, 6 und 8) oder ungerade (einschließlich der Ziffern 1, 3, 5, 7 und 9). Wir werden uns die Folge von Zufallszahlen ansehen und die geraden Zahlen als E und die ungeraden Zahlen als O bezeichnen:
E E O E E O E E E E E E E E O O.
Die Läufe sind leichter zu erkennen, wenn wir dies so umschreiben, dass alle Os zusammen und alle Es zusammen sind:
EE O EE OO E O EEEEE O EE OO
Wir zählen die Anzahl der Blöcke mit geraden oder ungeraden Zahlen und sehen, dass es insgesamt zehn Läufe für die Daten gibt. Vier Läufe haben die Länge eins, fünf die Länge zwei und einer die Länge fünf
Bedingungen
Mit jedem Test der SignifikanzEs ist wichtig zu wissen, welche Bedingungen für die Durchführung des Tests erforderlich sind. Für den Lauftest können wir jeden Datenwert aus der Stichprobe in eine von zwei Kategorien einteilen. Wir werden die Gesamtzahl der Läufe relativ zur Anzahl der Datenwerte zählen, die in jede Kategorie fallen.
Der Test wird ein zweiseitiger Test. Der Grund dafür ist, dass zu wenige Läufe bedeuten, dass es wahrscheinlich nicht genügend Variationen und die Anzahl der Läufe gibt, die bei einem zufälligen Prozess auftreten würden. Zu viele Läufe entstehen, wenn ein Prozess zu häufig zwischen den Kategorien wechselt, um zufällig beschrieben zu werden.
Hypothesen und P-Werte
Jeder Signifikanztest hat eine null und eine alternative Hypothese. Für den Lauftest lautet die Nullhypothese, dass die Sequenz eine zufällige Sequenz ist. Die alternative Hypothese ist, dass die Sequenz der Probendaten nicht zufällig ist.
Statistische Software kann die berechnen p-Wert das entspricht einer bestimmten Teststatistik. Es gibt auch Tabellen, die bei bestimmten Zahlen kritische Zahlen angeben Signifikanzniveau für die Gesamtzahl der Läufe.
Läuft Testbeispiel
Wir werden das folgende Beispiel durcharbeiten, um zu sehen, wie der Lauftest funktioniert. Angenommen, ein Schüler wird für eine Aufgabe gebeten, 16 Mal eine Münze zu werfen und die Reihenfolge der angezeigten Köpfe und Schwänze zu notieren. Wenn wir mit diesem Datensatz enden:
H T H H H T H T H T H T H H.
Wir können fragen, ob der Schüler tatsächlich seine Hausaufgaben gemacht hat oder ob er eine Reihe von H und T betrogen und aufgeschrieben hat, die zufällig aussehen? Der Lauftest kann uns helfen. Die Annahmen für den Lauftest werden erfüllt, da die Daten in zwei Gruppen eingeteilt werden können, entweder als Kopf oder als Schwanz. Wir machen weiter, indem wir die Anzahl der Läufe zählen. Beim Umgruppieren sehen wir Folgendes:
H T HHH TT H TT H T H T HH
Es gibt zehn Läufe für unsere Daten mit sieben Schwänzen und neun Köpfen.
Die Nullhypothese lautet, dass die Daten zufällig sind. Die Alternative ist, dass es nicht zufällig ist. Für ein Signifikanzniveau von Alpha von 0,05 sehen wir anhand der richtigen Tabelle, dass wir die Nullhypothese ablehnen, wenn die Anzahl der Läufe entweder kleiner als 4 oder größer als 16 ist. Da unsere Daten zehn Durchläufe enthalten, haben wir nicht ablehnen die Nullhypothese H.0.
Normale Annäherung
Der Lauftest ist ein nützliches Werkzeug, um festzustellen, ob eine Sequenz wahrscheinlich zufällig ist oder nicht. Für einen großen Datensatz ist es manchmal möglich, eine normale Näherung zu verwenden. Diese normale Annäherung erfordert, dass wir die Anzahl der Elemente in jeder Kategorie verwenden und dann den Mittelwert und die Standardabweichung der entsprechenden berechnen Normalverteilung.