Im StatistikenEs gibt viele Begriffe, die subtile Unterschiede zwischen ihnen haben. Ein Beispiel hierfür ist der Unterschied zwischen Frequenz und relative Frequenz. Obwohl es viele Verwendungen für relative Frequenzen gibt, gibt es insbesondere eine, die ein relatives Frequenzhistogramm beinhaltet. Dies ist eine Art Diagramm, das Verbindungen zu anderen Themen in der Statistik und der mathematischen Statistik aufweist.
Definition
Histogramme sind statistische Diagramme, die aussehen Balkendiagramme. Typischerweise ist jedoch der Begriff Histogramm reserviert für quantitativ Variablen. Die horizontale Achse eines Histogramms ist eine Zahlenlinie, die enthält Klassen oder Behälter von einheitlicher Länge. Diese Fächer sind Intervalle einer Zahlenreihe, in die Daten fallen können und aus einer einzelnen Zahl bestehen können (normalerweise für diskret relativ kleine Datensätze) oder ein Wertebereich (für größere diskrete Datensätze und kontinuierlich Daten).
Zum Beispiel könnten wir daran interessiert sein, die Verteilung der Punktzahlen in einem 50-Punkte-Quiz für eine Klasse von Schülern zu berücksichtigen. Eine Möglichkeit, die Behälter zu konstruieren, besteht darin, für jeweils 10 Punkte einen anderen Behälter zu haben.
Die vertikale Achse eines Histogramms repräsentiert die Anzahl oder Häufigkeit, mit der ein Datenwert in jedem der Bins auftritt. Je höher der Balken ist, desto mehr Datenwerte fallen in diesen Bereich von Bin-Werten. Um zu unserem Beispiel zurückzukehren: Wenn es fünf Schüler gibt, die mehr als 40 Punkte im Quiz erzielt haben, ist der Balken, der dem 40- bis 50-Behälter entspricht, fünf Einheiten hoch.
Frequenzhistogrammvergleich
Ein relatives Frequenzhistogramm ist eine geringfügige Modifikation eines typischen Frequenzhistogramms. Anstatt eine vertikale Achse für die Anzahl der Datenwerte zu verwenden, die in ein bestimmtes Fach fallen, verwenden wir diese Achse, um den Gesamtanteil der Datenwerte darzustellen, die in dieses Fach fallen. Da 100% = 1 ist, müssen alle Balken eine Höhe von 0 bis 1 haben. Darüber hinaus müssen die Höhen aller Balken in unserem relativen Frequenzhistogramm 1 ergeben.
Nehmen wir in dem Beispiel an, das wir uns angesehen haben, dass 25 Schüler in unserer Klasse sind und fünf mehr als 40 Punkte erzielt haben. Anstatt einen Balken mit der Höhe fünf für diesen Behälter zu konstruieren, hätten wir einen Balken mit der Höhe 5/25 = 0,2.
Wenn wir ein Histogramm mit einem Histogramm der relativen Häufigkeit vergleichen, das jeweils die gleichen Fächer aufweist, werden wir etwas bemerken. Die Gesamtform der Histogramme ist identisch. Ein relatives Frequenzhistogramm betont nicht die Gesamtanzahl in jedem Bin. Stattdessen konzentriert sich dieser Diagrammtyp darauf, wie sich die Anzahl der Datenwerte im Bin auf die anderen Bins bezieht. Die Art und Weise, wie diese Beziehung angezeigt wird, erfolgt in Prozent der Gesamtzahl der Datenwerte.
Wahrscheinlichkeitsmassenfunktionen
Wir fragen uns vielleicht, worum es bei der Definition eines relativen Frequenzhistogramms geht. Eine Schlüsselanwendung betrifft diskrete Zufallsvariablen, bei denen unsere Bins die Breite eins haben und um jede nichtnegative Ganzzahl zentriert sind. In diesem Fall können wir eine stückweise Funktion mit Werten definieren, die den vertikalen Höhen der Balken in unserem relativen Frequenzhistogramm entsprechen.
Diese Art von Funktion wird als Wahrscheinlichkeitsmassenfunktion bezeichnet. Der Grund für die Konstruktion der Funktion auf diese Weise ist, dass die von der Funktion definierte Kurve eine direkte Verbindung zu hat Wahrscheinlichkeit. Der Bereich unter der Kurve aus den Werten ein zu b ist die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert von hat ein zu b.
Der Zusammenhang zwischen Wahrscheinlichkeit und Fläche unter der Kurve zeigt sich wiederholt in der mathematischen Statistik. Die Verwendung einer Wahrscheinlichkeitsmassenfunktion zur Modellierung eines relativen Frequenzhistogramms ist eine weitere solche Verbindung.