Die Clusteranalyse ist eine statistische Methode, mit der ermittelt wird, wie verschiedene Einheiten - wie Personen, Gruppen oder Gesellschaften - aufgrund gemeinsamer Merkmale zu Gruppen zusammengefasst werden können. Es wird auch als Clustering bezeichnet und ist ein exploratives Datenanalysetool, das darauf abzielt, verschiedene Objekte so in Gruppen zu sortieren, dass sie bei Bedarf sortiert werden gehören derselben Gruppe an, sie haben einen maximalen Assoziationsgrad, und wenn sie nicht derselben Gruppe angehören, ist ihr Assoziationsgrad minimal. Im Gegensatz zu anderen statistische MethodenDie Strukturen, die durch Clusteranalyse aufgedeckt werden, müssen nicht erklärt oder interpretiert werden. Sie erkennen Strukturen in den Daten, ohne zu erklären, warum sie existieren.
Was ist Clustering?
Clustering gibt es in fast allen Bereichen unseres täglichen Lebens. Nehmen Sie zum Beispiel Gegenstände in einem Lebensmittelgeschäft. Verschiedene Arten von Gegenständen werden immer am selben oder in der Nähe ausgestellt - Fleisch, Gemüse, Soda, Müsli, Papierprodukte usw. Forscher möchten häufig dasselbe mit Daten tun und Objekte oder Subjekte in sinnvollen Clustern gruppieren.
Nehmen wir als Beispiel aus den Sozialwissenschaften an, wir betrachten Länder und möchten sie anhand von Merkmalen wie z Arbeitsteilung, Militärs, Technologie oder gebildete Bevölkerung. Wir würden feststellen, dass Großbritannien, Japan, Frankreich, Deutschland und die Vereinigten Staaten ähnliche Merkmale aufweisen und zusammen gruppiert würden. Uganda, Nicaragua und Pakistan würden ebenfalls in einem anderen Cluster zusammengefasst, da sie unterschiedliche Merkmale aufweisen. Dazu gehören ein geringes Wohlstandsniveau, einfachere Arbeitsteilung, relativ instabile und undemokratische politische Institutionen und niedrige technologische Entwicklung.
Die Clusteranalyse wird normalerweise in der Explorationsphase der Forschung verwendet, wenn der Forscher keine hat vorgefertigte Hypothesen. Dies ist normalerweise nicht die einzige statistische Methode, die verwendet wird, sondern wird in den frühen Phasen eines Projekts durchgeführt, um den Rest der Analyse zu steuern. Aus diesem Grund sind Signifikanztests in der Regel weder relevant noch angemessen.
Es gibt verschiedene Arten der Clusteranalyse. Die beiden am häufigsten verwendeten sind K-Mittel-Clustering und hierarchisches Clustering.
K-bedeutet Clustering
K-means Clustering behandelt die Beobachtungen in den Daten als Objekte mit Positionen und Abständen voneinander (beachten Sie, dass die beim Clustering verwendeten Abstände häufig keine räumlichen Abstände darstellen). Es partitioniert die Objekte in K sich gegenseitig ausschließende Cluster, sodass die Objekte in jedem Cluster wie folgt sind möglichst nah beieinander und gleichzeitig so weit wie möglich von Objekten in anderen Clustern entfernt. Jeder Cluster wird dann durch seine charakterisiert Mittelwert oder Mittelpunkt.
Hierarchisches Clustering
Hierarchisches Clustering ist eine Möglichkeit, Gruppierungen in den Daten gleichzeitig über eine Vielzahl von Skalen und Entfernungen zu untersuchen. Dazu wird ein Clusterbaum mit verschiedenen Ebenen erstellt. Im Gegensatz zu K-bedeutet Clustering ist der Baum keine einzelne Gruppe von Clustern. Der Baum ist vielmehr eine mehrstufige Hierarchie, in der Cluster auf einer Ebene als Cluster auf der nächsthöheren Ebene verbunden werden. Der verwendete Algorithmus beginnt mit jedem Fall oder jeder Variablen in einem separaten Cluster und kombiniert dann Cluster, bis nur noch einer übrig ist. Auf diese Weise kann der Forscher entscheiden, welche Clusterstufe für seine Forschung am besten geeignet ist.
Durchführen einer Clusteranalyse
Die meisten Statistik-Softwareprogramme kann eine Clusteranalyse durchführen. Wählen Sie in SPSS analysieren dann aus dem Menü klassifizieren und Clusteranalyse. In SAS wird die Proc-Cluster Funktion kann verwendet werden.
aktualisiert von Nicki Lisa Cole, Ph. D.