Datenbereinigung für die Datenanalyse in der Soziologie

Die Datenbereinigung ist ein wesentlicher Bestandteil der Datenanalyse, insbesondere wenn Sie Ihre eigenen quantitativen Daten erfassen. Nachdem Sie die Daten gesammelt haben, müssen Sie sie in ein Computerprogramm wie z SAS, SPSS oder Excel. Während dieses Vorgangs treten Fehler auf, unabhängig davon, ob dies von Hand oder von einem Computerscanner ausgeführt wird. Unabhängig davon, wie sorgfältig die Daten eingegeben wurden, sind Fehler unvermeidlich. Dies kann zu falscher Codierung, falschem Lesen geschriebener Codes, falscher Erkennung geschwärzter Markierungen, fehlenden Daten usw. führen. Bei der Datenbereinigung werden diese Codierungsfehler erkannt und korrigiert.

Es gibt zwei Arten der Datenbereinigung, die für Datensätze durchgeführt werden müssen. Sie sind mögliche Code-Reinigung und Notfall-Reinigung. Beides ist für den Datenanalyseprozess von entscheidender Bedeutung, da Sie bei Nichtbeachtung fast immer irreführende Forschungsergebnisse liefern.

Mögliche Code-Reinigung

Jede gegebene Variable hat einen bestimmten Satz von Antwortmöglichkeiten und Codes, die zu jeder Antwortauswahl passen. Zum Beispiel die Variable

instagram viewer

Geschlecht Es gibt jeweils drei Antwortmöglichkeiten und Codes: 1 für Männer, 2 für Frauen und 0 für keine Antwort. Wenn Sie einen Befragten haben, der für diese Variable als 6 codiert ist, ist klar, dass ein Fehler gemacht wurde, da dies kein möglicher Antwortcode ist. Bei der Bereinigung mit möglichem Code wird überprüft, ob nur die Codes, die den Antwortoptionen für jede Frage zugewiesen sind (mögliche Codes), in der Datendatei angezeigt werden.

Einige für die Dateneingabe verfügbare Computerprogramme und Statistiksoftwarepakete prüfen diese Art von Fehlern bei der Dateneingabe. Hier definiert der Benutzer die möglichen Codes für jede Frage, bevor die Daten eingegeben werden. Wenn dann eine Nummer außerhalb der vordefinierten Möglichkeiten eingegeben wird, wird eine Fehlermeldung angezeigt. Wenn der Benutzer beispielsweise versucht hat, eine 6 für das Geschlecht einzugeben, piept der Computer möglicherweise und lehnt den Code ab. Andere Computerprogramme dienen zum Testen auf unzulässige Codes in vollständigen Datendateien. Das heißt, wenn sie während des Dateneingabeprozesses nicht wie oben beschrieben überprüft wurden, gibt es Möglichkeiten, die Dateien nach Abschluss der Dateneingabe auf Codierungsfehler zu überprüfen.

Wenn Sie kein Computerprogramm verwenden, das während der Dateneingabe nach Codierungsfehlern sucht, Sie können einige Fehler einfach lokalisieren, indem Sie die Verteilung der Antworten auf jedes Element in den Daten untersuchen einstellen. Sie können beispielsweise eine Häufigkeitstabelle für die Variable erstellen Geschlecht und hier würden Sie die Nummer 6 sehen, die falsch eingegeben wurde. Sie können dann nach diesem Eintrag in der Datendatei suchen und ihn korrigieren.

Notfallreinigung

Die zweite Art von Daten Die Reinigung wird als Notfallreinigung bezeichnet und ist etwas komplizierter als die Reinigung mit möglichem Code. Die logische Struktur der Daten kann den Antworten bestimmter Befragter oder bestimmten Variablen bestimmte Grenzen setzen. Bei der Notfallbereinigung wird überprüft, ob nur die Fälle, in denen Daten zu einer bestimmten Variablen vorliegen sollten, tatsächlich über solche Daten verfügen. Angenommen, Sie haben einen Fragebogen, in dem Sie die Befragten fragen, wie oft sie schwanger waren. Alle weiblichen Befragten sollten eine in den Daten codierte Antwort haben. Männer sollten jedoch entweder leer bleiben oder einen speziellen Code für die Nichtbeantwortung haben. Wenn beispielsweise Männer in den Daten mit 3 Schwangerschaften kodiert sind, wissen Sie, dass ein Fehler vorliegt und dieser korrigiert werden muss.

_Verweise

_{Babbie, E. (2001). Die Praxis der Sozialforschung: 9. Auflage. Belmont, Kalifornien: Wadsworth Thomson.}