Grundlagen der Statistik: Begriffe, Variablen und Analyse
Eingeordnet in Mathematik
Geschrieben am in Deutsch mit einer Größe von 7,77 KB
Grundlegende Statistische Begriffe
Bevölkerung und Elemente
Bevölkerung: Alle Personen oder Objekte, deren Merkmale untersucht werden.
Elemente: Personen oder Sachen, die Teil der Bevölkerung sind.
Variable und Stichprobe
Variable: Die Eigenschaft oder Frage, welche die Studie untersucht.
Stichprobe: Ein Teil der Bevölkerung, der untersucht wird, um die Ergebnisse auf die gesamte Bevölkerung zu verallgemeinern.
Arten von Variablen
Quantitative Variablen
Quantitative Variablen werden in numerischen Werten ausgedrückt.
- Diskrete Variablen: Werte, die als ganze Zahlen ausgedrückt werden und keine Dezimalstellen unterstützen.
- Kontinuierliche Variablen: Werte, die als Zahlen ausgedrückt werden und Dezimalstellen unterstützen.
Qualitative Variablen (Kategoriale Variablen)
Qualitative Variablen (im Original als „Variablen im Internet“ bezeichnet) werden in Text oder Kategorien ausgedrückt.
- Geordnete Variablen: Variablen, die eine angenommene Reihenfolge besitzen (z. B. Schulnoten).
- Ungeordnete Variablen: Variablen, die keine natürliche Reihenfolge unterstützen (z. B. Farben).
Datenquellen
Primärquellen
Quellen, die Informationen aus erster Hand liefern (z. B. Interviews und Umfragen).
Sekundärquellen
Quellen, die auf Reflexionen der Primärdaten basieren (z. B. Volkszählungen, Register von IBESTAT oder INE).
Statistische Tabellen und Häufigkeiten
Für eine Studie müssen zunächst die Daten gesammelt und dann in einer Tabelle organisiert werden.
Absolute Häufigkeit
Die Anzahl, wie oft ein bestimmter Wert der Variablen in der Stichprobe auftritt.
Relative Häufigkeit
Das Ergebnis der Division der absoluten Häufigkeit durch die Stichprobengröße.
Absolute Summenhäufigkeit (Kumulierte Häufigkeit)
Die Anzahl der Werte, die kleiner oder gleich dem aktuellen Wert der Variablen sind. Die kumulierten Werte werden addiert.
Hinweise zur Tabellenerstellung
Wenn die Anzahl der Werte der Variablen sehr hoch ist, sollten die Daten in Gruppen (Klassen) zusammengefasst werden. Ist die Anzahl klein, kann die Tabelle direkt erstellt werden. Eine zu große Anzahl von Intervallen kann die Lesbarkeit erschweren; eine zu kleine Anzahl kann zum Verlust von Informationen führen.
Grafische Darstellung von Daten
Um eine erfolgreiche grafische Darstellung zu gewährleisten, sollte die Achse bei 0 beginnen. Die Abstände zwischen den Intervallen sollten gleich sein. Die Art der Grafik sollte entsprechend den zu repräsentierenden Informationen gewählt werden.
Säulendiagramm (Column Graph)
Im Gegensatz zum Histogramm sind keine kontinuierlichen Abstände auf der horizontalen Achse erforderlich, da die Werte nicht kontinuierlich sind. Die Höhe der Rechtecke hängt vom Wert der Variablen ab.
Balkendiagramm (Bar Graph)
Ähnlich dem Säulendiagramm, jedoch sind die Achsen gedreht und die Rechtecke horizontal angeordnet.
Liniendiagramm (Line Graph)
Besteht aus Punkten, die die Werte für jede Achse darstellen. Diese Punkte werden mit einer Linie verbunden.
Proportionsdiagramm
Verwendet Prozentangaben, um die Häufigkeit von Variablen darzustellen.
Streudiagramm (Dispersion Graph)
Dient zur Darstellung der Streuung zwischen den beobachteten Werten. Erfordert kontinuierliche quantitative Variablen.
Maße der Zentralisierung (Quantitative Variablen)
Arithmetisches Mittel
Die Summe aller Werte der Variablen, geteilt durch die Stichprobengröße.
Median
Der zentrale Wert einer Datenreihe, die in aufsteigender oder absteigender Reihenfolge angeordnet ist.
Modus
Der Wert der Variablen, der am häufigsten auftritt (die höchste absolute Häufigkeit besitzt).
Quartil
Jeder der drei Punkte, die die Häufigkeitsverteilung in vier gleiche Teile unterteilen.
Streuungsmaße
Mittlere Abweichung (Mean Deviation)
Besteht darin, die Differenz zwischen den einzelnen Variablenwerten und dem Mittelwert zu finden und diese durch die Stichprobengröße zu teilen.
Varianz
Besteht darin, die Abweichungen zu quadrieren, um negative Vorzeichen zu eliminieren.
Standardabweichung
Die Quadratwurzel der Varianz.
Variationskoeffizient
Besteht darin, die Standardabweichung durch den Mittelwert zu teilen. Das Ergebnis drückt die relative Streuung in Prozent aus.
Lorenz-Kurve
Ein Diagramm, das die Konzentration einer Verteilung zeigt. Es wird eine gerade Diagonale ab Punkt 0 gezogen. Wenn die Kurve näher an der Diagonalen liegt, bedeutet dies, dass die Konzentration geringer ist, und umgekehrt.
Bivariate Assoziationen
Unabhängige und Abhängige Variablen
Unabhängige Variable: Die Variable, die nicht durch eine andere Variable verändert wird.
Abhängige Variable: Die Variable, deren Verhalten von der unabhängigen Variablen beeinflusst wird.
Form und Stärke der Beziehung
Form: Die Werte der beiden Variablen können in einem Koordinatensystem dargestellt werden. Wenn die Punkte auf einer Geraden oder Kurve liegen, besteht eine Beziehung zwischen den Variablen.
Stärke: Zeigt an, ob die Beziehung zwischen zwei Variablen signifikant ist oder nicht.
Korrelationskoeffizient
Bestimmt die Stärke und die Richtung einer Beziehung. Er ist positiv, wenn die Richtung aufwärts geht, und negativ, wenn die Richtung abwärts geht.
Spearman-Koeffizient
Wird verwendet, um die Korrelation zwischen zwei Variablen auf der Grundlage ihrer Ordnungszahlen zu kalibrieren. Die tatsächlichen Werte werden durch Ordnungszahlen ersetzt, um sie besser zu organisieren.
Pearson-Koeffizient
Wird verwendet, um die Korrelation zwischen zwei Variablen auf der Grundlage ihrer tatsächlichen Werte zu kalibrieren.
Multivariate Analyse: Faktorenanalyse
Ziel der Faktorenanalyse
Eine Technik zur Reduzierung der Datendimension. Ziel ist es, die minimale Datenmenge zu finden, die das Maximum an in den Daten enthaltenen Informationen erklärt. Dies kann explorativ oder konfirmatorisch erfolgen.
Konfirmatorische Faktorenanalyse
Beinhaltet folgende Schritte:
- Array von räumlichen Informationen: Jede Variable hat Werte, die als Achse in einem Koordinatensystem dargestellt werden können.
- Korrelationsmatrix: Untersuchung des Grades der Verbindung zwischen zwei Variablen.
- Faktor-Array / Extraktion von Faktoren: Zeigt die Beziehung zwischen Faktoren und Variablen.
- Rotation der Faktoren: Dient dazu, die Achsen zu drehen, um die Faktoren darzustellen und die maximale Annäherung der Variablen zu erreichen. Versucht, die Korrelation zwischen Variablen und Faktoren zu verbessern.
- Interpretation der Faktoren: Versucht, den Inhalt jedes Faktors anhand seiner Zusammensetzung zu verstehen.
Explorative Faktorenanalyse
Beinhaltet folgende Schritte:
- Auswahl von Variablen: Variablen werden nicht zufällig gewählt, um bereits einen positiven Faktor zu gewährleisten.
- Maße der Ähnlichkeit oder Distanz: Definiert durch die Nähe und den Typ der Variablen, gegeben durch den Umfang der Messung.
- Clustering-Algorithmus / Hierarchische Verfahren: Verfahren, das Gruppierung oder Desaggregation beinhaltet.