Grundlagen der Statistik: Definitionen und Konzepte

Eingeordnet in Mathematik

Geschrieben am in Deutsch mit einer Größe von 9,42 KB

Grundlegende Begriffe

Bevölkerung

Bevölkerung: Ist die Gesamtheit der Daten, auf die die statistische Untersuchung abzielt.

Stichprobe

Beispiel (Stichprobe): Ein Teil oder eine Teilmenge der Bevölkerung. Methoden zur Auswahl dieser Teilmenge werden als Stichprobenverfahren bezeichnet.

Stichprobe (Definition)

Stichprobe: Eine Auswahl von Elementen, die mit gleicher Wahrscheinlichkeit für die Auswahl gewählt wurden.

Nicht-Zufallsstichprobe

Nicht-Zufallsstichprobe: Besteht aus Elementen, die aufgrund einer vom Forscher festgelegten charakteristischen Eigenschaft ausgewählt wurden.

Zufallszahlentabelle

Tabelle von Zufallszahlen: Eine Reihe von Zahlen, die durch einen Computer generiert wird.

Fachrichtungen der Statistik

Die Statistik hat zwei Hauptrichtungen:

  • Deskriptive Statistik: Untersucht, wie Daten präsentiert und dargestellt werden, sowie die Berechnung bestimmter Kennzahlen.
  • Statistische Inferenz (Schlussfolgernde Statistik): Analysiert die Daten und trifft mithilfe der Wahrscheinlichkeitsrechnung Vorhersagen oder Entscheidungen für die Zukunft.

Variablen und Messniveaus

Variable

Variable: Die Eigenschaft von Elementen einer Population oder einer Stichprobe, die einen oder mehrere Werte annehmen kann.

Quantitative und Qualitative Variablen

  • Quantitative Variablen: Wenn die Variablen numerisch sind.
  • Qualitative Variablen: Wenn die Variablen keine Zahlen, sondern Eigenschaften darstellen.

Spezielle Variablentypen

  • Geordnete Variable: Wenn die Werte der Variablen geordnet werden können.
  • Diskrete Variablen: Wenn die Werte der Variablen ganze Zahlen sind.
  • Stetige Variable (Kontinuierliche Variable): Wenn die Werte der Variablen beliebige Zahlen (nicht nur ganze Zahlen) annehmen können.

Datenaufbereitung und Grenzen

Rundung

Rundung einer Zahl: Der Vorgang, eine Zahl auf die nächstgelegene angegebene Stelle zu runden.

Reelle Grenzen des Bereichs

Reelle Grenzen des Bereichs: Dies sind die tatsächlichen Grenzen der unteren und oberen Werte. Man erhält sie, indem man die Hälfte der kleinsten Einheit des letzten Dezimalplatzes vom unteren Wert subtrahiert und zur oberen Grenze addiert. Beispiel: Das Intervall zwischen 2,42 und 2,45 hat die reellen Grenzen 2,415 bis 2,455 (wobei 0,005 die Hälfte von 0,01 ist).

Mittelpunkt einer Reihe

Mittelpunkt einer Reihe (Klassenmitte): Die mittlere Zahl eines Intervalls, berechnet durch Addition der Endpunkte und anschließende Division durch 2. Sie repräsentiert alle Werte innerhalb des Bereichs.

Prozessdaten

Prozessdaten: Das Sortieren der durch Interviews usw. erhaltenen Daten. Dies beinhaltet die tabellarische Erfassung und die manuelle oder elektronische Kodierung.

Häufigkeitsverteilung

Range (Spannweite)

Range (Spannweite): Der Unterschied zwischen dem höchsten und dem niedrigsten Wert.

Häufigkeitsverteilung

Häufigkeitsverteilung: Eine Tabelle, die die Daten organisiert, typischerweise in Intervallen, zusammen mit ihrer jeweiligen Häufigkeit.

Absolute und Relative Häufigkeit

  • Absolute Häufigkeit: Die Anzahl der Male, die ein Wert oder ein Intervall auftritt, abgekürzt mit $n$ (oder $f$).
  • Relative Häufigkeit: Das Verhältnis der absoluten Häufigkeit zur Gesamtzahl der Daten ($N$). Abgekürzt als $f_r = \frac{f}{N}$.

Prozentuale Häufigkeit und Summenkurve

  • Prozentuale Häufigkeit: Die relative Häufigkeit multipliziert mit 100 (in Prozent). Abgekürzt als $f_p = \frac{f}{N} \times 100\%$.
  • Summenkurve (Kumulierte Häufigkeit): Für jeden Punkt bzw. jedes Intervall die Summe der Häufigkeiten aller vorhergehenden Klassen einschließlich der aktuellen. Abgekürzt als $f_a$.

Intervallmaße

  • Reelle Grenzen: Die Endpunkte, die bei der Betrachtung eines Intervalls berücksichtigt werden.
  • Breite oder Länge eines Intervalls: Die positive Differenz zwischen den oberen und unteren reellen Grenzen des zulässigen Bereichs.
  • Klassenmarke oder Mittelwert des Intervalls: Die Summe der oberen und unteren reellen Grenzen des zulässigen Bereichs, geteilt durch 2. Wenn das Intervall $[a, b]$, ist die Klassenmarke $\frac{1}{2}(a + b)$.

Grafische Darstellung

Koordinatensystem

Rechtwinkliges Koordinatensystem: Besteht aus zwei senkrechten Achsen, die als Referenz zur Lokalisierung von Punkten in der Ebene dienen.

Koordinaten eines Punktes

Koordinaten eines Punktes: Das geordnete Paar von Zahlen $(x, y)$, das einen Punkt in der Ebene darstellt, wobei $x$ die Abszisse (Maß auf der X-Achse) und $y$ die Ordinate (Maß auf der Y-Achse) ist.

Symbole und Diagramme

  • Symbol: Eine grafische Darstellung, die Bilder verwendet, um auf die Eigenschaft oder die betrachtete Variable hinzuweisen.
  • Kreisdiagramm: Die Darstellung einer Häufigkeitsverteilung durch einen Kreis, wobei ein zentraler Winkel proportional zur relativen Häufigkeit ($f_p$) gebildet wird.
  • Balkendiagramm: Eine Grafik, die jeder Klasse eine Säule zuordnet, deren Höhe proportional zu ihrer Häufigkeit ist.
  • Histogramm: Ein Diagramm, das auf jedem Klassenintervall ein Rechteck darstellt, dessen Basis die Breite des Intervalls und dessen Höhe die Frequenz ist.
  • Häufigkeitspolygon: Ein Polygon, das durch Verbindungslinien der Punkte (Klassenmarken, Frequenz) entsteht und grafisch an der X-Achse endet.

Kurvenformen

Beschreibung einer Verteilung

Beschreibung eines Diagramms: Bedeutet, Ähnlichkeiten mit einer geglätteten Kurve zu suchen, um festzustellen, ob die Verteilung symmetrisch, asymmetrisch oder multimodal ist.

  • Normalverteilung (Glockenkurve): Eine Kurve, die glockenförmig und symmetrisch ist.
  • Asymmetrische Kurven (Schiefe): Wenn die Glockenform verzerrt ist (nicht symmetrisch). Ist der „Schwanz“ rechts, ist die Schiefe positiv; ist er links, ist die Schiefe negativ.
  • Multimodale Kurve: Eine Kurve, die mehrere Spitzen oder Maxima aufweist.

Ogive (Kumulierte Häufigkeitskurve)

Ogive (Kumulierte Häufigkeitskurve): Die grafische Darstellung der Verteilung der kumulierten Häufigkeiten ($f_a$), gebildet durch Verbindungslinien der Punkte (reelle Grenzen der Intervalle mit kumulierten Häufigkeiten). Die Ogive steigt, wenn $f_a$ den Grenzen zugeordnet ist, und ist fallend, wenn die gleichen Grenzen für die gesamte Ergänzung der Daten gegeben sind.

Maße der zentralen Tendenz

Zentrale Tendenz

Maße der zentralen Tendenz (Zentralwerte): Ein zentraler Wert einer Zahlenreihe (Daten), der die gesamte Menge repräsentiert. Auch als Durchschnitt bezeichnet. Die bekanntesten sind: das arithmetische Mittel, der Modus und der Median.

  • Arithmetisches Mittel (Durchschnitt): Die zentrale Maßzahl einer Reihe von Werten, berechnet durch Addition aller Werte und Division durch die Gesamtzahl der Daten (Kardinalität der Menge).
  • Modus: Das Maß der Zentralisierung einer Reihe von Werten, das die höchste Frequenz in der Menge aufweist.
  • Median: Das Maß der zentralen Tendenz einer Reihe von Werten, das die Daten teilt, wenn sie in natürliche Zahlenreihenfolge sortiert sind.

Lageparameter

  • Quartil: Ein Maß, das einem Viertel oder 25% der Häufigkeitsverteilung entspricht: $Q_1$ bei 25%, $Q_2$ bei 50% der Daten.
  • Dezil: Ein Maß, das jedem Zehntel oder 10% der Häufigkeitsverteilung entspricht: $D_1$ bei 10%, $D_2$ bei 20%, $D_8$ bei 80%.
  • Perzentil: Ein Maß, das jedem Hundertstel oder 1% der Häufigkeitsverteilung entspricht: $P_1$ bei 1%, $P_{24}$ bei 24%, $P_{99}$ bei 99%.

Maße der Dispersion

Dispersion

Maße der Dispersion einer Verteilung: Ein Wert, der angibt, wie weit die Daten voneinander entfernt sind oder wie stark sie um einen zentralen Wert gruppiert sind. Bemerkenswert sind die Spannweite und die Standardabweichung.

  • Amplitude oder Spannweite: Bei einer Datenreihe der Unterschied zwischen dem höchsten und dem niedrigsten Wert der Verteilung.
  • Varianz (Abweichung): Bei einem Datensatz oder einer Häufigkeitsverteilung das arithmetische Mittel der quadrierten Differenzen der Daten im Verhältnis zu ihrem arithmetischen Mittel.
  • Standardabweichung: Die Quadratwurzel der Varianz.
  • Variationskoeffizient: Das Verhältnis der Standardabweichung zum arithmetischen Mittel.

Verwandte Einträge: