Grundlagen und Begriffe der Statistik
Eingeordnet in Elektronik
Geschrieben am in Deutsch mit einer Größe von 5,88 KB
Was ist Statistik?
Statistik: Sammlung, Organisation, Zusammenfassung, Interpretation und Kommunikation von Daten.
Deskriptive Statistik
Beschreibt quantitativ eine Menge von Einheiten (Personen, Orten oder Dingen).
Inferenzstatistik
Ermöglicht Rückschlüsse auf eine größere Grundgesamtheit basierend auf einer Stichprobe.
Anwendungsbereiche: Gesundheit, Wirtschaft und Industrie.
Grundlegende Einheiten und Variablen
Einheit (Merkmalsträger)
Eine Einheit ist das Objekt der Untersuchung (z. B. eine Person, ein Ort oder eine Sache).
Variable
Eine Variable ist ein Merkmal, das bei den untersuchten Einheiten variieren kann und Gegenstand der Forschung ist.
Zufallsvariable
Eine Variable, deren Werte von zufälligen Ereignissen abhängen und deren genauer Wert vorab nicht vorhergesagt werden kann. Zufallsvariablen werden oft mit Großbuchstaben (z. B. X, Y, Z) dargestellt.
Kontinuierliche Variable
Eine Variable, die innerhalb eines bestimmten Bereichs jeden beliebigen Wert annehmen kann (z. B. Größe, Gewicht). Sie wird gemessen.
Diskrete Variable
Eine Variable, deren Werte nur bestimmte, zählbare Werte annehmen können, die oft durch Lücken voneinander getrennt sind (z. B. Anzahl der Kinder, Anzahl der Unfälle).
Quantitative Variable
Eine Variable, deren Werte numerische Ergebnisse von Messungen oder Zählungen sind. Beispiele: Größe, Gewicht, Temperatur, Blutdruck, Anzahl der Studienanfänger, Anzahl der Unfälle.
Qualitative Variable
Eine Variable, deren Werte Kategorien sind (z. B. Geschlecht, Farbe, Beruf).
Daten und ihre Darstellung
Häufigkeitsverteilung
Eine Darstellung der Werte oder Kategorien einer Variablen zusammen mit der Anzahl der Einheiten, die in jede Kategorie fallen.
Klassenintervalle
Bei gruppierten Daten werden die Werte in nicht überlappende Intervalle (Klassen) eingeteilt. Jedes Klassenintervall wird durch eine Untergrenze und eine Obergrenze definiert.
Kumulierte Häufigkeitsverteilung
Eine Darstellung der Häufigkeitsverteilung, bei der die Häufigkeiten aufsummiert werden. Sie zeigt, wie viele Werte kleiner oder gleich der Obergrenze eines Klassenintervalls sind.
Relative Häufigkeitsverteilung
Zeigt den Anteil oder Prozentsatz der Werte in den verschiedenen Klassen. Sie gibt Auskunft über die relative Häufigkeit oder den Anteil der Beobachtungen.
Histogramm
Stellt eine Häufigkeitsverteilung oder relative Häufigkeitsverteilung grafisch dar.
Merkmale:
- Auf der horizontalen Achse werden die Werte oder Klassenintervalle der Variablen abgetragen.
- Auf der vertikalen Achse wird die Häufigkeit (oder relative Häufigkeit) abgetragen.
- Jedes Klassenintervall wird durch einen Balken dargestellt.
- Die Breite der Balken entspricht der Breite der Klassenintervalle.
- Die Höhe eines Balkens entspricht der Häufigkeit der Werte im entsprechenden Klassenintervall. Hohe Balken repräsentieren hohe Frequenzen, kurze Balken niedrige Frequenzen.
Häufigkeitspolygon
Eine weitere grafische Darstellung einer Häufigkeitsverteilung.
Es wird konstruiert, indem die Mittelpunkte der Oberseiten der Balken eines Histogramms durch Geraden verbunden werden.
Merkmale:
- Die Endpunkte des Polygons werden in der Regel mit der horizontalen Achse verbunden, und zwar am Mittelpunkt eines imaginären Klassenintervalls links und rechts neben dem Histogramm.
- Die Fläche unter dem Häufigkeitspolygon entspricht der Fläche unter dem entsprechenden Histogramm.
Stichprobenziehung
Einfache Zufallsstichprobe
Ein Verfahren zur Auswahl einer Stichprobe aus einer Grundgesamtheit, das für die Inferenzstatistik verwendet wird.
Formen von Verteilungen
Leptokurtisch
Eine Verteilung, die in der Mitte stark konzentriert ist und "schwere" Enden hat (spitzer als die Normalverteilung).
Mesokurtisch
Eine Verteilung, die die Form einer Normalverteilung hat (mittlere Wölbung).
Platykurtisch
Eine Verteilung, die flacher ist als die Normalverteilung und weniger Konzentration in der Mitte aufweist.
Symmetrische Verteilung (Normalverteilung)
Eine Verteilung ist symmetrisch, wenn die linke und die rechte Hälfte spiegelbildlich sind (z. B. die Normalverteilung).
Rechteckige Verteilung
Eine Verteilung, bei der alle Werte innerhalb eines Bereichs die gleiche Häufigkeit haben.
U-förmige Verteilung
Eine Verteilung, bei der die Werte an den Enden des Bereichs häufiger vorkommen als in der Mitte.
Bimodale Verteilung
Eine Verteilung mit zwei Gipfeln, die auf das Vorhandensein von zwei Untergruppen in den Daten hindeuten kann.
Maße der zentralen Tendenz
Eine einzelne Zahl, die den Mittelpunkt einer Datenreihe beschreibt.
Arithmetischer Mittelwert (Durchschnitt)
Die Summe aller Werte geteilt durch die Anzahl der Werte.
Hinweis: Bei gruppierten Daten wird oft der Mittelpunkt des Klassenintervalls als repräsentativer Wert verwendet.
Median
Der Wert, der eine geordnete Datenreihe in zwei gleich große Hälften teilt.
Modus
Der Wert, der in einer Datenreihe am häufigsten vorkommt.
Streuungsmaße
Spannweite
Die Differenz zwischen dem größten und dem kleinsten Wert in einer Datenreihe.
Varianz
Ein Maß für die Streuung der Daten um den Mittelwert. Sie wird berechnet, indem die quadrierten Abweichungen vom Mittelwert aufsummiert und durch die Anzahl der Werte minus 1 (bei einer Stichprobe) geteilt werden.
Standardabweichung
Die Quadratwurzel der Varianz. Sie ist ein häufig verwendetes Maß für die Streuung und hat die gleiche Einheit wie die Originaldaten.