Statistik-Tutorial

Explorable.com23.5K reads

Dieses Statistik-Tutorial ist eine Anleitung,die Ihnen helfen soll, die zentralen Begriffe der Statistik sowie deren Funktion in wissenschaftlicher Methodik und Forschung zu verstehen.

Wissenschaftler verwenden häufig Statistiken zur Analyse ihrer Ergebnisse. Warum verwenden Forscher Statistiken? Die Statistik kann dabei helfen, ein Phänomen durch die Bestätigung oder Widerlegung einer Hypothese zu verstehen. Sie spielt für die meisten wissenschaftlichen Theorien eine wesentliche Rolle bei der Wissenserschließung.

Sie brauchen allerdings kein Wissenschaftler sein; für jeden, der mehr darüber lernen will, wie Forscher Statistiken für ihre Arbeit nutzen, kann dieses Statistik-Tutorial interessant sein.

Was ist Statistik?

Quiz 1 Quiz 2 Quiz 3 All Quizzes

Forschungsdaten

In diesem Abschnitt des Statistik-Tutorials wird erklärt, wie Daten erhoben und verwendet werden.

Die Ergebnisse einer wissenschaftlichen Untersuchung enthalten oft viel mehr Daten oder Informationen als der Forscher benötigt. Dieses Datenmaterial wird Primärdaten oder Rohdaten genannt.

Um die Daten sinnvoll analysieren zu können, werden die Primärdaten verarbeitet zu Sekundärdaten. Es gibt viele Methoden, um Daten zu verarbeiten, aber im Grunde ordnet und fasst der Wissenschaftler die Primärdaten zu einem sinnvollen Datenblock zusammen. Jede Art geordneter Informationen kann als Datenmenge bezeichnet werden.

Anschließend wenden Forscher unterschiedliche statistische Verfahren an, um die Daten besser (und genauer) verstehen zu können. Je nach Forschungsprojekt lassen sich die statistischen Daten zu deskriptiven Zwecken oder für eine explorative Forschung verwenden.

Primärdaten haben den Vorteil, dass man zur Grundlage zurückgehen und die Dinge nochmals überprüfen kann, wenn der Verdacht besteht, dass etwas anders ist, als man dachte. Das passiert in der Regel, nachdem die Bedeutung der Ergebnisse analysiert wurde.

Die Primärdaten können Ideen für neue Hypothesen liefern, da man einen besseren Blick auf den Sachverhalt hat. Sie können auch die Variablen kontrollieren, die Ergebnis beeinflussen könnten (z. B. Drittvariablen). In der Statistik ist ein Parameter jede numerische Größe, die eine bestimmte Grundgesamtheit oder einen bestimmten Aspekt derselben charakterisiert.

Zentrale Tendenz und Normalverteilung

Dieser Teil des Statistik-Tutorials soll Ihnen helfen, die Begriffe Verteilung, zentrale Tendenz und deren Zusammenhang mit Datenmengen zu verstehen.

Viele Daten aus der realen Welt sind normal verteilt, das heißt, sie folgen einer Häufigkeitskurve oder einer Häufigkeitsverteilung, bei welcher die häufigsten Punkte in der Nähe der Mitte liegen. Viele Experimente beruhen auf Normalverteilungsannahmen. Dies ist ein Grund, warum in der statistischen Forschung sehr oft die zentrale Tendenz gemessen wird, etwa anhand des Mittels (arithmetisches Mittel oder geometrisches Mittel), Medians (Zentralwert) oder Modus (Modalwert).

Die zentrale Tendenz kann eine recht guten Überblick über die Art der Daten bieten (Mittel, Median und Modus zeigen den "mittleren Wert"), insbesondere dann, wenn sie mit Messungen der Datenverteilung kombiniert wird. Wissenschaftler berechnen normalerweise die Standardabweichung, um zu messen, wie die Daten verteilt sind.

Es gibt allerdings verschiedene Methoden, um die Datenverteilung zu messen: Varianz, Standardabweichung, Standardfehler des Mittelwertes, Standardfehler der Schätzung oder "Spannweite" (d. h. die Extremwerte der Daten).

Um die Normalverteilung grafisch darzustellen, verwendet man normalerweise das arithmetische Mittel einer Probe, die groß genug ist, und man berechnet die Standardabweichung.

Allerdings liegt bei der Verteilung der Stichproben in der Regel keine Normalverteilung vor, wenn die Verteilung schief (assymmetrisch) ist oder Ausreißer hat (meist seltene Ergebnisse oder Messfehler), die die Daten durcheinander bringen. Ein Beispiel einer Verteilung, die nicht normal verteilt ist, ist die F-Verteilung, die nach rechts verzerrt ist.

Forscher prüfen daher mit Hilfe von Spannweite, Median und Modus doppelt, ob ihre Ergebnisse normal verteilt sind. Liegt keine Normalverteilung vor, beeinflusst dies die Wahl des statistischen Tests bzw. der Methode für die Analyse.

Andere Instrumente

Hypothesenprüfung - Statistik-Tutorial

Wie können wir herausfinden, ob eine Hypothese richtig ist oder falsch ist?

Warum verwendet man statistische Methoden zur Hypothesenprüfung?

Um Statistiken korrekt für Forschungszwecke anzuwenden, ist es nicht damit getan, statistische Formeln zu verwenden oder sich in Statistikprogramme einzuarbeiten.

Folgende Punkte bilden die Grundlage für ein erfolgreiches Arbeiten mit Statistiken:

  1. Erlernen statistischer Grundlagen
  2. Verständnis der Beziehung zwischen Wahrscheinlichkeit und Statistik
  3. Verständnis der beiden großen Zweige der Statistik: deskriptive Statistik und induktive Statistik.
  4. Verständnis, wie Statistiken sich zur wissenschaftlichen Methodik verhalten.

Bei der Statistik zu wissenschaftlichen Zwecken geht es nicht nur um Formeln und Berechnungen. (Das fehlende Verständnis der zentralen Begriffe der Statistik hat schon zu vielen falschen Schlüssen geführt)

Statistische Inferenzen helfen uns, aus Stichproben einer Grundgesamtheit Schlüsse zu ziehen.

Ein wichtiger Schritt bei der Durchführung von Experimenten ist das Gegenprüfen von Hypothesen. Daher bildet es ein wichtiges Element dieses Statistik-Tutorials.

Das Prüfen von Hypothesen findet anhand der Formulierung einer Alternativhypothese statt, die gegen die Nullhypothese, also die herrschende Meinung, geprüft wird. Hypothesen werden statistisch gegeneinander geprüft.

Der Forscher kann ein Konfidenzintervall herausarbeiten, wodurch die Grenzen definiert werden, ab wann ein Ergebnis die Nullhypothese oder die Alternativhypothese stützt.

Das bedeutet, dass nicht alle Abweichungen zwischen der Versuchsgruppe und der Kontrollgruppe als Stützung der Alternativhypothese akzeptiert werden können - das Ergebnis muss für den Forscher statistisch signifikant abweichen, um die Alternativhypothese akzeptieren zu können. Dies geschieht mit Hilfe eines Signifikanztests (weiterer Artikel).

Allerdings ist Vorsicht geboten, denn durch "data dregding", also das Sammeln von Daten ohne spätere Prüfung der Hypothese, kann man in einem kontrollierten Experiment leicht auf eine Ursache-Wirkungs-Beziehung schließen, obwohl kein Wahrheitsbezug besteht.

Je nach Hypothese sind einseitige oder zweiseitige Tests nötig.

Manchmal wird die Kontrollgruppe durch experimentelle Wahrscheinlichkeit ersetzt - wenn das Forschungsthema aus ethischer Sicht problematisch, aus wirtschaftlicher Sicht zu kostspielig oder zu zeitaufwendig ist, wird oft statt eines echten Experiments ein quasiexperimenteller Ansatz verfolgt.

Oft kommt es zu einem Publikationsbias, wenn der Forscher die Alternativhypothese für richtig hält, anstatt ein "Null-Ergebnis" zu erhalten und die Schlussfolgerung zu ziehen, dass die Nullhypothese die beste Erklärung liefert.

Bei richtiger Anwendung ermöglichen Statistiken es, Ursache-Wirkungs-Beziehungen zwischen Variablen zu verstehen.

Sie ermöglichen auch das Erkennen von Drittvariablen, wenngleich Statistiken auch dafür benutzt werden können, um Drittvariablen zu manipulieren und zu vertuschen, wenn derjenige, der die Zahlen vorlegt, mit seinen Ergebnissen keine ehrlichen Absichten verfolgt (oder nicht über ausreichende Kenntnisse verfügt).

Der Missbrauch von Statistiken ist ein weit verbreitetes Phänomen und wird wahrscheinlich so lange fortdauern, wie Menschen die Absicht haben, andere Menschen zu beeinflussen. Die ordnungsgemäße statistische Auswertung von experimentellen Daten kann dabei helfen, die Verwendung ethisch nicht vertretbarer statistischer Verfahren zu vermeiden. Die Philosophie der Statistik beschäftigt sich mit der Rechtfertigung der ordnungsgemäßen Verwendung statistischer Verfahren, der Sicherung der statistischen Validität sowie der Gewährleistung der ethischen Korrektheit von Statistiken.

Hier ein weiteres gutes Statistik-Tutorial mit Erklärungen zu Statistiken und wissenschaftlicher Methodik.

Reliabilität und experimentelle Fehler

Für statistische Tests werden aus Strichproben erhobene Daten verwendet. Diese Ergebnisse werden dann auf die Grundgesamtheit generalisiert. Wie können wir sicher sein, dass sie sich korrekt in der Ergebnis widerspiegeln?

Im Gegensatz zur weitläufigen Ansicht sind Fehler in der Forschung ein wesentlicher Bestandteil des Signifikanztests. Ironischerweise ist gerade die Möglichkeit, dass Forschungsfehler auftreten, charakteristisch für die wissenschaftliche Forschung. Wenn eine Hypothese nicht falsifiziert werden kann (z. B. wenn die Hypothese eine zirkuläre Logik aufweist), ist sie nicht überprüfbar und damit per Definition nicht wissenschaftlich.

Wenn eine Hypothese überprüfbar ist, ist es möglich, dass sie widerlegt wird. In der Statistik eröffnet dies die Möglichkeit, dass ein Ergebnis aufgrund von zufälligen Fehlern oder anderen Problemen in der Untersuchung experimentelle Fehler aufweist. Experimentelle Fehler lassen sich kategorisieren in Fehler 1. Art und Fehler 2. Art. ROC-Kurven werden verwendet, um die Sensitivität zwischen echten Positiven und falschen Positiven zu berechnen.

Eine Teststärke-Analyse eines statistischen Tests kann bestimmen, wie viele Stichproben ein Test benötigt, um einen akzeptablen p-Wert zu haben, damit eine falsche Nullhypothese abgelehnt werden kann.

Die Fehlerspanne hängt mit dem Konfidenzintervall und der Beziehung zwischen statistischer Signifikanz, Stichprobenumfang und den erwarteten Ergebnisse zusammen. Die Effektstärke schätzt die Stärke der Beziehung zwischen zwei Variablen innerhalb einer Grundgesamtheit ein. Sie ist hilfreich bei der Bestimmung des erforderlichen Stichprobenumfangs, um die Ergebnisse auf die Grundgesamtheit generalisieren zu können.

Wenn die Untersuchungsergebnisse generalisierbar waren oder auf ein zufälliges "Ausreißer-Experiment" zurückgehen, ist es außerdem wichtig, die Replikation einer durchgeführten Untersuchung zu verstehen. Die Replikation kann bei der Identifizierung sowohl von zufälligen Fehlern als auch von systematischen Fehlern (Testvalidität) helfen.

Cronbachs Alpha wird verwendet, um die interne Konsistenz oder Reliabilität eines Testergebnisses zu messen.

Die Replikation des Experiments bzw. der Untersuchung gewährleistet die statistische Zuverlässigkeit der Ergebnisse.

Wenn die Ergebnisse Ausreißer haben, tritt oft eine Regression zum Mittelwert auf, was die Ergebnisse zwischen Versuchs- und Kontrollgruppe nicht statistisch voneinander abweichen lässt.

Statistische Tests

Hier stellen wir Ihnen einige häufig verwendete statistische Tests und Verfahren vor, die von Forschern genutzt werden.

Beziehung zwischen Variablen

Die Beziehung zwischen Variablen ist von großer Bedeutung für Wissenschaftler. Sie hilft ihnen, das Wesen ihres Untersuchungsgegenstandes zu verstehen. Eine lineare Beziehung liegt vor, wenn zwei Variablen proportional zueinander variieren. Das heißt, wenn eine Variable steigt, steigt auch die andere Variable im gleichen Verhältnis. Eine nichtlineare Beziehung liegt vor, wenn Variablen nicht proportional zueinander variieren. Korrelation ist eine Möglichkeit, eine Beziehung zwischen zwei Datenmengen oder zwei Variablen auszudrücken.

Messskalen werden verwendet, um Variablen zu klassifizieren, zu kategorisieren und (falls zutreffend) zu quantifizieren.

Der Pearson-Korrelationskoeffizient (oder Pearson-Produkt-Moment-Korrelation) drückt nur die lineare Beziehung zwischen zwei Variablen aus. Spearmans Rangkorrelationskoeffizient wird vor allem für lineare Beziehungen verwendet, wenn mit ordinalen Variablen gearbeitet wird. Kendalls Tau kann für die Messung nichtlinearer Beziehungen verwendet werden.

Partielle Korrelation (und Multiple Korrelation) kann bei der Steuerung einer Drittvariable verwendet werden.

Prognosen

Prognosen dienen dazu, Ursachen zu verstehen. Korrelation bedeutet nicht zwangsläufig Kausation. Anhand der linearen Regression wird oft die manipulierte Variable gemessen.

Was ist der Unterschied zwischen Korrelation und linearer Regression? Grundsätzlich wird bei einer Korrelationsstudie die Stärke zwischen den Variablen untersucht, während es bei der linearen Regression um die am besten passende Linie in einem Diagramm geht.

Regressionsanalyse und andere Modellierungsinstrumente

Die Bayessche Wahrscheinlichkeit ist eine Möglichkeit, die Wahrscheinlichkeit künftiger Ereignisse auf interaktive Weise vorherzusagen, anstatt mit Messungen zu beginnen und anschließend Ergebnisse bzw. Prognosen zu erhalten.

Statistische Hypothesenprüfung

Der t-Test ist ein Test, der aufzeigen kann, ob die Nullhypothese richtig oder falsch ist. In der Forschung wird er häufig verwendet, um Unterschiede zwischen zwei Gruppen (z. B. zwischen einer Kontrollgruppe und einer Versuchsgruppe) zu testen.

Der t-Test nimmt an, dass die Daten mehr oder weniger normal verteilt sind und daß die Varianz gleich ist (dies lässt sich durch den F-Test testen).

t-Test:

Der Wilcoxon-Vorzeichen-Rang-Test kann für nichtparametrische Daten verwendet werden.

Ein z-Test ist ähnlich wie ein t-Test, wird aber gewöhnlich nicht bei Stichprobenumfängen unter 30 verwendet.

Ein Chi-Quadrat-Test kann verwendet werden, wenn die Daten eher qualitativer als quantitativer Natur sind.

Vergleich zwischen mehr als zwei Gruppen

Eine Varianzanalyse oder ANOVA wird durchgeführt, wenn es wünschenswert ist, zu testen, ob eher eine unterschiedliche Variabilität zwischen Gruppen vorliegt als andere Mittelwerte. Die Varianzanalyse kann auch bei mehr als zwei Gruppen angewandt werden. Die F-Verteilung kann für die Berechnung der p-Werte für die ANOVA benutzt werden.

Varianzanalyse

Nichtparametrische Statistik

Einige gängige Methode, bei der nichtparametrische Statistik angewandt wird:

Weitere wichtige Begriffe in der Statistik

Full reference: 

Explorable.com (Feb 13, 2008). Statistik-Tutorial. Retrieved Dec 12, 2024 from Explorable.com: https://explorable.com/de/statistik-tutorial

You Are Allowed To Copy The Text

The text in this article is licensed under the Creative Commons-License Attribution 4.0 International (CC BY 4.0).

This means you're free to copy, share and adapt any parts (or all) of the text in the article, as long as you give appropriate credit and provide a link/reference to this page.

That is it. You don't need our permission to copy the article; just include a link/reference back to this page. You can use it freely (with some kind of link), and we're also okay with people reprinting in publications like books, blogs, newsletters, course-material, papers, wikipedia and presentations (with clear attribution).

Want to stay up to date? Follow us!