brauchbare Statistik

Statistik

für Elke

[home]

Statistik unter R für Linux

Test auf Normalverteilung:

Shapiro-Wilk-Test

> shapiro.test(VARIABLE)

wenn W groß und p nicht signifikant, dann ist Verteilung annähernd normal
Signifikanz bedeutet, daß die Daten nicht normal verteilt sind

QQ-Plot auf Normalvertelung

> qqnorm(VARIABLE)

plottet

> qqline(VARIABLE)

legt Gerade in Plot, welche durch 1. und 3. Quartile verläuft

nichtparametrischer Test - 2 unabhängige Stichproben

Mann-Whithney-U Test: in R = Wilcoxon Test mit paired=FALSE

> wilcox.test(x, y, mu = 0, alternative = c("two.sided", "less", "greater"), paired = FALSE, exact = NULL, correct = TRUE, conf.int =FALSE, conf.level = 0.95)

Kolmogorov-Smirnov Test - 2 unabhängige Stichproben

> ks.test(x, y, alternative = c("two.sided", "less", "greater"), exact = NULL)

Kruskal-Wallis test - 2 bis viele Stichproben

> kruskal.test(list(DATENSATZ$VARIABLE1, DATENSATZ$VARIABLE2, DATENSATZ$VARIABLEn)

Multiple logistische Regression

>g <- glm(ZIELVARIABLE ~ ERKLäRENDE VAR1 + ERKLäRENDE VAR2 + ... + ERKLäRENDE VARn , binomial)

>summary(g)

wird nur b i n o m i a l angegeben entspricht das dem Standard-family-Argument binomial und dem logit-Zusatz für logistische Regression
eventuell noch Korrelationsanalyse der abhängigen Variablen machen, um beim Ausschlußverfahren-Modell richtig selektieren zu können. (>summary(g, corr=T))

AIC: Akaikes Information Criterion

Ausgabewert bei der glm

Der AIC-Wert an sich hat keine besondere Bedeutung. Er wird erst interessant, wenn er mit anderen AIC-Werten einer vorgegebenen Modellreihe verglichen wird. Das Modell mit dem kleinsten AIC-Wert ist das beste Modell unter allen Modellen für die betrachteten Daten. Werden allerdings ausschließlich schlechte Modelle verwendet, so wählt der AIC-Wert das beste der schlechten Modelle aus.

AIC = -2(log-likelihood) + 2K, wobei K die Anzahl der erklärenden Variablen im Modell ist

Für kleine Stichproben (n/K < 40) sollte ein angepaßter Wert benutzt werden. Dabei ist n die Anzahl der Stichproben und K die Anzahl der erklärenden Variablen im Modell.

AIC = -2(log-likelihood) + 2K + 2K(K+1) / (n-K-1)

Unter den folgenden Links liegen weiterführende Informationen zu den Beschriebenen Themen