1. Motivation
1. Item Response Theorie
1. IRT-Modelle in R
1. Inferenzstatistik
1. Satz von Bayes
1. Bayes'sche Statistik-Pakete in R
1. IRT und GLM
1. Bayes'sche IRT in R
**Was ich voraussetze:**
- R & RStudio
- Pipeoperator `%>%`
- Item Response Theorie
- Differenzierung zw. frequentistischer und Bayesianischer Inferenzstatistik
- Professionswissens von Chemie-Studierenden mit Lehramtsoption
- deklarativ-fachdidaktischer Wissenstest
- Ursprünglich: Intervention im Bereich Lernvideos
- ergänzend zum prozedural-konditionalen Test aus dem ProwiN-Projekt
- Interesse, Motivation, Persönlichkeit, $\dots$
Motivation {.build}
- Professionswissens von Chemie-Studierenden mit Lehramtsoption
- deklarativ-fachdidaktischer Wissenstest
- real Multiple-Choice- und Sortier-Aufgaben einzeln auswerten
- Auswertungsmethoden:
- Alles-oder-nichts
- Partial-Credit / Ordinal
- jede Antwortoption / jeden Paarvergleich einzeln
- Bifaktor-Struktur / Testlet-Modell
Motivation
- Professionswissens von Chemie-Studierenden mit Lehramtsoption
- deklarativ-fachdidaktischer Wissenstest
- Bayes'sches MIRT-Modell ab 100 Personen [@Fujimoto.2020]
- Prior-Einfluss verschwindet ab 500 Beobachtungen
Motivation
- Professionswissens von Chemie-Studierenden mit Lehramtsoption
- deklarativ-fachdidaktischer Wissenstest
- Bayes'sches MIRT-Modell ab 100 Personen [@Fujimoto.2020]
- Bayes'sche IRT Modellierung mit brms [@Burkner.23.05.2019]
- deutlich: loglik-Kriterium für Item 1 und 4 (5, 6, 9, 10, 12) nicht reproduziert durch geschätzte Schwierigkeit allein
Motivation
- 1pl bis 3pl
- mit und ohne Testlets
- nur für die eigenen Modelle
- Shiny-App für allgemeine Modelle mit **birtms** das Ziel
Motivation
- Professionswissens von Chemie-Studierenden mit Lehramtsoption
- deklarativ-fachdidaktischer Wissenstest
- Bayes'sches MIRT-Modell ab 100 Personen [@Fujimoto.2020]
- Bayes'sche IRT Modellierung mit brms [@Burkner.23.05.2019]
- Marginal Likelihood für Modellvergleiche [@Merkle.2019]
- Vergleich von 5 Modellen mit unterschiedlich vielen Freiheitsgraden
- conditional loglik
- Schätzfehler größer
- IC Wert generell geringer (gaukelt guten fit vor)
- komplexere Modelle passen tendenziell besser
- marginal loglik: Entscheidung für Model 2
Item Response Theorie {.build}
- latente Variablen
- Personenfähigkeiten $\theta_k$
- Itemparameter $\beta_i, \alpha_i, \dots$
- logistisches Modell (GLM)
- lokale Unabhängigkeit
- $\chi^2$-Test (nested)
- Informationskriterien (AIC, BIC)
- Ockhams Rasiermesser
- ANOVA
- Mediation, Moderation
- keine Kausalität
- DAGs
- NHST, new statistics
- Aufgaben meist nicht nur von einem Konstrukt abhängig
- Itemselektion berücksichtigt meist nicht Informationen der Prädiktoren
- Kategorie m als Referenz
- Nominalskalen ab 2pl unabdingbar
- Vorannahme: Geschlecht hoher Einfluss
- z.B. aus meta-Studies
- viele Prädiktoren:
- horse-shoe-Prior
- Dimensionsanalyse
- **Modellvergleiche mit birtms**
- leave-one-out crossvalidation
- marginal loglikelihood
- entferne alle Antworten einer Person
*Alternativen*
- grouped k-fold crossvalidation
- Bayes Factor via bridgesampling
- Bürkner favorisiert PSIS LOO-CV
- conditional LOO bevorzugt komplexere Modelle
- marginal LOO weist auf Probleme mit PSIS hin
- LOO oder k-fold können bei komplexeren Modellen sehr lange dauern
- BayesFaktor via BridgeSampling braucht viele Posterior Samples
- Bayes-Faktor prior-sensibel
- Bridge Sampling: 110000 statt 2000
- preparing_bf = TRUE
- brms::bayes_factor()
- Kruschke schlägt vor, mehrere Modell in einem Obermodell zusammenzufassen
- in Stan schwerlich möglich, da keine diskreten Variablen gezogen werden
## Bayes'sche IRT-Modellierung in R
## Bayes'sche IRT-Modellierung in R
wzxhzdk:73
## Bayes'sche IRT-Modellierung in R
wzxhzdk:74
wzxhzdk:75
wzxhzdk:76
[elpd_se Interpretation](https://avehtari.github.io/modelselection/CV-FAQ.html#15_How_to_interpret_in_Standard_error_(SE)_of_elpd_difference_(elpd_diff))
- elpd_diff > 4 und > 2*se => Modell passt besser
- Dokumentation:
- Kapitel im GDCP-Psychometriebuch
- multivariat:
- SEM / latente Variablen
- Hoffnung: brms 3 Funktionalitäten
## Zusammenfassung
- Aufruf
- zur Zusammenarbeit
- zur kritischen Prüfung
## Inferenzstatistik
wzxhzdk:77
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:78
Neben der gemeinsamen Datenbasis haben wir uns für ein gemeinsames Modell entschieden. Wir glauben, die Daten basieren auf einem Prozess, der mit der Binomialverteilung modelliert werden kann.
## Inferenzstatistik
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:79
## Inferenzstatistik
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:80
## Inferenzstatistik
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:81
- Gefühle in der Wissenschaft?
- Subjektivität = Willkür?
- Wald-CI geschätzt (und nach oben beschnitten) vs. simulierte CIs
## Inferenzstatistik
Modell: $X \sim binom(n, p)$
Beendigung der Datenerhebung nach:
1. 9 Würfen
1. *8 mal Kopf*
1. 1 Minute
**p-value**:
Die Wahrscheinlichkeit in einer Stichprobe der hypothetischen Population ein Ergebnis zu erhalten, dass mindestens so extrem wie das vorliegende Ergebnis ist, *wobei die beabsichtigten Erhebungs- und Auswertungsmethoden berücksichtigt werden müssen*.
- Intuitive Interpretation: nur in p % der Fälle kommt dieses Ergebnis zu stande
- Uneindeutigkeit im frequentistischen oft unberücksichtigt
- unterschiedliche p-values für einen Datensatz
- Datenerhebung:
- Einzelperson: Power- oder Speedtest?
- Beantwortet Frage mit bestimmter Wahrscheinlichkeit
- Summenscore als Binomialverteilung (konstante Schwierigkeiten) oder Summe von Bernoulli-Versuchen (verallg. Binomialverteilt)
- Wie viele Fragen bearbeitet er?
- Was das Kriterium für die Stichprobe
- Anzahl und Art zusätzlicher Tests verändert Imagionary Sample Space weiter
- 8 mal Kopf erzeugt Bias
- Adaptives Testen: will keine neuen Daten erzeugen, sondern bewerten
## Inferenzstatistik {.smaller}
zweite Münze 24 mal werfen: $p\left(\frac{z_1}{N_1}\right) = 0.063$
zweite Münze 12 mal werfen: $p\left(\frac{z_1}{N_1}\right) = 0.103$
- Zweite Münze muss nicht mal geworfen werden!
## Inferenzstatistik {.build}
- sind Nägel fair?
- 7 von 24 stehen
- verwerfen die Hypothese nicht!
- Vorwissen berücksichtigen
- Berücksichtigung seltener Ereignisse
- bedeutsame Parametervergleiche
- Datensätze erweitern
- Einfluss des Priors nimmt mit Datenmenge ab
- schwache Prior führen quasi zu frequentistischen Ergebnissen
- Einfluss des Priors kann überprüft werden
## Inferenzstatistik
- Ablehnen der Nullhypothese spricht nicht für Alternativhypothese
- Bayes-Faktor: pro H0, ungewiss, pro H1
- Informationsverlust
- behindert Metaaanalysen
- Parameterwerte und CIs statt NHST?
- Effektstärke
- CI enthält Werte, die von NHST nicht abgelehnt würden
- frequentistische CIs auch vom Sample Space abhängig
- NHST verkürzt unsere Informationen auf Ja/Nein
- CI: Konfidenzintervall basiert auf Vorannahmen und Schätzungen
- Interpretation: bei vielen Wiederholungen wird der wahre Parameter in 95 % der Fälle im CI liegen
- keine Informationen über Parameterverteilung
- Unimodalität
- Schiefe
## Inferenzstatistik
### Mehls Paradox ROPE
## Inferenzstatistik
### Frequentistisch
- Problematisch für kleine Stichproben
- brauchen unterschiedliche Tests für unterschiedliche Szenarien
### Bayes'sch
- Prior können normal Gestalthaben, aber auch non-normale Daten fitten
## Inferenzstatistik Backlog
### Klassisch
- Parameter haben einen festen Wert, den wir schätzen wollen
- ein CI sagt nicht, dass der Wert einer Verteilung unterliegt, sondern nur, in welchem Beeich der wahre Wert liegen sollte
- $\alpha$-Fehler Korrektur
- in höchstens $\alpha \, %$ der Wiederholungen ist überhaupt ein Parameter außerhalb der CI
### Bayes'sch
- CI: Kredibilitätsintervall Ergebnis von Simulation
- Parameterverteilung zeigt, die wahrscheinlichten Werte an
- Breite $\sim$ Unsicherheit
- HDI statt equallt tailed CI
- Median oder Modalwert statt Mittelwert
- Passendes zentrales Maß anhand der Parameterverteilung wählbar
- Bimodale und schiefe Verteilungen identifizierbar
- Hardware
- braucht mehr Rechenzyklen
- braucht mehr Arbeitsspeicher (oder noch mehr Zeit)
- braucht mehr Festplattenspeicher
- können Unsicherheit in Folgeanalysen mitberücksichtigen
- prädiktive Modelle
- Messunsicherheit berücksichtigen
- fehlende Werte imputieren
- nutzen wir die Möglichkeit der Priors in den IRT-Modellen schon?
- likelihood / Posterior unabhängig von Testanzahl
- poweranalysis by simulation
- PPMC mit oder ohne p-value?
## Satz von Bayes {.build}
$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
Angewendet auf Modelle:
$$ P(Parameter|Daten) = \frac{P(Daten|Parameter) \cdot P(Parameter)}{P(Daten)}$$
- Statt Parametern kann man auch von Hypothesen sprechen: ist $\beta_i = 0$?
- Modellfunktion = Likelihood
- Normierungsfaktor: marginale Wahrscheinlichkeit
- Stan oder JAGS brauchen compiler-Zeit
- kleine Modelle besser direkt simulieren
- Stan: Hameltonian Monte Carlo sampling
- *rstan*: Stan syntax
- *rstanarm*: Gelman et al. (früher *arm* genutzt)
- **brms**: bayesian GLMs
- JAGS: *rjags*: Gibbs sampling; JAGS/WinBUGS syntax
- *rethinking*: McElreath
- *BayesFactor*: Hypothesis checking
- *blavaan*: SEMs in Stan (neu) oder JAGS
- *tidybayes*: plots and long data extraction
- *loo*: Modellvergleiche mit leave-one-out CV
- *bayestestR*: model checking and evaluation
- *coda*, *plotMCMC*: MCMC-chain plots
- *bridgesampling*: Bayes factor for whole models
## Hypothesentests und Modellvergleiche
- Hypothesen-Modell-Beziehung N:M
- Modell verwerfen $\nLeftrightarrow$ Hypothese verwerfen
$$\begin{align}
y &\sim item + person + fw \\
y &\sim item + person + fw^2 \\
y &\sim item + person + fw*rpk
\end{align}$$
$fw$: Fachwissen $rpk$: Repräsentationskenntnis
- Fachwissenseinfluss kann vielei Gestalt haben
- Moderationsbeziehung mathematisch uneindeutig
- Parameterbetrachtung selbst in suboptimalen Modellen
## Bayes'sche IRT
1. Daten vorbereiten
1. Modell formulieren
1. Konvergenz der MCMC-Chains prüfen ($\hat{r}$, plots)
1. Posterior Predictive Model Checking