knitr::opts_chunk$set(echo = FALSE)
library(tidyverse)

Überblick {.build}

1. Motivation 1. Item Response Theorie 1. IRT-Modelle in R 1. Inferenzstatistik 1. Satz von Bayes 1. Bayes'sche Statistik-Pakete in R 1. IRT und GLM 1. Bayes'sche IRT in R
**Was ich voraussetze:**
- R & RStudio - Pipeoperator `%>%` - Item Response Theorie - Differenzierung zw. frequentistischer und Bayesianischer Inferenzstatistik
**Was** - Methodik: Bayes'sche IRT-Modellierung - R-Package-Premiere: birtms **Was nich** - fachdidaktische Erkenntnisse

Motivation

- Professionswissens von Chemie-Studierenden mit Lehramtsoption - deklarativ-fachdidaktischer Wissenstest
Itemstamm 059MC
- Ursprünglich: Intervention im Bereich Lernvideos - ergänzend zum prozedural-konditionalen Test aus dem ProwiN-Projekt - Interesse, Motivation, Persönlichkeit, $\dots$

Motivation {.build}

- Professionswissens von Chemie-Studierenden mit Lehramtsoption - deklarativ-fachdidaktischer Wissenstest
Antwortoptionen 059MC
Grafik aus @Zhang.2011
- real Multiple-Choice- und Sortier-Aufgaben
einzeln auswerten - Auswertungsmethoden: - Alles-oder-nichts - Partial-Credit / Ordinal - jede Antwortoption / jeden Paarvergleich einzeln - Bifaktor-Struktur / Testlet-Modell

Motivation

- Professionswissens von Chemie-Studierenden mit Lehramtsoption - deklarativ-fachdidaktischer Wissenstest - Bayes'sches MIRT-Modell ab 100 Personen [@Fujimoto.2020]
Biasreduzierender Effekt informativer Priors; Grafik aus @Fujimoto.2020
- Prior-Einfluss verschwindet ab 500 Beobachtungen

Motivation

- Professionswissens von Chemie-Studierenden mit Lehramtsoption - deklarativ-fachdidaktischer Wissenstest - Bayes'sches MIRT-Modell ab 100 Personen [@Fujimoto.2020] - Bayes'sche IRT Modellierung mit brms [@Burkner.23.05.2019]
Posterior Predictive Model Check (**PPMC**); Grafik aus @Burkner.2020
- deutlich: loglik-Kriterium für Item 1 und 4 (5, 6, 9, 10, 12) nicht reproduziert durch geschätzte Schwierigkeit allein

Motivation

Shiny-App für den direkten Modellvergleich

- 1pl bis 3pl - mit und ohne Testlets - nur für die eigenen Modelle - Shiny-App für allgemeine Modelle mit **birtms** das Ziel

Motivation

- Professionswissens von Chemie-Studierenden mit Lehramtsoption - deklarativ-fachdidaktischer Wissenstest - Bayes'sches MIRT-Modell ab 100 Personen [@Fujimoto.2020] - Bayes'sche IRT Modellierung mit brms [@Burkner.23.05.2019] - Marginal Likelihood für Modellvergleiche [@Merkle.2019]
Informationskriterien unter Nutzung der conditional und marginal likelihood; Grafik aus @Merkle.2019
- Vergleich von 5 Modellen mit unterschiedlich vielen Freiheitsgraden - conditional loglik - Schätzfehler größer - IC Wert generell geringer (gaukelt guten fit vor) - komplexere Modelle passen tendenziell besser - marginal loglik: Entscheidung für Model 2

Item Response Theorie {.build}

- latente Variablen - Personenfähigkeiten $\theta_k$ - Itemparameter $\beta_i, \alpha_i, \dots$ - logistisches Modell (GLM) - lokale Unabhängigkeit
**Raschmodell:**
$$P\left(1|\theta_k, \beta_i\right)=\frac{\exp\left(\theta_k + \beta_i\right)}{1+\exp\left(\theta_k + \beta_i\right)}$$
Grafik aus @Grottke.2021
*Ausnahmen:*
- latente Regression - Testlets

Item Response Theorie {.build}

**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten
wzxhzdk:1
Einfaches Item aus Ravens SPM;
Grafik aus @Schoevers.2020
- @Burkner.2020 - Ravens Standard Progressive Matrices - 12 komplexesten Items - daten im wide format
## Item Response Theorie {.build}
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Modell fitten
[R Packages](https://cran.r-project.org/web/views/Psychometrics.html)
- **TAM**, **mirt** - eRm, lme4 - *flirt* [@Jeon.2016]
- Entscheidung für Raschmodell - Kurzer Blick auf TAM
## IRT-Modelle mit TAM
wzxhzdk:2
wzxhzdk:3
wzxhzdk:4
## IRT-Modelle mit TAM
wzxhzdk:5
wzxhzdk:6
**Achtung:** birtms gibt bei default Itemleichtigkeiten aus!
## Item Response Theorie
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Modell fitten 1. Modellpassung prüfen
1. Konvergenz 2. Reliabilität
wzxhzdk:7
## Item Response Theorie
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Modell fitten 1. Modellpassung prüfen 1. Itemselektion wzxhzdk:8
wzxhzdk:9
- Itembasiert: - Item Characteristic Curves plots - fit-Statistiken - Itemparameter (neg. Trennschärfe?) - Testbasiert: - Wrightmap
## IRT-Modelle mit TAM
wzxhzdk:10
wzxhzdk:11
## IRT-Modelle mit TAM
wzxhzdk:12
wzxhzdk:13
wzxhzdk:14
## Item Response Theorie {.build}
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Modell fitten 1. Modellpassung prüfen 1. Itemselektion 1. Forschungsfragen untersuchen
**Theoretisches Konstrukt:**
- Dimensionsanalyse - Modellvergleiche
**Prädiktoren:**
- Varianzanalyse - Kriterien: - Signifikanz - Effektstärken
*Alternativen:*
- latente Regression - SEM
- $\chi^2$-Test (nested) - Informationskriterien (AIC, BIC) - Ockhams Rasiermesser - ANOVA - Mediation, Moderation - keine Kausalität - DAGs - NHST, new statistics - Aufgaben meist nicht nur von einem Konstrukt abhängig - Itemselektion berücksichtigt meist nicht Informationen der Prädiktoren
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten
wzxhzdk:15
- daten im long format
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren
**Modelle spezifizieren**
- Stan syntax: - rstan - edstan - GLM syntax: **brms** - Keyword based: **birtms**
- Stan syntax: - rstan - edstan: 1pl-, 2pl- und ordinale Modelle - GLM syntax: **brms** - vlg. lme4 - Keyword based: **birtms** - @Jeon.2016
## Bayes'sche IRT-Modellierung in R {.build}
wzxhzdk:16
wzxhzdk:17
wzxhzdk:18
wzxhzdk:19
wzxhzdk:20
Itemparameter als random effects, gegen Ausreißer [@Burkner.23.05.2019]
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren
wzxhzdk:21
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren
wzxhzdk:22
- Kategorie m als Referenz - Nominalskalen ab 2pl unabdingbar - Vorannahme: Geschlecht hoher Einfluss - z.B. aus meta-Studies - viele Prädiktoren: - horse-shoe-Prior
## Bayes'sche IRT-Modellierung in R
wzxhzdk:23 wzxhzdk:24
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten
Code- und Modell-Transformation
Variable | TAM | brms ----------|--------|---------------- Zeit in s | 0.06 | 57 + **81** Iterationen | 36 | 4000 + **4000 + X** Speicher in MB | 0.46 | 34.73 Werte je Parameter | 3 | 4000
[MCMC-Sampling-Applets](https://elevanth.org/blog/2017/11/28/build-a-better-markov-chain/)
- 3pl-Testletmodell - bis zu 1 Tag - 1 GB groß - 270 Items - 100 Personen - 38 Dimensionen (immer 2 paarweise) **EM Algorithmus** - Start: Itemschwierigkeit $\sim$ Lösungshäufigkeit - bis zur Konvergenz: - Wähle SD der random effect Verteilung - Wähle random effect Werte - maximiere die Likelihood - analytisch oder per Newton-Verfahren - effektiv für weniger Dimensionen - Präsentiere beste Punktschätzer - Präsentiere Schätze CI **MCMC Algorithmus** - Burn-in / warmup-Pahse - Sampling-Phase - Präsentiere Postsamples - Deskriptive Statistik der Postsamples Schritte: - Wähle Parameter in der Imgebung - berechne Likelihood - besser: akzeptiere Werte - schlechter: werfe biased Münze - Kopf: akzeptiere Werte - Zahl: verwerfe Werte, wähle neue
## Bayes'sche IRT-Modellierung in R wzxhzdk:25
wzxhzdk:26
wzxhzdk:27
- speichert MCMC-Zeit - refit-Befehl (nun auch in brms) - check_prior_influence: Prior-Plots - prepare_bf: Bridgemapling - $\dots$-Argument: adjust Stan-code via brms
## Bayes'sche IRT-Modellierung in R
wzxhzdk:28
wzxhzdk:29
- aio: spart ein wenig Schreibaufwand - kein get_priors möglich
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten 1. Modellpassung prüfen
wzxhzdk:30
- MCMC trace plots - sd_item__Intercept schief
## Bayes'sche IRT-Modellierung in R {.build}
wzxhzdk:31
- Konvergenz: $\hat{r}$ - ESS - Schiefe - Multimodalität
## Bayes'sche IRT-Modellierung in R
wzxhzdk:32
Grafik von @Clark.2018
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten 1. Modellpassung prüfen
1. Konvergenz 2. ESS
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten 1. Modellpassung prüfen 1. Itemselektion
**Itemcheck mit birtms**
- Itemparameterverteilungen - Item Characteristic Curves - Posterior Predictive Model Checks - Wrightmap - Odds Ratio Heatmaps
## Bayes'sche IRT-Modellierung in R
wzxhzdk:33 ## Bayes'sche IRT-Modellierung in R
wzxhzdk:34
## Bayes'sche IRT-Modellierung in R
wzxhzdk:35
wzxhzdk:36
## Bayes'sche IRT-Modellierung in R
Grafik aus @Kruschke.2015
wzxhzdk:37
wzxhzdk:38
Grafiken mittels Code von @Hyvonen.2019
## Bayes'sche IRT-Modellierung in R wzxhzdk:39
wzxhzdk:40
## Bayes'sche IRT-Modellierung in R wzxhzdk:41
wzxhzdk:42
## Bayes'sche IRT-Modellierung in R wzxhzdk:43
wzxhzdk:44
- hoher Outfit (2): von low-achievern erraten - Ratewahrscheinlichkeit: 12.5 % - G1: rät; G2: macht Fehler
## Bayes'sche IRT-Modellierung in R wzxhzdk:45 wzxhzdk:46 ## Bayes'sche IRT-Modellierung in R wzxhzdk:47
mean entspricht klassischen Werten
## Bayes'sche IRT-Modellierung in R
wzxhzdk:48
- Mixed PPMC weniger konservativ - classic PPMC schneller / memory sparsamer - ggf. n_samples reduzieren - Unterschiede teils nicht groß
## Bayes'sche IRT-Modellierung in R wzxhzdk:49
wzxhzdk:50
## Bayes'sche IRT-Modellierung in R
wzxhzdk:51
- 2pl-Modell passt für viele Items besser - Outfit wesentich besser
## Bayes'sche IRT-Modellierung in R
wzxhzdk:52
wzxhzdk:53
nichts bayesianisches dabei
## Bayes'sche IRT-Modellierung in R wzxhzdk:54 wzxhzdk:55 ## Bayes'sche IRT-Modellierung in R
### Odds-ratio PPMC
wzxhzdk:56
wzxhzdk:57
wzxhzdk:58
wzxhzdk:59
- Rechenbedarf $\sim$ Itemanzahl$^2$ - Unterschied zw. Bayes und klassisch klein - 2pl besser
## Bayes'sche IRT-Modellierung in R
### Odds-ratio-Limit-Check
wzxhzdk:60
wzxhzdk:61
wzxhzdk:62
wzxhzdk:63
- 2pl besser - @Haberman.2007
## Bayes'sche IRT-Modellierung in R
### Odds-ratio-Limit-Check
wzxhzdk:64
wzxhzdk:65
```{eval=TRUE, results='hide', fig.keep='all',r eval=TRUE, results='hide', fig.keep='all', out.width="130%", message=FALSE} ordata_2pl_spm_fullbayes %>% birtms::plot_or_heatmap(itemrange = c(1,12), model = fit_1d_2pl_spm, bayesian = TRUE) wzxhzdk:66
- 2pl besser - @Haberman.2007
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten 1. Modellpassung prüfen 1. Itemselektion
**Personcheck mit birtms**
- Posterior Predictive Model Checks - Person Response Functions
## Bayes'sche IRT-Modellierung in R wzxhzdk:67 wzxhzdk:68 ## Bayes'sche IRT-Modellierung in R
wzxhzdk:69
## Bayes'sche IRT-Modellierung in R wzxhzdk:70
wzxhzdk:71
wzxhzdk:72
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten 1. Modellpassung prüfen 1. Itemselektion 1. Forschungsfragen untersuchen
**Theoretisches Konstrukt:**
- Dimensionsanalyse - **Modellvergleiche mit birtms**
- leave-one-out crossvalidation - marginal loglikelihood - entferne alle Antworten einer Person
*Alternativen*
- grouped k-fold crossvalidation - Bayes Factor via bridgesampling
- Bürkner favorisiert PSIS LOO-CV - conditional LOO bevorzugt komplexere Modelle - marginal LOO weist auf Probleme mit PSIS hin - LOO oder k-fold können bei komplexeren Modellen sehr lange dauern - BayesFaktor via BridgeSampling braucht viele Posterior Samples - Bayes-Faktor prior-sensibel - Bridge Sampling: 110000 statt 2000 - preparing_bf = TRUE - brms::bayes_factor() - Kruschke schlägt vor, mehrere Modell in einem Obermodell zusammenzufassen - in Stan schwerlich möglich, da keine diskreten Variablen gezogen werden
## Bayes'sche IRT-Modellierung in R
conditional loo
marginal loo
## Bayes'sche IRT-Modellierung in R
wzxhzdk:73
## Bayes'sche IRT-Modellierung in R
wzxhzdk:74 wzxhzdk:75 wzxhzdk:76
[elpd_se Interpretation](https://avehtari.github.io/modelselection/CV-FAQ.html#15_How_to_interpret_in_Standard_error_(SE)_of_elpd_difference_(elpd_diff)) - elpd_diff > 4 und > 2*se => Modell passt besser
## Bayes'sche IRT-Modellierung in R
**Vorgehensweise:**
1. **Forschungsfragen aufstellen** 1. Erhebung planen 1. *Testinstrument entwickeln* 1. Daten vorbereiten 1. Modell formulieren 1. Vorannahmen formulieren 1. Modell fitten 1. Modellpassung prüfen 1. Itemselektion 1. Forschungsfragen untersuchen
**Prädiktoren:**
- latente Regression - ROPE + HDI - Varianzanalyse
## birtms
**latente Regression mit birtms**
- bayes'sche Variante des $R^2$-Bestimmtheitsmaß
## Ausblick {.smaller}
### Funktionalitäten - **testlets** - **Shiny-App** - *3pl* - Itemkriterien [vgl. @Scharl.2019] - hierarchic - ordinal - multidim - multivariate - 4pl - noncompensatory
### Paket - Dokumentation - Vignetten - Videotutorials - Performance - Vereinheitlichung - Abhängigkeiten reduzieren - Mehrsprachigkeit
- Dokumentation: - Kapitel im GDCP-Psychometriebuch - multivariat: - SEM / latente Variablen - Hoffnung: brms 3 Funktionalitäten
## Zusammenfassung - Aufruf - zur Zusammenarbeit - zur kritischen Prüfung ## Inferenzstatistik wzxhzdk:77
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:78
Neben der gemeinsamen Datenbasis haben wir uns für ein gemeinsames Modell entschieden. Wir glauben, die Daten basieren auf einem Prozess, der mit der Binomialverteilung modelliert werden kann.
## Inferenzstatistik
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:79 ## Inferenzstatistik
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:80
Grafik erstellt mit @JASP2020
## Inferenzstatistik
Münzwurf: `r as.numeric(x)`
$X \sim binom(n, p)$
wzxhzdk:81
Grafik erstellt mit @JASP2020
- Gefühle in der Wissenschaft? - Subjektivität = Willkür? - Wald-CI geschätzt (und nach oben beschnitten) vs. simulierte CIs
## Inferenzstatistik
Modell: $X \sim binom(n, p)$ Beendigung der Datenerhebung nach: 1. 9 Würfen 1. *8 mal Kopf* 1. 1 Minute **p-value**: Die Wahrscheinlichkeit in einer Stichprobe der hypothetischen Population ein Ergebnis zu erhalten, dass mindestens so extrem wie das vorliegende Ergebnis ist, *wobei die beabsichtigten Erhebungs- und Auswertungsmethoden berücksichtigt werden müssen*.
Grafik aus @Kruschke.2015
- Intuitive Interpretation: nur in p % der Fälle kommt dieses Ergebnis zu stande - Uneindeutigkeit im frequentistischen oft unberücksichtigt - unterschiedliche p-values für einen Datensatz - Datenerhebung: - Einzelperson: Power- oder Speedtest? - Beantwortet Frage mit bestimmter Wahrscheinlichkeit - Summenscore als Binomialverteilung (konstante Schwierigkeiten) oder Summe von Bernoulli-Versuchen (verallg. Binomialverteilt) - Wie viele Fragen bearbeitet er? - Was das Kriterium für die Stichprobe - Anzahl und Art zusätzlicher Tests verändert Imagionary Sample Space weiter - 8 mal Kopf erzeugt Bias - Adaptives Testen: will keine neuen Daten erzeugen, sondern bewerten
## Inferenzstatistik {.smaller}
Grafik nach @Kruschke.2015

zweite Münze 24 mal werfen: $p\left(\frac{z_1}{N_1}\right) = 0.063$
zweite Münze 12 mal werfen: $p\left(\frac{z_1}{N_1}\right) = 0.103$
- Zweite Münze muss nicht mal geworfen werden!
## Inferenzstatistik {.build}
- sind Nägel fair? - 7 von 24 stehen - verwerfen die Hypothese nicht!
- Vorwissen berücksichtigen - Berücksichtigung seltener Ereignisse - bedeutsame Parametervergleiche - Datensätze erweitern - Einfluss des Priors nimmt mit Datenmenge ab
- schwache Prior führen quasi zu frequentistischen Ergebnissen - Einfluss des Priors kann überprüft werden
## Inferenzstatistik
- Ablehnen der Nullhypothese spricht nicht für Alternativhypothese - Bayes-Faktor: pro H0, ungewiss, pro H1 - Informationsverlust - behindert Metaaanalysen - Parameterwerte und CIs statt NHST? - Effektstärke - CI enthält Werte, die von NHST nicht abgelehnt würden - frequentistische CIs auch vom Sample Space abhängig
Grafik aus @Kruschke.2018
Grafik aus @Kruschke.2018
- NHST verkürzt unsere Informationen auf Ja/Nein - CI: Konfidenzintervall basiert auf Vorannahmen und Schätzungen - Interpretation: bei vielen Wiederholungen wird der wahre Parameter in 95 % der Fälle im CI liegen - keine Informationen über Parameterverteilung - Unimodalität - Schiefe
## Inferenzstatistik
### Mehls Paradox ROPE
Grafik aus @Waning.2001
## Inferenzstatistik
Grafik aus @Waning.2001
### Frequentistisch - Problematisch für kleine Stichproben - brauchen unterschiedliche Tests für unterschiedliche Szenarien
### Bayes'sch - Prior können normal Gestalthaben, aber auch non-normale Daten fitten
## Inferenzstatistik Backlog
### Klassisch - Parameter haben einen festen Wert, den wir schätzen wollen - ein CI sagt nicht, dass der Wert einer Verteilung unterliegt, sondern nur, in welchem Beeich der wahre Wert liegen sollte - $\alpha$-Fehler Korrektur - in höchstens $\alpha \, %$ der Wiederholungen ist überhaupt ein Parameter außerhalb der CI
### Bayes'sch - CI: Kredibilitätsintervall Ergebnis von Simulation - Parameterverteilung zeigt, die wahrscheinlichten Werte an - Breite $\sim$ Unsicherheit - HDI statt equallt tailed CI - Median oder Modalwert statt Mittelwert - Passendes zentrales Maß anhand der Parameterverteilung wählbar - Bimodale und schiefe Verteilungen identifizierbar - Hardware - braucht mehr Rechenzyklen - braucht mehr Arbeitsspeicher (oder noch mehr Zeit) - braucht mehr Festplattenspeicher - können Unsicherheit in Folgeanalysen mitberücksichtigen - prädiktive Modelle - Messunsicherheit berücksichtigen - fehlende Werte imputieren - nutzen wir die Möglichkeit der Priors in den IRT-Modellen schon? - likelihood / Posterior unabhängig von Testanzahl - poweranalysis by simulation - PPMC mit oder ohne p-value?
## Satz von Bayes {.build}
$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
Angewendet auf Modelle: $$ P(Parameter|Daten) = \frac{P(Daten|Parameter) \cdot P(Parameter)}{P(Daten)}$$
Gesprochen: $$ \mathbf{Posterior\:Wahrs.} = \frac{\mathbf{Modellfunktion} \cdot \mathbf{Prior\:Wahrs.}}{\mathbf{Normierungsfaktor}}$$
- Statt Parametern kann man auch von Hypothesen sprechen: ist $\beta_i = 0$? - Modellfunktion = Likelihood - Normierungsfaktor: marginale Wahrscheinlichkeit
## Bayes'sche Statistik-Pakete in R
### Modelle fitten - Stan: - *rstan* - *rstanarm* - **brms** - JAGS: *rjags* - *rethinking* - *BayesFactor* - *blavaan*
### Modelle auswerten - *tidybayes* - *loo* - *bayestestR* - *bayesplot* - *coda*, *plotMCMC* - *bridgesampling*
- Stan oder JAGS brauchen compiler-Zeit - kleine Modelle besser direkt simulieren - Stan: Hameltonian Monte Carlo sampling - *rstan*: Stan syntax - *rstanarm*: Gelman et al. (früher *arm* genutzt) - **brms**: bayesian GLMs - JAGS: *rjags*: Gibbs sampling; JAGS/WinBUGS syntax - *rethinking*: McElreath - *BayesFactor*: Hypothesis checking - *blavaan*: SEMs in Stan (neu) oder JAGS
- *tidybayes*: plots and long data extraction - *loo*: Modellvergleiche mit leave-one-out CV - *bayestestR*: model checking and evaluation - *coda*, *plotMCMC*: MCMC-chain plots - *bridgesampling*: Bayes factor for whole models
## Hypothesentests und Modellvergleiche
- Hypothesen-Modell-Beziehung N:M - Modell verwerfen $\nLeftrightarrow$ Hypothese verwerfen $$\begin{align} y &\sim item + person + fw \\ y &\sim item + person + fw^2 \\ y &\sim item + person + fw*rpk \end{align}$$ $fw$: Fachwissen
$rpk$: Repräsentationskenntnis
Grafik aus @McElreath.2020
- Fachwissenseinfluss kann vielei Gestalt haben - Moderationsbeziehung mathematisch uneindeutig - Parameterbetrachtung selbst in suboptimalen Modellen
## Bayes'sche IRT 1. Daten vorbereiten 1. Modell formulieren 1. Konvergenz der MCMC-Chains prüfen ($\hat{r}$, plots) 1. Posterior Predictive Model Checking
### Modellvergleiche - Dimensionalitätsanalysen - Prädiktorenwahl - Wirkungsmodelle prüfen (DAGs)
### Parameterinspektion - Itemselektion - DIF - Effektstärken - $\dots$
## Literatur

Famondir/birtms documentation built on Feb. 18, 2022, 2:51 a.m.