In PolMine/UCSSR: Using Corpora in Social Science Research

# Dieser Code wird im Foliensatz nicht angezeigt und ist nur erforderlich,
# um gegebenenfalls fehlende Pakete nachzuladen:
# kable und kableExtra werden benötigt, um tabellarische Ausgaben zu generieren.
if (!"knitr" %in% rownames(installed.packages())) install.packages("knitr")
if (!"kableExtra" %in% rownames(installed.packages())) install.packages("kableExtra")

Initialisierung {.smaller}

Die Beispiele basieren auf dem GermaParl-Korpus. Der Datensatz ist nach dem Laden von polmineR verfügbar.

library(polmineR)

Außerdem nutzen wir das magrittr-Paket, um Befehle in einer sogenannten "Pipe" zu verketten. In einer Pipe wird das Ergebnis eines Befehls zum ersten Argument des jeweils nachfolgenden Befehls. Dadurch kann Code aussagekräftig und kompakt geschrieben werden. Das Paket wird bereits mit dem polmineR Paket geladen.
Schließlich laden wir noch das data.table-Paket

library(data.table)

CWB, CQP und 'polmineR' {.smaller}

Das polmineR-Paket nutzt für die Speicherung und die Abfrage von Daten die Corpus Workbench (CWB). Die CWB hat die Funktionalität eines "indexing and query engine". Vergleichbare Software, die für industrielle Anwendungen Vorteile bietet, wären Lucene oder Elasticsearch. Ein großer Vorteil der CWB ist jedoch, dass sie vollständig quelloffen ist und in Software-Projekten genutzt und weiterentwickelt werden kann.
Die CWB beinhaltet als Bündel von Tools mit dem Corpus Query Processor (CQP) ein mächtiges Instrument, für große Korpora komplexe sprachliche Suchanfragen zur formulieren. Queries können reguläre Ausdrücke beinhalten und linguistische Annotationen abfragen.
Die CQP-Syntax kann bei allen Basis-Befehlen des polmineR-Pakets (kwic(), count(), dispersion(), cooccurrences())genutzt werden.
In den folgenden Beispielen wird anhand der count()-Methode gezeigt, wie die CQP-Syntax funktioniert. Denken Sie daran, dass die anderen Funktionen auch CQP können! Im folgenden Tutorial wird zunächst kurz in die Nutzung regulärer Ausdrücke eingeführt. Dann wird die Nutzung linguistischer Merkmale eines Korpus erläutert.

Suche nach Worten {.smaller}

Die CQP-Suchsyntax wird mit dem Parameter query an die Methoden übergegeben. Voreingestellt ist eine automatische Erkennung, ob die CQP-Syntax verwendet wird. Empfohlen ist jedoch, ausdrücklich über den logischen Parameter cqp anzugeben, dass CQP verwendet wird.
Wichtig ist, dass einzelne Suchbegriffe in Anführungszeichen gesetzt werden müssen und einfache Anführungszeichen den gesammten Suchbegriff umschließen.

count("GERMAPARL", query = '"Diskriminierung"', cqp = TRUE)

Das flag %c kann genutzt werden, um die Differenzierung zwischen Groß- und Kleinschreibung aufzuheben. Das führt zum Beispiel bei allen regulär klein geschriebenen Worten (Adjektiven, Verben etc.) zu großen Unterschieden bei der Zählung, die am Anfang eines Satzes groß geschrieben werden.

count("GERMAPARL", query = c('"Liebe"', '"Liebe" %c'), cqp = TRUE)

Reguläre Ausdrücke: Zeichenklassen {.smaller}

Die CQP-Syntax schließt die Nutzung regulärer Ausdrücke ein: Reguläre Ausdrücke sind ein in vielen Programmiersprachen verfügbares, standardisiertes Instrument zur Suche nach Zeichenmustern.
Bei regulären Ausdrücken können Symbole als Zeichenklassen an die Stelle eines konkreten Zeichens treten.

| Ausdruck | Beschreibung | |:-------:| --------------| | . |Ein Punkt (".") steht für ein beliebiges Zeichen | | \d | "digit" (Ziffer), d.h. 0 bis 9 |

count("GERMAPARL", '".iebe"', cqp = TRUE) %>% head()
count("GERMAPARL", '"\\d\\d\\d\\d"', cqp = TRUE) %>% head()

Reguläre Ausdrücke: Quantoren {.smaller}

Die Häufigkeit des Auftretens eines Zeichens (einer Zeichenklasse) kann mit Quantoren bestimmt werden, die an das jeweilige Zeichen angefügt werden.

| Ausdruck | Beschreibung | |:-------:| --------------| |?|Der voranstehende Ausdruck kommt kein- oder einmal vor.| |+|Der voranstehende Ausdruck tritt einmal oder mehrfach auf. | |*|Der voranstehende Ausdruck tritt keinmal oder beliebig oft auf.| |{n}|Der voranstehende Ausdruck tritt exakt n-fach auf.| |{min,}| Der voranstehende Ausdruck tritt mindestens min-fach auf.| |{min,max}|Der voranstehende Ausdruck tritt mindestens min-fach und maximal max-fach auf.| |{0,max}| Der voranstehende Ausdruck darf maximal max-fach vorkommen.|

Reguläre Ausdrücke: Beispiele I {.smaller}

Damit lassen sich bereits einfache Suchen gestalten.

count("GERMAPARL", query = '"Multikult.*"', cqp = TRUE, breakdown = TRUE) %>% head(n = 3)

In eckigen Klammern können alternative Zeichen angegeben werden. Wenn wir nicht mit dem flag %c arbeiten möchten, können wir auch so suchen ...

count("GERMAPARL", query = '"[Mm]ultikult.*"', cqp = TRUE, breakdown = TRUE) %>% head(n = 3)

Reguläre Ausdrücke: Beispiele II {.smaller}

Während in eckigen Klammern alternative einzelne Buchstaben angegeben werden können, können in runden Klammern alternative Zeichenfolgen angegeben werden, die jeweils mit einem senkrechten Querstrich ("|") getrennt werden.

count("GERMAPARL", query = '"(Zu|Ein|Aus)wanderung.*"', breakdown = TRUE) %>% head()

count("GERMAPARL", query = '"Asyl(suchende|berechtigte|ant|anti)"', cqp = TRUE, breakdown = TRUE) %>% head()

CQP I: Grundlagen

CQP erweitert die Syntax der regulären Ausdrücke um Möglichkeiten, über mehrere Worte ("Tokens") Abfragen zu formulieren. CQP kann die verschiedenen Annotationen eines linguistisch annotierten Korpus abfragen.
Das Datenformat ist grundsätzlich tabellarisch. Wenn neben der ursprünglichen Wortform (P-Attribut "word") auch ein Wortarterkennung (sog. "Part-of-Speech"-Annotation, P-Attribut "pos") und eine Lemmatisierung (P-Attribut "lemma") durchgeführt wurde, so ist ein dreispaltiger tokenstream verfügbar.
Die Tabelle auf der folgenden Seite gibt als Beispiel den Anfang einer Plenardebatte wieder. In der ersten ist die corpus position ("cpos") angeführt.

Tokenstream mit positionalen Attributen {.smaller}

P <- partition("GERMAPARL", speaker = "Angela Merkel", lp = "15")
cpos_left <- P@cpos[1,1]
pAttributes <- c("word", "pos", "lemma")
tokenstream_list <- lapply(
  pAttributes,
  function(x) get_token_stream("GERMAPARL", pAttribute = x, left = cpos_left, right = cpos_left + 1000)
)
tokenstream_df <- as.data.frame(tokenstream_list)
colnames(tokenstream_df) <- pAttributes
tokenstream_df[["pos"]] <- gsub("^\\$", "\\\\$", tokenstream_df[["pos"]])
tokenstream_df[["cpos"]] <- 0L:1000L
tokenstream_df <- tokenstream_df[, c("cpos", pAttributes)]
DT::datatable(tokenstream_df)

CQP II: Suche im Tokenstream {.smaller}

Wenn über die CQP-Syntax im P-Attribut "word" gesucht wird, muss der hierauf bezogene Suchbegriff nur in Anführungszeichen gesetzt werden. Um die anderen P-Attribute anzusteuern, wird in eckigen Klammern angegeben, auf welches Attribut man sich beziehen möchte.
Mit dem folgenden Suchbegriff "Q" sucht man etwa Abfolgen von einem Nomen, dann "mit" und einem Wort, dass mit "Migrations" beginnt.

Q <- '[pos = "NN"] "mit" "Migrations.*"'
C <- count("GERMAPARL", query = Q, breakdown = TRUE)
head(C[,c("match", "count", "share")])

CQP III: Quantoren {.smaller}

Als Platzhalter für beliebige Worte dienen leere eckige Klammern:

count("GERMAPARL", query = '"(Bundesm|M)inisterium" [] [pos = "NN"]', cqp = T, breakdown = T) %>% 
  head(n = 3) %>% subset(select = c("match", "count", "share"))

Entsprechend der bereits von den regulären Ausdrücken bekannten Notation kann in geschweiften Klammern angegeben werden, wie viele beliebige Worte auftreten sollen.

count("GERMAPARL", query = '"([Kk]riminell.*|Straftat.*)" []{0,5} "Asyl.*"', cqp = TRUE, breakdown = TRUE) %>%
  head(n = 3) %>% subset(select = c("match", "count", "share"))

CQP IV: Nachbarn {.smaller}

Treffer für zwei mit einem bestimmten Wortabstand auftretende Worte können wie folgt erzielt werden. Wichtig: Die Umkehrung des Suchausdrucks und die Verbindung in einer Klammer mit alternativen Möglichkeiten schafft Unabhängigkeit von der Reihenfolge.

Q <- '("[tT]error.*" []{0,9} "[iI]slam.*" | "[iI]slam.*" []{0,9} "[tT]error.*")'
Y <- count("GERMAPARL", query = Q, cqp = TRUE)
Y[, "count"]

CQP: Ein Fall für alle polmineR-Methoden {.smaller}

options("polmineR.pagelength" = 6L)

Wie eingangs angesprochen steht die CQP-Syntax bei allen Basis-Methoden des polmineR-Pakets zur Verfügung.

kwic("GERMAPARL", query = '"Integration" []{0,5} ".*[Ss]cheiter.*"', cqp = TRUE)

CQP und kwic()-Methode {.smaller}

options("polmineR.pagelength" = 5L)

Oben hatten wir gezielt nach Treffern gesucht, bei denen "Terror", "terroristisch" etc. im Wortumfeld von "Islam", "islamisch", "islamistisch" etc. auftritt. Dies lässt sich auch erreichen, indem man das positivelist-Argument der kwic()-Methode nutzt.

kwic("GERMAPARL", query = '"[iI]slam.*"', positivelist = "[tT]error.*", regex = T, cqp = T) %>%
  highlight (yellow = "[tT]error.*", regex = TRUE)

CQP: Ein Fall auch für `dispersion()`

Die CQP-Syntax kann auch bei der dispersion()-Methode genutzt werden ...

dispersion("GERMAPARL", query = '"[rR]assis.*"', s_attribute = "party")

CQP: Ein Fall auch für `cooccurrences()` {.smaller}

cooccurrences("GERMAPARL", query = '"([mM]uslim.|[iI]slam*)"', cqp = TRUE) %>%
  data.table::as.data.table() %>% subset(rank_ll < 5) %>% DT::datatable() # Einbindung in Folie als htmlwidget

Fazit {.smaller}

Die CQP-Syntax kann bei den angeführten Methoden genutzt werden, unabhängig davon, ob diese auf Korpora (character-Vektor) oder partition-Objekte angewendet werden.

partition("GERMAPARL", year = 2002:2009) %>% 
  cooccurrences(query = '"([mM]uslim.|[iI]slam*)"', cqp = TRUE)

CQP ist ein mächtiges Analysewerkzeug! Richtige Suchabfragen zu formulieren, erfordert allerdings etwas Übung. Beachten Sie hierbei insbesondere:
Vergessen Sie nicht, CQP-Abfragen in einfache öffnende und schließende Anführungszeichen zu setzen!
Wenn Sie eine Fehlermeldung erhalten, prüfen Sie, ob öffnende Anführungszeichen, eckige oder geschweifte Klammern jeweils geschlossen werden!

Viel Erfolg!

Anhang: Das Stuttgart-Tübingen-Tagset (Auszug) {.smaller}

|Notation|Beschreibung|Beispiel| |:------:|------------|--------| |ADJA|attributives Adjektiv| [das] große [Haus]| |ART| bestimmter oder unbestimmter Artikel | der, die, das, ein, eine, ... | |NN| normales Nomen|Tisch, Herr, [das] Reisen| |NE|Eigennamen| Hans, Hamburg, HSV| |VVFIN|finites Verb, voll | [du] gehst, [wir] kommen [an] | |VVIMP|Imperativ, voll|komm [!]| |VVINF|Infinitiv, voll|gehen, ankommen| |VVIZU|Infinitiv mit ``zu'', voll| anzukommen, loszulassen| |VVPP|Partizip Perfekt, voll| gegangen, angekommen| |VAFIN|finites Verb, aux| [du] bist, [wir] werden |

Literatur {.smaller}

PolMine/UCSSR documentation built on June 13, 2022, 10:23 p.m.

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

PolMine/UCSSR
Using Corpora in Social Science Research

In PolMine/UCSSR: Using Corpora in Social Science Research

Initialisierung {.smaller}

CWB, CQP und 'polmineR' {.smaller}

Suche nach Worten {.smaller}

Reguläre Ausdrücke: Zeichenklassen {.smaller}

Reguläre Ausdrücke: Quantoren {.smaller}

Reguläre Ausdrücke: Beispiele I {.smaller}

Reguläre Ausdrücke: Beispiele II {.smaller}

CQP I: Grundlagen

Tokenstream mit positionalen Attributen {.smaller}

CQP II: Suche im Tokenstream {.smaller}

CQP III: Quantoren {.smaller}

CQP IV: Nachbarn {.smaller}

CQP: Ein Fall für alle polmineR-Methoden {.smaller}

CQP und kwic()-Methode {.smaller}

CQP: Ein Fall auch für `dispersion()`

CQP: Ein Fall auch für `cooccurrences()` {.smaller}

Fazit {.smaller}

Anhang: Das Stuttgart-Tübingen-Tagset (Auszug) {.smaller}

Literatur {.smaller}

R Package Documentation

Browse R Packages

We want your feedback!

PolMine/UCSSR Using Corpora in Social Science Research

In PolMine/UCSSR: Using Corpora in Social Science Research

Initialisierung {.smaller}

CWB, CQP und 'polmineR' {.smaller}

Suche nach Worten {.smaller}

Reguläre Ausdrücke: Zeichenklassen {.smaller}

Reguläre Ausdrücke: Quantoren {.smaller}

Reguläre Ausdrücke: Beispiele I {.smaller}

Reguläre Ausdrücke: Beispiele II {.smaller}

CQP I: Grundlagen

Tokenstream mit positionalen Attributen {.smaller}

CQP II: Suche im Tokenstream {.smaller}

CQP III: Quantoren {.smaller}

CQP IV: Nachbarn {.smaller}

CQP: Ein Fall für alle polmineR-Methoden {.smaller}

CQP und kwic()-Methode {.smaller}

CQP: Ein Fall auch für dispersion()

CQP: Ein Fall auch für cooccurrences() {.smaller}

Fazit {.smaller}

Anhang: Das Stuttgart-Tübingen-Tagset (Auszug) {.smaller}

Literatur {.smaller}

R Package Documentation

Browse R Packages

We want your feedback!

PolMine/UCSSR
Using Corpora in Social Science Research

CQP: Ein Fall auch für `dispersion()`

CQP: Ein Fall auch für `cooccurrences()` {.smaller}