match_words_in_vocab: match_words_in_vocab

Description Usage Arguments Details Value

View source: R/input_funktioner.R

Description

Her matches hvert ord i hvert element i str_list i ord og får det tilsvarende index nummer i ord.

Usage

1
match_words_in_vocab(str_list, ord, numCores)

Arguments

str_list

Liste med sætninger hvor hver sætning er splitter op i ord

ord

Ordbog som character vector

numCores

Antal kerner

Details

I både str_list og ord findes ord hvor der kan indgå både store og små bogstaver. For at matche så korrekt som muligt, bruges hverken tolower() eller toupper() funktionalitet. Det har dog den ulempe, at det første ord i hver sætning, som altid har stort begyndelsesbogstav, sjældent matches i ordbogen. Derfor bruges tolower() på første ord i hver sætning, og det første ord matches både på det originale ord, med stort begyndelsesbogstav og på tolower udgaven. Efterfølgende vælges det ord, som kunne matches i ord. Hvis ingen kunne matches returneres *NA* for første ord, hvis de begge kunne matches, så returneres tolower indekset. Det vurderes at det er mest korrekt, selvom der kan være tilfælde, hvor det vil være mest korrekt at returnere indekset for det oprindelige ord (dvs. uden tolower). Årsagen til, at det er nødvendigt at matche det første ord 2 gange er, at et ord som eksempelvis *Hvem* kun findes i tolower-udgaven i ord, mens et ord som *USA* ikke findes i tolower-udgaven.

Value

En liste som str_list, men i stedet for ord, så indeholdende index ift. hvor ordet er matchet i ord.


Gulde91/KommaModel documentation built on Aug. 22, 2020, 9:42 p.m.