match_words_in_vocab: match_words_in_vocab
In Gulde91/KommaModel: Finds commas in danish sentences

Description Usage Arguments Details Value

Her matches hvert ord i hvert element i str_list i ord og får det tilsvarende index nummer i ord.

1	match_words_in_vocab(str_list, ord, numCores)

`str_list`	Liste med sætninger hvor hver sætning er splitter op i ord
`ord`	Ordbog som character vector
`numCores`	Antal kerner

I både str_list og ord findes ord hvor der kan indgå både store og små bogstaver. For at matche så korrekt som muligt, bruges hverken tolower() eller toupper() funktionalitet. Det har dog den ulempe, at det første ord i hver sætning, som altid har stort begyndelsesbogstav, sjældent matches i ordbogen. Derfor bruges tolower() på første ord i hver sætning, og det første ord matches både på det originale ord, med stort begyndelsesbogstav og på tolower udgaven. Efterfølgende vælges det ord, som kunne matches i ord. Hvis ingen kunne matches returneres *NA* for første ord, hvis de begge kunne matches, så returneres tolower indekset. Det vurderes at det er mest korrekt, selvom der kan være tilfælde, hvor det vil være mest korrekt at returnere indekset for det oprindelige ord (dvs. uden tolower). Årsagen til, at det er nødvendigt at matche det første ord 2 gange er, at et ord som eksempelvis *Hvem* kun findes i tolower-udgaven i ord, mens et ord som *USA* ikke findes i tolower-udgaven.

En liste som str_list, men i stedet for ord, så indeholdende index ift. hvor ordet er matchet i ord.

Gulde91/KommaModel documentation built on Aug. 22, 2020, 9:42 p.m.