Description Usage Arguments Details Value Examples
View source: R/normalizzaTesti.R
Varie funzioni di normalizzazione del testo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | normalizzaTesti(
testo,
tolower = TRUE,
normalizzahtml = TRUE,
normalizzacaratteri = TRUE,
normalizzaemote = TRUE,
normalizzaEmoticons = TRUE,
normalizzapunteggiatura = TRUE,
normalizzaslang = TRUE,
fixed = TRUE,
perl = TRUE,
preprocessingEncoding = TRUE,
encoding = "UTF-8",
sub = "",
contaStringhe = c("\\?", "\\!", "@", "#", "(\200|euro)", "(\\$|dollar)",
"SUPPRESSEDTEXT"),
suppressInvalidTexts = TRUE,
verbatim = TRUE,
remove = TRUE,
removeUnderscore = FALSE
)
|
testo |
character vector of texts |
tolower |
|
normalizzahtml |
|
normalizzacaratteri |
|
normalizzaemote |
|
normalizzaEmoticons |
|
normalizzapunteggiatura |
|
normalizzaslang |
|
fixed |
vedi |
perl |
vedi |
preprocessingEncoding |
logical |
encoding |
|
sub |
character string. If not NA it is used to replace any
non-convertible bytes in the input. See also parameter |
contaStringhe |
stringhe da contare nei documenti. Default: |
suppressInvalidTexts |
Sostituisce con |
verbatim |
Mostra statitiche durante il processo. Default |
remove |
|
removeUnderscore |
rimuovere gli underscore? |
ifErrorReturnText |
what to return for tests with a wrong encoding. |
stopwords |
Lista di parole da escludere dall'analisi. A list of words
to be excluded from the process. |
itastopwords
e' una lista di stopwords italiane.
Per normalizzaTesti
l'output e' il vettore di testi
normalizzati. La tabella dei conteggi specificati in contaStringhe
e' assegnato come tabella counts
tra gli attributes
del
vettore stesso.
Per tutte le altre funzioni, l'output e' un vector
della stessa
lunghezza di testo
ma con testi normalizzati.
1 2 3 | testoNorm <- normalizzaTesti(c('ciao bella!','www.associazionerospo.org','noooo, che grandeeeeee!!!!!','mitticooo', 'mai possibile?!?!'))
testoNorm
attr(testoNorm,"counts")
|
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.