classificaUtenti: Classificazione per vocabolario di utenti

Description Usage Arguments Details Value Author(s) Examples

View source: R/classificaUtenti.R

Description

Associa i nomi in names ai valori indicati da un vocabolario. ad esempio vocabolarioNomiPropri assegna il genere e data(vocabolarioLuoghi) l'area geografica (vedi esempio)

Usage

1
2
3
4
5
6
7
8
classificaUtenti(
  names,
  vocabolario = NULL,
  scan_interno = FALSE,
  vocab_interno = NULL,
  how_class = "modeFirst",
  cat_interna = NULL
)

Arguments

names

vettore di nomi

vocabolario

data.frame di una colonna con la classificazione da associare. I rownames(vocabolario) devono essere unici (sono i nomi unici su cui viene fatto il controllo). il vocabolario fornito da noi e' data(vocabolarioNomiPropri). ATTENZIONE, nel vocabolario usare solo lower-case e non usare mai "NA" (mentre "na" e' valido).

scan_interno

flag, se vero la funzione effettua anche la parte di scanning interno (grepl sui vocaboli passati)

vocab_interno

è il vocabolario su cui viene effettuato (eventualmente) lo scanning interno (di default, se previsto, è pari a tutti i nomi di vocabolario di lunghezza >=5 caratteri)

how_class

gestisce la classificazione in casi "ambigui", cioè in cui per un nome vengano ritrovati più match; sono state pensati tre casi: "modeFirst" (default), in cui viene preso la categoria modale tra le riconosciute e, nel caso di multimodalità, il primo in ordine tra i match; "first" che classifica con il primo match nella stringa e "last" con l'ultimo

cat_interna

(default=NULL) permette di identificare una (o più categorie) della classificazione per cui vengono tenuti nello scanning interno tutti i termini di vocabolario e non solo quelli con più di 5 caratteri

Details

Per il data(vocabolarioLuoghi) abbiamo escluso i paesi Re (800 abitanti, Nord-ovest) e Lu (1200 abitanti, Nord-ovest) perche' in conflitto con le sigle delle province.

(update 05-09-2016) Ponendo particolare attenzione alla detection dei nomi propri, si è pensato di introdurre nella funzione tre diversi "tentativi" di classificazione. Mentre nei primi due, con diverse accortezze, si cercano parole suddivise da spazi, nel terzo ed ultimo step si prova a ricercare le stringhe di caratteri anche internamente alle parole, grazie alla funzione grepl. Alcuni parametri, descritti successivamente, regolano questa parte della classificazione.

Value

Restituisce un named vector con elementi dalla colonna categoria del data.frame vocabolario. Per vocabolario=vocabolarioNomiPropri le modalita' sono c('masc','femm','ente').

Author(s)

Mattia Uttini, Livio Finos, Andrea Mamprin, Dario Solari

Examples

1
2
3
4
5
6
 ## Not run: data(vocabolarioNomiPropri)
 ## Not run: str(vocabolarioNomiPropri)
classificaUtenti(c('livio','alessandra','alessandraRossi', 'mariobianchi'),
                   scan_interno=TRUE)
data(vocabolarioLuoghi)
classificaUtenti(c('Bosa','Pordenone, Italy'), vocabolarioLuoghi)

livioivil/TextWiller documentation built on Nov. 30, 2020, 3:17 a.m.