knitr::opts_chunk$set( collapse = TRUE, comment = "#>", fig.path = "README-" )
Este pacote implementa uma série de funções que auxiliam no tratamento de textos escritos em português para que possam ser usados em análises de Text Mining.
Uma das principais diferenças deste pacote é que ele é feito para lidar com vetores
de caracteres e não com Corpus
que nem o pacote tm
. Isso o torna muito mais simples de
utilizar mesmo que exista queda na performance.
Considerando o seguinte parágrafo:
s <- c("Já dizia o clichê: “dados são o novo ouro”. O mundo gera informação esponencial e ao mesmo tempo, todos querem uma fatia desse bolo. Intuição ou regras do senso comum são úteis, mas não suficientes. É preciso saber que os dados permitem às empresas e organizações entenderem seus clientes, produtos e processos muito melhor.")
Ele possui um erro de ortografia: na palavra excencial que está escrita essencial Além disso, o texto precisa de um tratamento, antes de entrar em algum algoritmo de text mining.
Com o pacote, é possível fazer da seguinte maneira:
library(PTtextmining) s %>% transformar_minusculo() %>% transformar_corrigir() %>% remover_stopwords() %>% remover_acentos() %>% remover_pontuacao() %>% remover_numeros() %>% remover_dinheiro() %>% remover_espacos_excedentes()
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.