RppsWrangler: Pacote para importacao de dados relativos aos RPPS

#' Extracao de texto contido em arquivo do tipo pdf.
#'
#' Esta funcao utiliza a funcao \code{readPDF}, do pacote \code{tm} (Text Mining) para extrair
#' o texto contido num arquivo pdf.
#'
#' @param uri uma string contendo o nome do arquivo (ou caminho completo) do arquivo pdf.
#' @return um objeto do tipo \code{character} contendo o texto extraido do arquivo pdf.
#' @author Bruno M. S. S. Melo
#' @examples
#' \dontrun{
#' fullText <- extractPdfText(uri = "DAIR.pdf", enconding = 'UTF-8')
#' }
#' @seealso \code{tm::readPDF}
utilExtractPdfText <- function(uri, enconding = 'UTF-8'){

  pdfText <- tm::readPDF(control = list(text = "-layout"))(elem = list(uri = uri),
                                                           language = "en",
                                                           id = "id1")
  pdfText <- paste(pdfText[[1]], collapse = ' ')

  Encoding(pdfText) <- enconding
  pdfText <- iconv(enc2native(pdfText), to = "ASCII//TRANSLIT")
}

brunomssmelo/RppsWrangler documentation built on May 13, 2019, 7:56 a.m.

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

brunomssmelo/RppsWrangler
Pacote para importacao de dados relativos aos RPPS

R/utilExtractPdfText.R
In brunomssmelo/RppsWrangler: Pacote para importacao de dados relativos aos RPPS

R Package Documentation

Browse R Packages

We want your feedback!

brunomssmelo/RppsWrangler Pacote para importacao de dados relativos aos RPPS

R/utilExtractPdfText.R In brunomssmelo/RppsWrangler: Pacote para importacao de dados relativos aos RPPS

R Package Documentation

Browse R Packages

We want your feedback!

brunomssmelo/RppsWrangler
Pacote para importacao de dados relativos aos RPPS

R/utilExtractPdfText.R
In brunomssmelo/RppsWrangler: Pacote para importacao de dados relativos aos RPPS