R/extractdat.R

Defines functions extractdata num_extr

Documented in extractdata

num_extr <- function(
  res, txt
){
  gsub(
    "[^:]*: ([0-9]*).*",
    "\\1",
    grep(txt, res, value = TRUE)
  )
}

#' extract pdf data
#'
#' @param pdf_path path to the pdf
#' @export
extractdata <- function(
  pdf_path
){
  res <- tabulizer::extract_text(pdf_path)
  res <- strsplit(res, "\n")[[1]]

  cont <- c(
    "Cumul personnes contacts listées",
    "Contacts confirmés COVID-19 depuis le début",
    "Nbre de contacts sortis de suivi ce jours",
    "Cumul de contacts sortis après 14 jours de suivis",
    "Nombre de contacts à suivre",
    "Nombre de contacts vus",
    "Nombre de contacts non vus",
    "Nombre de contacts devenus suspects",
    "Nombre de nouveaux contacts"
  )

  dat <- tibble::rownames_to_column(
    as.data.frame(
      sapply(
        cont, function(x){
          num_extr(res, x)
        }
      )
    ),
    "type"
  )

  date_red <- gsub("rédaction ", "", grep("rédaction", res, value = TRUE))

  dat <- setNames(dat, c("type", "vol"))
  dat$date_redaction <- date_red
  dat
}
ColinFay/covidbf documentation built on April 13, 2020, 12:37 a.m.