knitr::opts_chunk$set(echo = TRUE) meses_a_coletar <- readRDS('meses_a_coletar.rds')
Mesmo quando é necessário fazer buscas em DJE's, pode ser útil utilizar o índice para minimizar o número de páginas que serão lidas. Além disso, essa prática diminui o total de iterações de possíveis fases subsequentes à leitura dos diários, como por exemplo o acesso a portais e-SAJ.
O código abaixo exemplifica a extração de índices de uma amostra de DJE's do TJRS.
library(magrittr) n <- 1 amostra <- meses_a_coletar %>% dplyr::filter(nome_caderno == 'Capital 1º Grau') %>% dplyr::sample_n(n) %>% dplyr::select(link) %>% dplyr::mutate(arq = sapply(1:n,function(x){tempfile()})) %>% plyr::mdply(function(link,arq){ download.file(link,arq) system(sprintf('pdftotext -raw -f 1 -l 2 %s %s.txt',arq, arq)) #o -raw é muito importante porque o conteúdo está dividido em duas colunas que são lidas em linhas diferentes quando essa opção está desativada #como vamos apenas procurar o índice não é necessário converter todas as páginas. Vamos nos ater às duas primeiras. }) %>% dplyr::mutate(arq = paste0(arq,'.txt')) indice <- extrair_indice(amostra$arq[1])
Em posse do índice é possível converter para texto apenas as páginas de interesse
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.