knitr::opts_chunk$set( collapse = TRUE, comment = "#>", fig.path = "README-" )
PME
Não usa R? Veja: using the package from Stata and Python
Esse pacote disponibiliza funções para importar as bases mais comuns de microdados brasileiros. Importar estes microdados pode ser tedioso. A maior parte dos dados é disponibilizada em arquivos do tipo txt colunado (fixed width files, fwf) e, geralmente, contém scripts de importação somente para SAS e SPSS. Os dados algumas vezes vem subdivididos em muitos arquivos, por UF ou Região. Além disso é comum que nomes de arquivos e de variáveis de certa base de dados variem ao longo do tempo. microdadoBrasil
cuida desses detalhes pra você. Internamente o pacote está rodando readr
para arquivos fwf e data.table
aquivos separados por delimitadores (csv). Assim, a importação é rápida.
Atualmente, o pacote inclui funções de importação para as seguintes bases de dados:
d <- data.frame( Fonte=c('IBGE','IBGE','IBGE','IBGE','INEP','INEP','MTE','MTE'), Dataset=c('PNAD','Censo Demográfico','PME','POF','Censo Escolar','Censo da Educ. Superior','CAGED','RAIS'), Função=c('read_PNAD','read_CENSO','read_PME','read_POF','read_CensoEscolar','read_CensoEducacaoSuperior','read_CAGED','read_RAIS'), Período=c('2001 to 2014','2000','2002.01 to 2015.12','2008','1995 to 2014','1995 to 2014','2009.01 to 2016.05','1998 to 2014'), Subdataset=c('domicilios, pessoas','domicilios, pessoas','vinculos','several, ver detalhes','escolas, ..., ver detalhes','ver detalhes','vinculos','estabelecimentos, vinculos') ) library(printr) d
Para os dados em formato fwf, o pacote inclui, internamente, dicionários de importação. Esses dicionários foram criados com a função import_SASdictionary()
, que pode ser utilizado pelo usuário para construir, a partir de um dicionário SAS, dicionários não incluídos no pacote. Dicionário incluídos no pacote podem ser acessados com a função get_import_dictionary
.
O pacote também harmoniza nomes de arquivos e a estrutura das pastas ao longo tempo, através de uma tabela de metadados, tornando possível a importação de bases de dados que usualmente vem dividadas em subgroupos regionais (por UF ou região) em um único objeto.
install.packages("devtools") install.packages("stringi") devtools::install_github("lucasmation/microdadosBrasil") library('microdadosBrasil')
# Censo Demográfico 2000 #Depois de ter baixado e descompactado os arquivos em seu diretório de trabalho , rode: d <- read_CENSO('domicilios',2000) d <- read_CENSO('pessoas',2000) #Para importar os dados a partir de uma pasta diferente de seu atual diretório de trabalho, use d <- read_CENSO('domicilios',2000, root_path ="C:/....") #Para restringir a importação para apenas uma UF, use: d <- read_CENSO('pessoas',2000, UF = "DF") # PNAD 2002 download_sourceData("PNAD", 2002, unzip = T) d <- read_PNAD("domicilios", 2002) d2 <- read_PNAD("pessoas", 2002) # Censo Escolar download_sourceData('CensoEscolar', 2005, unzip=T) d <- read_CensoEscolar('escola',2005) d <- read_CensoEscolar('escola',2005,harmonize_varnames=T) #RAIS #Para tentar baixar os dados de todo o ano de 2000 e todas as UFs download_sourceData("RAIS", i = "2000") #Para ler os dados de todas as UFs: d<- read_RAIS('vinculos', i = 2000) #Para ler os dados de UFs selecionadas: d<- read_RAIS('vinculos', i = 2000, UF = c("DF","GO")) #PME #Irá baixar os dados para todo o ano de 2012, pois estes vem em um único arquivo: download_sourceData("PME", i = "2012.01") #O período deve ser inserido entre aspas e no formato YYYY.MM d <- read_PME("vinculos", "2012.01")
Esse pacote foi altamente influenciado por esforços similares, que são grande poupadores de tempo, muito utilizados e, algumas vezes, não reconhecidos:
microdadosBrasil
Se diferencia destes pacotes por:
O principal princípio utilizado na construção do pacote foi separar os detalhes de cada base de dados, como a estrutura de pastas e nome de arquivos em tabelas de metadados(salvos como arquivos .csv na pasta extdata
). O conteúdo dessas tabelas, assim como uma lista contendo os dicionários de importação extraídos dos dicionários oficiais em formato SAS, seve como parâmetro para a importação dos microdados para cada ano. Essa separação entre detalhes específicos de cada base de dados e código torna o código mais simples e generalizável, facilitando a extensão para novas base de dados.
ergonomics over speed (develop)
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.