In lucasmation/microdadosBrasil: Reads most common Brazilian public microdata (CENSO, PNAD, etc) easy and fast

knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>",
  fig.path = "README-"
)

microdadosBrasil

Trabalho em andamento

NOVIDADES:

Censo 2010
RAIS
CAGED
PME
Não usa R? Veja: using the package from Stata and Python

EM BREVE:

Suporte para leitura de dados fora da memória RAM
Harmonização do nome de variáveis ao longo dos anos

DESCRIÇÃO

Esse pacote disponibiliza funções para importar as bases mais comuns de microdados brasileiros. Importar estes microdados pode ser tedioso. A maior parte dos dados é disponibilizada em arquivos do tipo txt colunado (fixed width files, fwf) e, geralmente, contém scripts de importação somente para SAS e SPSS. Os dados algumas vezes vem subdivididos em muitos arquivos, por UF ou Região. Além disso é comum que nomes de arquivos e de variáveis de certa base de dados variem ao longo do tempo. microdadoBrasil cuida desses detalhes pra você. Internamente o pacote está rodando readr para arquivos fwf e data.table aquivos separados por delimitadores (csv). Assim, a importação é rápida.

Atualmente, o pacote inclui funções de importação para as seguintes bases de dados:

d <- data.frame(
  Fonte=c('IBGE','IBGE','IBGE','IBGE','INEP','INEP','MTE','MTE'),
  Dataset=c('PNAD','Censo Demográfico','PME','POF','Censo Escolar','Censo da Educ. Superior','CAGED','RAIS'),
  Função=c('read_PNAD','read_CENSO','read_PME','read_POF','read_CensoEscolar','read_CensoEducacaoSuperior','read_CAGED','read_RAIS'),
  Período=c('2001 to 2014','2000','2002.01 to 2015.12','2008','1995 to 2014','1995 to 2014','2009.01 to 2016.05','1998 to 2014'),
  Subdataset=c('domicilios, pessoas','domicilios, pessoas','vinculos','several, ver detalhes','escolas, ..., ver detalhes','ver detalhes','vinculos','estabelecimentos, vinculos')
  )
library(printr)
d

Para os dados em formato fwf, o pacote inclui, internamente, dicionários de importação. Esses dicionários foram criados com a função import_SASdictionary(), que pode ser utilizado pelo usuário para construir, a partir de um dicionário SAS, dicionários não incluídos no pacote. Dicionário incluídos no pacote podem ser acessados com a função get_import_dictionary.

O pacote também harmoniza nomes de arquivos e a estrutura das pastas ao longo tempo, através de uma tabela de metadados, tornando possível a importação de bases de dados que usualmente vem dividadas em subgroupos regionais (por UF ou região) em um único objeto.

INSTALAÇÃO

install.packages("devtools")
install.packages("stringi") 
devtools::install_github("lucasmation/microdadosBrasil")
library('microdadosBrasil')

UTILIZAÇÃO

# Censo Demográfico 2000
#Depois de ter baixado e descompactado os arquivos em seu diretório de trabalho , rode:
d <- read_CENSO('domicilios',2000)
d <- read_CENSO('pessoas',2000)

#Para importar os dados a partir de uma pasta diferente de seu atual diretório de trabalho, use 
d <- read_CENSO('domicilios',2000, root_path ="C:/....")
#Para restringir a importação para apenas uma UF, use:
d <- read_CENSO('pessoas',2000, UF = "DF")

# PNAD 2002
download_sourceData("PNAD", 2002, unzip = T)
d  <- read_PNAD("domicilios", 2002)
d2 <- read_PNAD("pessoas", 2002)

# Censo Escolar
download_sourceData('CensoEscolar', 2005, unzip=T)
d <- read_CensoEscolar('escola',2005)
d <- read_CensoEscolar('escola',2005,harmonize_varnames=T)

#RAIS
#Para tentar baixar os dados de todo o ano de 2000 e todas as UFs
download_sourceData("RAIS", i = "2000")
#Para ler os dados de todas as UFs:
d<- read_RAIS('vinculos', i = 2000)
#Para ler os dados de UFs selecionadas:
d<- read_RAIS('vinculos', i = 2000, UF = c("DF","GO"))

#PME

#Irá baixar os dados para todo o ano de 2012, pois estes vem em um único arquivo:
download_sourceData("PME", i = "2012.01")
#O período deve ser inserido entre aspas e no formato YYYY.MM
d <- read_PME("vinculos", "2012.01")

ESFORÇOS RELACIONADOS

Esse pacote foi altamente influenciado por esforços similares, que são grande poupadores de tempo, muito utilizados e, algumas vezes, não reconhecidos:

Scripts para ler a maioria das pesquisas do IBGE de Anthony Damico. Excelente se seus dados não cabem na memória RAM e você quer velociadade para trabalhar com dados de amostras complexas.
Data Zoom por Gustavo Gonzaga, Cláudio Ferraz e Juliano Assunção. Esforço de simplificação para o software Stata. Além da importação, harmoniza nomes das variáveis.
dicionariosIBGE, por Alexandre Rademaker. Conjunto de data.frames contendo a informação dos dicionários de importação do SAS. .
IPUMS. Harmonização de dados microdados de CENSO de vários países, incluindo o Brasil. Funções de importação para R, Stata, SAS e SPSS.

microdadosBrasil Se diferencia destes pacotes por:

Trazer opções de importação para períodos mais recentes
Incluir dados de outras fontes, além do IBGE, como Censo Escolar (do INEP) e a RAIS (do MTE).
Separar código pra importação e os metadados específicos de cada base de dados, como explicado abaixo:

Princípios de concepção do pacote

O principal princípio utilizado na construção do pacote foi separar os detalhes de cada base de dados, como a estrutura de pastas e nome de arquivos em tabelas de metadados(salvos como arquivos .csv na pasta extdata). O conteúdo dessas tabelas, assim como uma lista contendo os dicionários de importação extraídos dos dicionários oficiais em formato SAS, seve como parâmetro para a importação dos microdados para cada ano. Essa separação entre detalhes específicos de cada base de dados e código torna o código mais simples e generalizável, facilitando a extensão para novas base de dados.

ergonomics over speed (develop)

lucasmation/microdadosBrasil documentation built on Dec. 6, 2019, 7:14 p.m.

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

Tweet to @rdrrHQ

GitHub issue tracker

ian@mutexlabs.com