In zozlak/MLAKdane: Pakiet do zlaczania danych z rejestrow ZUS i uczelni

Porówanie wyników generowanych przez wersje 0.6.0 i 0.7.x

library(dplyr)
library(MLAK)
devtools::load_all(".")
wszystkoS = wczytajDane('../dane/stare/2016-09_0.7.0.RData')
wszystkoS = wszystkoS %>% filter(!ID_ZDAU %in% wszystkoS$ID_ZDAU[duplicated(wszystkoS$ID_ZDAU)])
miesieczneS = wczytajDane('../dane/stare/2016-09_0.7.0_mies.RData')
miesieczneS = miesieczneS %>% rename(ID_ZDAU = ID_ZDAU_M, OKRES = OKRES_M) %>% semi_join(wszystkoS %>% select(ID_ZDAU))
wszystko = wczytajDane('../dane/stare/2016-09_0.7.1.RData')
miesieczne = wczytajDane('../dane/stare/2016-09_0.7.1_mies.RData')
wszystko = wszystko %>% semi_join(wszystkoS %>% select(ID_ZDAU))
wszystkoS = wszystkoS %>% semi_join(wszystko %>% select(ID_ZDAU))
miesieczne = miesieczne %>% rename(ID_ZDAU = ID_ZDAU_M, OKRES = OKRES_M) %>% semi_join(wszystko %>% select(ID_ZDAU))
miesieczneS = miesieczneS %>% semi_join(miesieczne %>% select(ID_ZDAU, OKRES)) %>% distinct()

agreguj_do_miesiecy->agreguj_do_okresu

porownaj(wszystkoS, wszystko, 'NME', 'NM_E') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'NEM', 'NPM_E') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'EZARDP1', 'EZ_Z_P1') %>% group_by(d) %>% summarize(n = n()) %>% filter(abs(d) > 0.01 | is.na(d) | is.nan(d)) 
porownaj(wszystkoS, wszystko, 'EZARD', 'EZ_Z') %>% group_by(d) %>% summarize(n = n()) %>% filter(abs(d) > 0.01 | is.na(d) | is.nan(d)) 

# osoby mające w wersji 0.6.0 nieistniejący kod pocztowy skutkujący NA/NaN na dany miesiąc
prPna = miesieczneS %>% filter(is.nan(BILOD_M)) %>% select(ID_ZDAU) %>% distinct() %>% mutate(prPna = 1L)
porownaj(wszystkoS, wszystko, 'ZILOP1', 'WZG_EZ_Z_P1') %>% arrange(desc(abs(d))) %>% filter(abs(d) > 0.0001) %>% arrange(desc(abs(d))) %>% left_join(prPna)
porownaj(wszystkoS, wszystko, 'ZILO', 'WZG_EZ_Z') %>% arrange(desc(abs(d))) %>% filter(abs(d) > 0.0001) %>% arrange(desc(abs(d))) %>% left_join(prPna)
# NA w poprzednim zbiorze wyglądają na błędy
porownaj(wszystkoS, wszystko, 'BILODP1', 'WZG_RYZBEZ_P1') %>% filter(abs(d) > 0.001 | is.na(d) | is.nan(d), !is.na(a)) %>% arrange(desc(abs(d))) %>% left_join(prPna) 
# NA w poprzednim zbiorze z braku kodów pocztowych
porownaj(wszystkoS, wszystko, 'BILOD', 'WZG_RYZBEZ') %>% filter(abs(d) > 0.0001 | is.na(d) | is.nan(d), !is.na(a)) %>% arrange(desc(abs(d))) %>% left_join(prPna)

oblicz_okienko

porownaj(wszystkoS, wszystko, 'LENP1', 'LEN_P1') %>% group_by(d) %>% summarize(n = n())

oblicz_pracodawcy

porownaj(wszystkoS, wszystko, 'EMLENP', 'ENUP_ENL') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'NNDN', 'NPN_E') %>% group_by(d) %>% summarize(n = n())

oblicz_stale

porownaj(wszystkoS, wszystko, 'IFZUS', 'IF_ZUS') %>% group_by(d) %>% summarize(n = n())

oblicz_studyp

porownaj(wszystkoS, wszystko, 'KONT', 'KONT') %>% group_by(d) %>% summarize(n = n())

oblicz_zamieszkanie

Różnice na tych, którzy umarli miesiąc po dyplomie - teraz mają NA w zamieszkaniu

porownaj(wszystkoS, wszystko, 'JPDZAM0', 'JPDZAM0') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'JPDZAM1', 'JPDZAM1') %>% group_by(d) %>% summarize(n = n())

oblicz_zmienne_czasowe

porownaj(wszystkoS, wszystko, 'TMUN', 'TP_M') %>% group_by(d) %>% summarize(n = n())

oblicz_utrata_etatu

porownaj(wszystkoS, wszystko, 'NMLE', 'UP_E') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'NMLEP1', 'UP_E_P1') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'NMLENP', 'UP_ENL') %>% group_by(d) %>% summarize(n = n())
porownaj(wszystkoS, wszystko, 'NMLEP', 'UP_EL') %>% group_by(d) %>% summarize(n = n()) 
porownaj(wszystkoS, wszystko, 'NMLEPP1', 'UP_EL_P1') %>% group_by(d) %>% summarize(n = n())

miesięczne

porownaj(miesieczneS, miesieczne, 'BILOD_M', 'WZG_RYZBEZ_M', c('ID_ZDAU', 'OKRES')) %>% filter(!is.nan(a), abs(d) > 0.0001) # pomijamy nan-y ze względu na błędy wyliczania w wersji 0.6.0
porownaj(miesieczneS, miesieczne, 'ZILO_M', 'WZG_EZ_Z_M', c('ID_ZDAU', 'OKRES')) %>% filter(!is.na(a), abs(d) > 0.0001)  # pomijamy NA, bo w poprzednim zbiorze brakowało paru kodów pocztowych, przez co ZILO wychodziło NA