title: "Przetwarzanie zbiorów z pilotażowej rundy monitoringu" author: "Tomasz Żółtak" date: "27 października 2017" lang: pl
Na podstawie zbioru z badania absolwentów
(MLEZAMiD_absolwent_n2959_20171013.sav) funkcja
wczytaj_wyniki_pilrm()
zwraca listę ramek danych (zbiorów) zawierającą
następujące elementy:
dane
- zawiera odpowiedzi na pytania niedotyczące epizodów (por.
niżej);epizody
- zawiera informacje dotyczące wymienionych przez
respondentów epizodów:gospDom
- zawiera informacje o członkach gospodarstw domowych
respondentów;czasy
- zawiera informacje o czasach udzielania odpowiedzi na
pytania.Funkcja imputuj_miesiac_pk_pilrm()
przetwarza listę zbiorów danych,
zwróconą przez wczytaj_wyniki_pilrm()
i zwraca listę zbiorów danych
o dokładnie takiej samej strukturze (p. wyżej).
Metody imputacji wartości zmiennych opisujących moment rozpoczęcia i moment zakończenia epizodów opisane zostały szczegółowo w sekcji 3. tego dokumentu.
Funkcja przygotuj_zbior_osobo_miesiecy_pilrm()
przetwarza listę
zbiorów danych, zwróconą przez imputuj_miesiac_pk_pilrm()
i zwraca
ramkę danych (zbiór) zawierający dane o epizodach nauki, pracy
i bezrobocia przekształcone do postaci osobo-miesięcy (obserwacją jest
osoba w danym miesiącu).
Struktura zbioru i sposób jego tworzenia zostały szczegółowo opisane w sekcji 6. tego dokumentu.
Identyfikatorem respondenta w zbiorach jest zmienna ID
(W oryginalnym
zbiorze danych z wynikami badania absolwentów zmienna ta nazywa się
ID_IBE
).
Aby możliwe było łatwiejsze identyfikowanie interesujących nas w analizie epizodów, w zbiorze utworzone zostały specjalne zmienne (znajdują się na początku zbioru):
ID
- identyfikator respondenta, umożliwia łączenie z innymi
zbiorami danych z badania;typ_epizodu
- typ epizodu, przyjmuje jedną z ośmiu wartości:
‘bezrobocie’.
Uwaga! Epizody ‘studia’ i ‘SPolic.’ są specyficzne, gdyż zawierają również informacje dotyczące zdawania na te kierunki studiów/do tych szkół policealnych, na/w których respondent podjął naukę. W związku z tym, jeśli przedmiotem analizy mają być kierunki/szkoły na/do których respondent zdawał, należy w niej uwzględnić odpowiednio zarówno epizody typu ‘zdawanie na studia’, jak i epizody typu ‘studia’ albo zarówno epizody typu ‘zdawanie do SPolic.’, jak i epizody typu ‘SPolic.’.
nr
- wartość zmiennej wskazuje, jako który z kolei (inaczej
mówiąc, w którym obiegu pętli skryptu, czy też, w którym wierszu
tabeli reprezentującej odpowiedzi na blok pytań o „epizody” danego
typu w „papierowej” wersji kwestionariusza) epizod określonego
typu respondent wymienił dany epizod;
czas_rozp
lub czas_kon
, a dopiero w dalszej
zmienną nr
.nr
odnosi się łącznie do epizodów typu ‘zdawanie do
SPolic.’ i ‘SPolic.’ (tj. epizody obu tych typów w ramach tej
samej osoby posiadają jedną, ciągłą numerację) oraz łącznie do
epizodów typu ‘zdawanie na studia’ i ‘studia’, co wiąże się
z opisaną wyżej specyfiką epizodów typów ‘studia’ i ‘SPolic.’.nr
występuje tylko 1, gdyż kwestionariusz nie dopuszczał
wymienienia kilku epizodów tego typu.nr
równa 99 oznacza, że dany epizod pracy został
dopowiedziany w wyniku udzielenia przez respondenta odpowiedzi
na pytania PG5.czas_rozp
- czas rozpoczęcia trwania danego epizodu, wyrażony
jako liczba miesięcy od czerwca 2015 r. (a więc domyślnego momentu
ukończenia szkoły, jako absolwent której respondent został
zakwalifikowany do badania);czas_rozp
(p. odpowiednia sekcja);
dla epizodów pozostałych typów zawsze arbitralnie przyjmowano,
że był to czerwiec;czas_kon
- czas zakończenia trwania danego epizodu, wyrażony
jako liczba miesięcy od czerwca 2015 r. (a więc domyślnego momentu
ukończenia szkoły, jako absolwent której respondent został
zakwalifikowany do badania);czas_rozp
(p. odpowiednia sekcja);
dla epizodów pozostałych typów zawsze arbitralnie przyjmowano,
że był to lipiec;czas_kon
może też wskazywać na to, że
dany epizod wciąż trwa - aby sprawdzić, czy mamy z tym do
czynienia, należy posłużyć się zmienną czy_zakonczony
.czy_zakonczony
- dychotomiczna zmienna wskazująca, czy dany
epizod się zakończył, czy w momencie realizacji wywiadu
z respondentem wciąż trwał:zp2c
, sp6d
, pp6d
(jako wskazujące
na zakończenie epizodu traktowano odpowiedzi mówiące
o uzyskaniu dyplomu, jak i o przerwaniu nauki) oraz u2d
;pg2f
,
i pb1e
;ID
, przekształcone zostały
na pisane małymi literami.sp6h_1
- sp6h_3
i pp6i_1
- pp6i_3
w oryginalnym zbiorze SPSS wartości kodowane były wg schematu
0-nie, 1-tak).pp3a
i sp3a
utworzona została
zmienna czy_preferowany
opisująca to, czy szkoła lub kierunek był
preferowany przez respondenta (spośród potencjalnie kilku, do
których/na które zdawał) przy pomocy wartości: 1-tak, 2-nie.czy_preferowany
przypisana została do danej
szkoły/kierunku wartość 1 (tak).pg1b
podaje kod pracodawcy, który w sytuacji, gdy
respondent miał wiele epizodów pracy, pozwala stwierdzić, czy była
to praca u różnych, czy u tego samego pracodawcy. Zmienna ta ma
następujące własności i ograniczenia:Imputacji brakujących wartości zmiennych czas_rozp
i czas_kon
dla
epizodów typu ‘praca’ i ‘bezrobocie’ dokonano przy użyciu modeli
regresji liniowej.
czas_rozp
.typ_szkoly
);m1
);praca
i bezrobocie
w sekcji Zbiór z danymi w postaci
osobo-miesięcy (przekodowane na zestaw zmiennych dummy, przy
czym brak danych uwzględniono przy przekodowaniu jako legalną
wartość);r5s2
) i jego
interakcję z 4).czas_rozp
):czas_rozp
również po imputacji przyjmowała tylko wartości
całkowite).czas_kon
, ale wartość
zmiennej czas_rozp
była imputowana).czas_rozp
na
najbliższą mającą sens.czas_kon
a czas_rozp
).czas_kon
określano, dodając do
wartości zmiennej czas_rozp
wartość przewidywania wynikającą
z modelu (zaokrągloną do najbliższej liczby całkowitej).typ_szkoly
);m1
);praca
i bezrobocie
w sekcji Zbiór z danymi w postaci
osobo-miesięcy (przekodowane na zestaw zmiennych dummy, przy
czym brak danych uwzględniono przy przekodowaniu jako legalną
wartość);r5s2
) i jego
interakcję z 5);czas_rozp
) - uwzględniano przy tym również wartości tej
zmiennej, które zostały zaimputowane.czas_kon
):czas_kon
również po imputacji przyjmowała tylko wartości
całkowite).czas_kon
na
najbliższą mającą sens.m10d_in
zostały domknięte
i zespolone z typowymi odpowiedziami na pytanie M10 w ramach
zmiennej m10d_rekod
.m10c_wiek
, zawierająca wiek
przeliczony z daty urodzenia.Typowo zbiór epizodów wykorzystywane będzie w analizie w ten sposób, że:
dane
listy zwracanej przez funkcję
wczytaj_wyniki_pilrm()
, w którym jednemu respondentowi odpowiada
jeden wiersz) w celu przeprowadzenia dalszych analiz.Należy mieć przy tym na uwadze, że znaczna część respondentów mogła nie mieć żadnego epizodu właśnie analizowanego typu. W szczególności oznacza to, że:
ID
), co do której będziemy
mieć pewność, że dla wszystkich w zagregowanym zbiorze przyjmie
ona wartość niebędącą brakiem danych i będzie ją można potem
wygodnie wykorzystać do stwierdzenia, którzy respondenci
w oryginalnym zbiorze danych mieli choć jeden epizod
interesującego nas typu.W zbiorze zawarte zostały następujące zmienne opisujące cechy respondentów stałe w czasie:
ID
- identyfikator respondenta, umożliwia łączenie z innymi
zbiorami danych z badania;typ_szkoly
- typ szkoły, jako uczeń której respondent został
zakwalifikowany do badania;r5s2
- miesiąc, w którym został przeprowadzony wywiad
z respondentem;f6
- zmienna opisująca powód nieuzyskania świadectwa szkoły, jako
uczeń której respondent został zakwalifikowany do badania;f7
- rok uzyskania świadectwa szkoły, jako uczeń której respondent
został zakwalifikowany do badania;t_laczny_czas
- łączny czas trwania wywiadu, obliczony poprzez
zsumowanie zmiennych opisujących czasy odpowiedzi na poszczególne
pytania;m1
- płeć respondenta;m2
- rok urodzenia respondenta;m3
- klasa wielkości miejscowości zamieszkania w momencie
przeprowadzania wywiadu z absolwentem.W zbiorze zawarte zostały następujące zmienne opisujące statusy respondentów w poszczególnych miesiącach:
data
- identyfikator miesiąca w formie czytelnej;czas
- identyfikator miesiąca w formie liczby - liczba miesięcy,
jaka upłynęła od czerwca 2015 r. (a więc domyślnego momentu
ukończenia szkoły, jako absolwent której respondent został
zakwalifikowany do badania) do miesiąca, który opisuje dany rekord
w zbiorze;status
- zmienna kodująca w syntetycznej formie status
respondenta: wartości zmiennych (kolejno) praca
, nauka
i bezrobocie
sklejone ze sobą w jeden ciąg znaków (składający
się z trzech cyfr: cyfra setek koduje pracę, dziesiątek naukę,
a jedności bezrobocie);praca
- zmienna kodująca status zatrudnienia;nauka
- zmienna kodująca status uczestnictwa w edukacji formalnej;bezrobocie
- zmienna kodująca, czy respondent deklarował się jako
pozostający bez pracy;praca_a_bezrobocie
- zmienna opisująca ew. występowanie w danym
miesiącu (dla danego respondenta) konfliktów pomiędzy statusem
zatrudnienia a statusem bezrobocia, fakt skorygowania takiego
konfliktu (p. sekcja Sposób kodowania statusów) lub jego
przyczynę;korekta_ciaglosc_nauki
- zmienna pozwala zidentyfikować rekordy,
w których status uczestnictwa w nauce formalnej został skorygowany
ze względu na stwierdzenie ciągłości nauki (p. sekcja Sposób
kodowania statusów);imput_praca
- zmienna wskazująca, że status zatrudnienia w danym
miesiącu (dla danego respondenta) został zakodowany w oparciu
o zaimputowaną wartość zmiennej czas_rozp
lub zmiennej czas_kon
;imput_nauka
- zmienna wskazująca, że status uczestnictwa w nauce
formalnej w danym miesiącu (dla danego respondenta) został
zakodowany w oparciu o zaimputowaną wartość zmiennej czas_rozp
lub
zmiennej czas_kon
;;imput_bezrobocie
- zmienna wskazująca, że status bezrobocia
w danym miesiącu (dla danego respondenta) został zakodowany
w oparciu o zaimputowaną wartość zmiennej czas_rozp
lub zmiennej
czas_kon
;.czas
.czas_rozp
był brak danych) lub epizod był
zakończony (czy_zakonczony
równe 1) i nieznany był rok zakończenia
epizodu (tj. już po przeprowadzeniu imputacji wartością zmiennej
czas_kon
był brak danych).czas_rozp
i czas_kon
były
w takich przypadkach imputowane (p. sekcje Zmienne specjalne
w zbiorach w postaci „długiej” i Imputacja wartości zmiennych
czas_rozp
i czas_kon
).praca
- zmienną zakodowano na podstawie zmiennych pg2g
i pg2h
:pg2h
równe 1 (pg2g
równe 1, 2 lub 3) -> 1 (zatrudniony na
umowę o pracę);pg2h
równe 2 (pg2g
równe 1, 2 lub 3) -> 2 (zatrudniony
przez agencję pracy tymczasowej);pg2h
równe 3 (pg2g
równe 1, 2 lub 3) -> 3 (zatrudniony na
umowie cywilnoprawnej);pg2h
równe 4 (pg2g
równe 1, 2 lub 3) -> 4 (samozatrudniony
(‘praca u kogoś’));pg2g
równe 4 -> 5 (prowadzi własną działalność (‘praca u
siebie’));pg2g
równe 5 -> 6 (prowadzi własne gosp. rolne);pg2h
równe 6 lub 7 (pg2g
równe 1, 2 lub 3) -> 7 (odbywa
staż lub praktykę absolwencką);pg2h
równe 5 (pg2g
równe 1, 2 lub 3) -> 8 (zatrudniony bez
umowy (na czarno));nauka
- zmienną zakodowano na podstawie zmiennej typ_epizodu
:typ_epizodu
równe ‘studia’ -> 2;typ_epizodu
równe ‘SPolic.’ -> 3;czas
od -9 do 1) przypisano wartość 1,
która oznacza, że respondent uczył się w tym czasie w szkole,
jako uczeń której został zakwalifikowany do badania;bezrobocie
- zmienną zakodowano na podstawie zmiennej pb1f
:pb1f
równe 1 -> 1 (bezrobotny, poszukuje pracy);pb1f
równe 2 -> 2 (bierny zawodowo);Jeśli stwierdzono, że respondent:
wszystkie miesiące (włącznie) od czerwca do odpowiednio września lub
sierpnia, w których respondent nie zadeklarował, że się uczył, oznaczane
były jako okres odpowiednio studiowania (nauka
równe 2) lub nauki
w szkole policealnej (nauka
równe 3).
Kodowanie na podstawie niewystępowania epizodów obejmujących dany miesiąc
praca
- jeśli respondent nie wymienił żadnych epizodów pracy
obejmujących dany miesiąc, zmiennej praca
przypisywana była
wartość 0;nauka
- jeśli respondent nie wymienił żadnych epizodów nauki
obejmujących dany miesiąc, zmiennej nauka
przypisywana była
wartość 0 (z wyłączeniem miesięcy, dla których status ten zmieniono
w wyniku opisanej powyżej procedury uwzględniania ciągłości nauki);bezrobocie
:praca
i nauka
przyjmowała w tym miesiącu dla
respondenta wartość inną niż 0, zmiennej bezrobocie
przypisywano wartość 0 (nie bezrobotny);praca
, jak i zmienna nauka
przyjmowały wartość 0 (tj.
respondent nie pracował, ani się nie uczył), przyjmowano, że
respondent był w danym miesiącu bierny zawodowo i zmiennej
bezrobocie
przypisywano wartość 2;status
: ‘999’;W ramach przyjętego schematu kodowania nie narzucano wzajemnego
wykluczania się niezerowych (tj. wskazującymi na aktywność zawodową
lub edukacyjną) wartości zmiennych praca
i nauka
z niezerowymi
wartościami zmiennej bezrobocie
(wskazującymi na pozostawaniu bez
zatrudnienia). W związku z występowaniem w zbiorze rekordów, w których
statusy wskazują jednocześnie na bezrobocie (lub nieaktywność zawodową)
i aktywność zawodową lub naukę, należy rozważyć, że:
praca_a_bezrobocie
).czas_rozp
i czas_kon
i w związku z tym można
je uznać za mniej wiarygodne.czas_rozp
i czas_kon
,
a status bezrobocia wskazujący na brak pracy został zakodowany
w oparciu o deklaracje respondenta dot. miesiąca rozpoczęcia lub
zakończenia epizodu (bezrobocia), status zatrudnienia był
zmieniany na brak zatrudnienia. Sytuacje takie oznaczone są
w zbiorze wartością ‘skorygowano pracę’ zmiennej
praca_a_bezrobocie
.czas_rozp
i czas_kon
, a status zatrudnienia wskazujący aktywność
zawodową został zakodowany w oparciu o deklaracje respondenta
dot. miesiąca rozpoczęcia lub zakończenia epizodu (pracy),
status bezrobocia był zmieniany na ‘nie bezrobotny’. Sytuacje
takie oznaczone są w zbiorze wartością ‘skorygowano bezrobocie’
zmiennej praca_a_bezrobocie
.praca_a_bezrobocie
,
w zależności od tego, czy oba statusy zostały określone na
podstawie informacji o miesiącu rozpoczęcia lub zakończenia
epizodu podanych przez respondenta, czy też oba zostały
przypisane na podstawie imputowanych wartości zmiennych
czas_rozp
i czas_kon
.praca
, nauka
i bezrobocie
na jeden status, biorąc pod uwagę, że (z powodów
opisanych we wcześniejszej sekcji) respondent może w tym samym
miesiącu być opisany jako pracujący, uczący się i bezrobotny.m2
- trzeba przy tym jeszcze podjąć decyzję, co
z respondentami - na szczęście nielicznymi - których roku urodzenia
nie znamy).f6
nie jest brakiem danych). Być może należałoby wykluczyć
ich z analizy, gdyż po pierwsze, nie do końca są absolwentami
(a przynajmniej nie w takim samym stopniu, jak wszyscy pozostali),
a po drugie (i może ważniejsze), na podstawie zebranych danych nie
jesteśmy w stanie ustalić, jak długo kontynuowali oni jeszcze naukę
(na potrzeby kodowania zupełnie arbitralnie przyjąłem, że jak
wszyscy opuścili mury szkoły w czerwcu 2015 r.).nauka
w oparciu o wartość zmiennej f7
(oraz czas
).Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.