vignettes/runda_1-dokumentacja.md

title: "Przetwarzanie zbiorów z 1. rundy monitoringu" author: "Tomasz Żółtak" date: "17 maja 2019" lang: pl

1. Wprowadzenie

1.1. Funkcja wczytaj_wyniki_1rm()

Na podstawie zbioru z badania absolwentów (MLEZAiMD_I_runda_CAPI_absolwent_n7713_20180924_z_wagami_z_kodowaniem.sav) funkcja wczytaj_wyniki_1rm() zwraca listę ramek danych (zbiorów) zawierającą następujące elementy:

1.2. Funkcja imputuj_miesiac_pk_1rm()

Funkcja imputuj_miesiac_pk_1rm() przetwarza listę zbiorów danych, zwróconą przez wczytaj_wyniki_1rm() i zwraca listę zbiorów danych o dokładnie takiej samej strukturze (p. wyżej).

Metody imputacji wartości zmiennych opisujących moment rozpoczęcia i moment zakończenia epizodów opisane zostały szczegółowo w sekcji 3. tego dokumentu.

1.3. Funkcja przygotuj_zbior_osobo_miesiecy_1rm()

Funkcja przygotuj_zbior_osobo_miesiecy_1rm() przetwarza listę zbiorów danych, zwróconą przez imputuj_miesiac_pk_1rm() i zwraca ramkę danych (zbiór) zawierający dane o epizodach nauki, pracy i bezrobocia przekształcone do postaci osobo-miesięcy (obserwacją jest osoba w danym miesiącu).

Struktura zbioru i sposób jego tworzenia zostały szczegółowo opisane w sekcji 6. tego dokumentu.

1.4. Identyfikator respondenta

Identyfikatorem respondenta w zbiorach jest zmienna ID_RESP.

2. Struktura zbioru danych epizodów

2.1. Zmienne specjalne w zbiorze epizodów

Aby możliwe było łatwiejsze identyfikowanie epizodów, w zbiorze utworzone zostały specjalne zmienne (znajdują się na początku zbioru):

2.2. Różnice w nazwach i etykietach względem oryginalnego zbioru SPSS

2.3. Epizody dotyczące zdawania do szkół policealnych lub na studia

2.4. Informacje o odbytych szkoleniach i zdobytych uprawnieniach

Pytania o zdobyte uprawnienia i odbyte szkolenia zadawane były w kwestionariuszu w dwóch blokach: U2 i U4, z których pierwszy w założeniach odnosił się do szkoleń kończących się uzyskaniem oficjalnych certyfikatów (względnie uzyskania takich certyfikatów bez dedykowanego szkolenia), a drugi do pozostałych szkoleń. Trudno jednak powiedzieć, w jakim stopniu respondenci odpowiadając trzymali się tego podziału.

Pytania w obu blokach były analogiczne, poza tym, że w bloku U2 wystąpiły dwa pytania (o sam egzamin), których nie było w bloku U4. W związku z tym nazwy zmiennych opisujących odpowiedzi na pytania z bloku U4 zostały zmienione na zaczynające się od u2 (zamiast u4), tak aby epizody obu tych typów (tj. szkolenia u2szkolenia u4) można było analizować łącznie. Dodatkowo nazwę zmiennej u4g zmieniono na u2h, gdyż w przypadku tych dwóch zmiennych w kwestionariuszu przypisano inne sufiksy literowych do analogicznych pytań.

Blok pytań, w którym opisany został dany epizod, można zidentyfikować na podstawie zmiennej typ_epizodu.

2.5. Epizody pracy

2.6. Epizody bezrobocia

3. Imputacja wartości zmiennych czas_rozp i czas_zakon

3.1. Arbitralne przypisanie wartości

W przypadku wszystkich epizodów innych typów niż ‘praca’ i ‘bezrobocie’, jeśli respondent podał rok, ale nie podał miesiąca rozpoczęcia/zakończenia epizodu, arbitralnie przyjmowano, że rozpoczął się on w lipcu lub skończył w czerwcu.

Tak samo postąpiono z datami rozpoczęcia/zakończenia epizodów pracy i bezrobocia, co do których respondenci zadeklarowali, że były one w innych latach niż 2017 lub 2018 (ze względu na niewielką ogólną liczbę epizodów obejmujących taki wcześniejszy okres nie ma możliwości sensownie zaimputować tych czasów na podstawie modelu regresji).

Tak przypisane wartości oznaczone są w zmiennych czas_rozp_imputczas_zakon_imput jako zaimputowane.

3.2. Uzupełnianie wartości zmiennych czas_rozpczas_zakon w epizodach pracy i bezrobocia nieoznaczane jako imputacja

Jeśli respondent dla danego epizodu:

a także udzielił odpowiedzi na pytanie o szacunkową długość trwania epizodu (zmienne pg2x, pb1x), to wartość brakującej zmiennej zmiennej obliczano, odpowiednio dodając lub odejmując długość trwania epizodu do/od znanego momentu rozpoczęcia, lub zakończenia.

Obliczone w ten sposób wartości nie są w zmiennych ’czas_rozp_imputiczas_zakon_imput` oznaczane jako zaimputowane.

3.3. Imputacja na podstawie modeli regresji

Imputacji brakujących wartości zmiennych czas_rozpczas_zakon dla epizodów typu ‘praca’ i ‘bezrobocie’ dokonano przy użyciu modeli regresji liniowej.

3.3.1. Zmienna czas_rozp

Jak widać, skuteczność modelu imputacji, zwłaszcza w odniesieniu do epizodów pracy, pozostawia nieco do życzenia. W praktyce mamy do czynienia z pewnym zbijaniem imputowanych czasów rozpoczęcia w okolicach wartości 2-3 oraz 8-9 (w zależności od roku, w którym zaczął się epizod). Jednakże biorąc pod uwagę, że możemy w ten sposób odratować blisko 100 epizodów pracy, niedokładność ta wydaje się możliwa do zaakceptowania.

3.3.2. Zmienna czas_zakon

Także tutaj skuteczność modelu imputacji pozostawia nieco do życzenia. W praktyce model imputacji nie jest w stanie skutecznie przewidywać bardzo długich (można by powiedzieć nietypowo długich) epizodów. W odniesieniu do tych trwających od 0 do 9 miesięcy (a więc typowych, które mogą się pojawić w zbiorze) jest co prawda nie bardzo dokładny, ale jednak dający sensowne przewidywania.

3.4. Podsumowanie liczby braków danych dot. czasu rozpoczęcia i zakończenia epizodów w danych z badania absolwentów

Bez dokonania opisanych powyżej przypisań i imputacji

| typ_epizodu | ogółem epizodów| b.d. czas_rozp| %| b.d. czas_zakon| %| |:-----------------|----------------:|----------------:|----:|-----------------:|-----:| | bezrobocie | 2490| 105| 4,2| 48| 1,9| | LO dla dorosłych | 978| 15| 1,5| 8| 0,8| | praca | 6987| 328| 4,7| 125| 1,8| | SPolic. | 386| 9| 2,3| 1| 0,3| | studia | 1564| 15| 1,0| 13| 0,8| | szkolenia u2 | 3222| | | 956| 29,7| | szkolenia u4 | 267| | | 67| 25,1|

Po dokonaniu opisanych powyżej przypisań i imputacji

| typ_epizodu | ogółem epizodów| b.d. czas_rozp| %| b.d. czas_zakon| %| |:-----------------|----------------:|----------------:|----:|-----------------:|----:| | bezrobocie | 2490| 83| 3,3| 39| 1,6| | LO dla dorosłych | 978| 6| 0,6| 5| 0,5| | praca | 6987| 147| 2,1| 78| 1,1| | SPolic. | 386| 2| 0,5| 1| 0,3| | studia | 1564| 12| 0,8| 11| 0,7| | szkolenia u2 | 3222| | | 192| 6,0| | szkolenia u4 | 267| | | 18| 6,7|

Jak widać, przeprowadzone działania nie doprowadziły do dużych zmian w zbiorze, z wyjątkiem epizodów typu ‘szkolenia u2’ i ‘szkolenia u4’, w odniesieniu do których respondenci mieli bardzo duże problemy z precyzyjnym podaniem daty ich zakończenia. Warto jednak odnotować, że o ponad połowę udało się zmniejszyć liczbę braków danych czasu rozpoczęcia w przypadku epizodów pracy.

4. Zbiory z informacjami o członkach gospodarstw domowych

5. Uwagi o analizie zbioru epizodów

Typowo zbiór epizodów wykorzystywane będzie w analizie w ten sposób, że:

Należy mieć przy tym na uwadze, że znaczna część respondentów mogła nie mieć żadnego epizodu właśnie analizowanego typu. W szczególności oznacza to, że:

6. Zbiór z danymi w postaci osobo-miesięcy

6.1. Struktura zbioru

W zbiorze zawarte zostały następujące zmienne opisujące cechy respondentów stałe w czasie:

W zbiorze zawarte zostały następujące zmienne opisujące statusy respondentów w poszczególnych miesiącach:

6.2. Okres objęty obserwacjami w zbiorze

6.3. Sposób kodowania statusów

6.3.1. Reguły klasyfikacji na podstawie epizodów obejmujących poszczególne miesiące

6.3.2. Uwzględnienie ciągłości nauki (przez okres wakacji)

Jeśli stwierdzono, że respondent:

wszystkie miesiące (włącznie) od czerwca do odpowiednio września lub sierpnia, w których respondent nie zadeklarował, że się uczył, oznaczane zostały jako okres odpowiednio studiowania (nauka równe 2) lub nauki w szkole policealnej (nauka równe 3).

6.3.3. Kodowanie na podstawie niewystępowania epizodów obejmujących dany miesiąc

6.4. Relacje pomiędzy statusami pracy i nauki a statusem bezrobocia

W ramach przyjętego schematu kodowania nie narzucano wzajemnego wykluczania się niezerowych (tj. wskazującymi na aktywność zawodową lub edukacyjną) wartości zmiennych pracanaukaniezerowymi wartościami zmiennej bezrobocie (wskazującymi na pozostawaniu bez zatrudnienia). W związku z występowaniem w zbiorze rekordów, w których statusy wskazują jednocześnie na bezrobocie (lub nieaktywność zawodową) i aktywność zawodową lub naukę, należy rozważyć, że:

  1. Po dużej części są to sytuacje, które mogły mieć miejsce:
    • Jeśli przejście od bezrobocia do pracy lub odwrotnie odbyło się w środku miesiąca, respondent istotnie był w danym miesiącu zarówno pracujący, jak i bezrobotny (wiersze w zbiorze, w których najprawdopodobniej mamy do czynienia z taką sytuacją wyróżnione są przez wartość ‘miesiąc graniczny’ zmiennej praca_a_bezrobocie).
    • Jeśli respondent pracował na czarno, mógł jednocześnie być formalnie bezrobotny (choć w zbiorze nie odnotowujemy tego typu deklaracji).
    • Postrzeganie się w kategoriach osoby bezrobotnej może być dla części respondentów oderwane od faktu kontynuowania lub nie nauki.
  2. W sytuacjach, gdy zidentyfikowano konflikt statusu pracy i bezrobocia, niedający się zinterpretować w kategoriach miesiąca granicznego, starano się je jeszcze rozstrzygnąć, biorąc pod uwagę, że niektóre statusy zostały przypisane na podstawie imputowanych wartości zmiennych czas_rozpczas_zakon i w związku z tym można je uznać za mniej wiarygodne.
    • Jeśli w danym miesiącu (dla danego respondenta) status pracy wskazujący na aktywność zawodową został zakodowany na podstawie imputowanych wartości zmiennych czas_rozpczas_zakon, a status bezrobocia wskazujący na brak pracy został zakodowany w oparciu o deklaracje respondenta dot. miesiąca rozpoczęcia lub zakończenia epizodu (bezrobocia), status zatrudnienia był zmieniany na brak zatrudnienia. Sytuacje takie oznaczone są w zbiorze wartością ‘skorygowano pracę’ zmiennej praca_a_bezrobocie.
    • Jeśli w danym miesiącu (dla danego respondenta) status bezrobocia wskazujący na brak pracy został zakodowany na podstawie imputowanych wartości zmiennych czas_rozpczas_zakon, a status zatrudnienia wskazujący aktywność zawodową został zakodowany w oparciu o deklaracje respondenta dot. miesiąca rozpoczęcia lub zakończenia epizodu (pracy), status bezrobocia był zmieniany na ‘nie bezrobotny’. Sytuacje takie oznaczone są w zbiorze wartością ‘skorygowano bezrobocie’ zmiennej praca_a_bezrobocie.
    • W innych przypadkach nie dało się dokonać korekt. Są one oznaczone w zbiorze wartościami ‘sprzeczne deklaracje resp.’ lub ‘sprzeczne wyniki imputacji’ zmiennej praca_a_bezrobocie, w zależności od tego, czy oba statusy zostały określone na podstawie informacji o miesiącu rozpoczęcia lub zakończenia epizodu podanych przez respondenta, czy też oba zostały przypisane na podstawie imputowanych wartości zmiennych czas_rozpczas_zakon.
      • Przypadków takich jest na szczęście w zbiorze zaledwie 36 (na blisko 15 tys.).
  3. W ogólności nie mamy niestety gwarancji, że respondenci odpowiadali w sposób spójny. W ramach wywiadu nie mieliśmy bowiem możliwości wyłapywania ew. konfliktów w deklaracjach na bieżąco i zmuszania respondentów do ich rozstrzygnięcia.

6.5. Warto przemyśleć przed przystąpieniem do analiz



tzoltak/MLASZdane documentation built on Aug. 10, 2021, 11:59 a.m.