masters: Master's Thesis Analysis

raw_cohort_93 <- haven::read_sav(
    file = "data-raw/cohort_1993_data.sav",
    encoding = "utf8",
    user_na = FALSE
    )

cohort_1993 <- raw_cohort_93 |>
    dplyr::filter(!is.na(ld011todos)) |>
    dplyr::select(
        # Outcome
        ld011todos,
        # Perinatal predictors
        apartip, aconspre, anumcons,
        apesomae, atrabfor, afumou,
        abebalc, apesorn, acompr,
        apcrn, apertor, acirab,
        abpn, arenfam, aescmae,
        aescpai, aganpe, aturno2,
        adiasem, anenebem, afezepis,
        ainduz, aprobrn, adoses,
        ahipert, adiabet, aamabort,
        aanemia, aintern, anumint,
        aaltmae, anumgrav, aplanej,
        areacpai, aapopai, aapofam,
        aapoamig, atrabsem, atrabpe,
        atrabpes, atrabaru, afumtrab,
        atrabcas, afumava1, afumava2,
        afumava3, aasmconf, aasmgrav,
        aremgrav, aidadmae, aidadpai,
        acorpai, acormae, alm, aapgar1,
        aapgar5, aescore, adescpla,
        aprolap, aespont, apelvic,
        aplapre, aeclam, apreclam,
        aincomp, aruptur, asofet,
        aoligoh, adip, arenal,
        ahemorr, apesorn2, aprimip,
        apesoini, aig, aparidad,
        aabodic, abpndic, acsrenda,
        acspos, acsescg, aintpar,
        aurindic, akessner, ahipert2,
        adiabet2, aanemia2, aplanej2,
        acormae2, aapopai2, aapofam2,
        aturno, aapoio, aplapai,
        acodbar7, acefagr, acefagr2,
        atipint2, aclass,
        # 11yo predictors
        hm046, hm048, hm069,
        hm070, hm075, hm077,
        hm080, hm110, hm111,
        hm112, hm113, hm114e,
        hm117, hm121, hm125,
        hc34, hc35, hc36, hc37,
        hc38, hc39, hc40, hc41,
        hc42, hc43, hc44, hc45,
        hc46, hc47, hc48, hc49,
        hc50, hc51, hc52, hc53,
        hc54, hc55, hc56, hc57,
        hc58, hc59, hc60, hc61,
        hc62, hc63, hc64, hc65,
        hc66, hm032,
        hm040, hm041, hm042,
        hm046, hm047, hm048,
        hm071, hm072, hm073, hm074,
        hm076, hm078, hm079, hm081,
        hm107a, hm107b, hm108, hm109,
        hm114a, hm114b, hm114c, hm114d,
        hm115, hm116, hm119, hm123,
        hm153c, hm153d, hm175, hm176,
        hm177, hm178, hm179, hm180,
        hm181, hm182, hm183, hm184,
        hm185, hm186, hm187, hm188,
        hm189, hm190, hm191, hm192,
        hm193, hm194, hm195, hm196,
        hm197, hm198, hm199, hm201,
        hm202, hm203, hm204a, hm204b,
        hm204c, hm204d, hm205, hm206,
        hm207, hm208, hm209, hm210,
        hm211, hm212, hm213, hm214,
        hm215, hm216, hm217, hm218,
        hm219, hm220, hm221, hm222,
        hm223, hm224, hm225, hc13,
        hc14, hibem5,
        # 15yo predictors
        jm097c, jm097d, jm104,
        jm105, jm112, jm113,
        jm114, jm115, jm116,
        jm117, jm118, jm119,
        jm121, jm122, jm123,
        jm124, jm125, jm126,
        jm127, jm128, jm129,
        jm130, jm131, jm132,
        jm133, jm134, jm135,
        jm136, ja003, ja006,
        jc02, jc03, jc04, jc05,
        jc06, jc07, jc08,
        jc12a, jc12b, jc12c,
        jc12d, jc12e, jc12f,
        jc45, jc46, jc47, jc48,
        jescmae, jescmae4, jescchef,
        jpcceb, jcceb8, jcceb5,
        jcceb3, jcorpel3,
        jm024, jm027a, jm027b, jm101,
        jm111, jm137, jm138, jm139a,
        jm139b, jm139c, jm139d, jm140,
        ja002, ja003, ja006, ja007, jc01,
        jc09, jcceb3, jrepro
    ) |>
    haven::as_factor() |>
    dplyr::mutate(ld011todos = factor(
        dplyr::if_else(ld011todos == 1, "Yes", "No")
    )) |>
    dplyr::mutate(dplyr::across(dplyr::matches("^hc[[:digit:]]{2}$"),
                                \(x) as.factor(ifelse(
                                    x %in% c(7, 8, 9),
                                    NA_real_,
                                    as.character(x)
                                )))) |>
    dplyr::mutate(
        dplyr::across(where(is.factor),
                      \(x) as.factor(
                          ifelse(x %in%
                                     c("não sei ou não respondeu",
                                       "não sei",
                                       "9",
                                       "99",
                                       "não respondeu",
                                       "IGN",
                                       "NSA",
                                       "8",
                                       "EXC",
                                       "jovem veio a clinica mas nao respondeu",
                                       "nsa",
                                       "ign",
                                       "não sabe responder",
                                       "criança especial s/informação dada pela mãe",
                                       "5"
                                     ),
                                 NA_character_,
                                 as.character(x))
                      ))

    ) |>
    dplyr::mutate(
        dplyr::across(where(is.numeric),
                      \(x) ifelse(x %in% c(99, 88, 77), NA_real_, x)))


usethis::use_data(cohort_1993, overwrite = TRUE)