db_name <- "rvest_scraper.db"
db_exists <- file.exists(db_name)
target_table_time <- "RVEST_SINGLE_TIME"
conn <- DBI::dbConnect(RSQLite::SQLite(), db_name)
fetch_time <- DBI::dbGetQuery(
conn = conn,
statement = paste0("SELECT * FROM ", target_table_time)
)
fetch_time %>% head
today_num <- Sys.Date() %>% as.numeric() %>% as.character()
yest_num <- as.character(as.numeric(Sys.Date()) - 1)
today_num
yest_num
wrong_id <- any(fetch_time$id %in% c("", 0, 1))
wrong_id
head(fetch_time)
sum(fetch_time[[today_num]] == fetch_time[[yest_num]]) / length(fetch_time[[yest_num]])
library(dplyr)
fetch_time$comp <- fetch_time$id %>%
sapply(strsplit, "__") %>%
sapply("[", 2) %>%
unname
fetch_time %>% group_by(comp) %>% dplyr::count(`18925` > 0)
xx <- fetch_time %>%
group_by(comp) %>%
mutate(count1 = sum(`18925` > 0)) %>%
mutate(count2 = sum(`18926` > 0))
xx %>% select(comp, count1, count2) %>% unique
rr <- fetch_time %>%
group_by(comp) %>%
filter(`18927` != `18926`)
rr
false_pos <- fetch_time$id %>%
{.[grepl(., pattern = "HUK-AUSSEN")]} %>%
sapply(strsplit, "__") %>%
sapply("[", 1) %>%
unname
false_pos %>% dput
c("Arbeiten & Leben", "Compliance", "Datenschutz", "Einstieg & Entwicklung",
"Engagement", "Hilfe und Kontakt", "Historie", "Ihr Weg zu heine",
"Impressum", "Jobs & Bewerbung", "Karriere", "Kataloge", "Nachhaltige Produkte",
"Nachhaltigkeit", "Presse", "Presseanfragen", "Pressenews", "Sozialverantwortung",
"Über uns", "Umwelt", "Unternehmen")
c("Altersvorsorge", "Ambulante Zusatzversicherung", "Amtshaftpflicht & Vermögensschadenhaftpflicht",
"Amtshaftpflicht & Vermögensschadenhaftpflicht", "Anhänger- & Wohnwagen-Versicherung",
"Anhänger-Versicherung", "Anhänger & Wohnmobil", "Apps", "Auslandskrankenversicherung",
"Autoankauf & Verkauf", "Autokredit", "Autos", "Autoservice",
"Autoversicherung", "BARMER Zusatzversicherung", "Bauen", "Baufinanzierung",
"Baufinanzierung", "Bauherrenhaftpflicht", "Bauherrenhaftpflicht",
"Bauleistungsversicherung", "Bauleistungsversicherung", "Bausparen",
"Bausparen", "Berufsunfähigkeitsversicherung", "Datenschutz",
"Dienstunfähigkeitsversicherung", "Direktversicherung", "E-Bike-Versicherung",
"E-Scooter- & Segway-Versicherung", "E-Scooter-Versicherung",
"Elektroautos", "Elementarschadenversicherung", "Elementarschadenversicherung",
"Existenzschutzversicherung", "Existenzsicherung", "Fahrerschutzversicherung",
"Finanzen", "Generation60 Plus", "Gesundheitsschutz kompakt",
"Haftpflicht", "Haftpflichtversicherung", "Haus- & Grundbesitzerhaftpflicht",
"Haus- & Grundbesitzerhaftpflicht", "Haus & Wohnung", "Haus & Wohnung",
"Hausratversicherung", "Hausratversicherung", "HUK-COBURG @facebook",
"HUK-COBURG @instagram", "HUK-COBURG @linkedin", "HUK-COBURG @pinterest",
"HUK-COBURG @twitter", "HUK-COBURG @xing", "HUK-COBURG @youtube",
"Hundehaftpflicht", "Ihr Ratgeber rund um die Themen Auto & Mobilität",
"Ihr Ratgeber rund um die Themen Gesundheit, Vorsorge und Vermögen",
"Ihr Ratgeber rund um die Themen Haus, Haftung & Recht", "Impressum",
"Jagdhaftpflichtversicherung", "Jagdhaftpflichtversicherung",
"Kfz-Schutzbrief", "Kfz-Versicherung", "Kontakt-Center", "Krankenhaustagegeld",
"Krankenhauszusatzversicherung", "Krankentagegeldversicherung",
"Krankenvollversicherung", "Krankenzusatzversicherung", "Kunden werben Kunden",
"Leichtkraftrad-Versicherung", "Lieferwagen-Versicherung", "Magazin",
"Meine HUK", "Mobilität", "Mopedversicherung", "Motorrad- & Leichtkraftrad-Versicherung",
"Motorradversicherung", "Öffentlicher Dienst", "Oldtimer & Youngtimer",
"Pferdehaftpflicht", "Pflege-Assistance-Leistungen", "Pflege-Monatsgeldversicherung",
"Pflegemonatsgeld-Versicherung", "Pflegeversicherung", "Postbank Girokonto",
"Postbank Kreditkarte", "Premium Rente", "Privat-, Berufs- & Verkehrsrechtsschutz",
"Privat-, Berufs- & Verkehrsrechtsschutz", "Private Haftpflichtversicherung",
"Private Haftpflichtversicherung", "Private Krankenversicherung für Beamte",
"Private Krankenversicherung", "Produkte für Unternehmen", "Quad-Versicherung",
"Ratgeber Auto & Mobilität", "Ratgeber Gesundheit, Vorsorge & Vermögen",
"Ratgeber Haus, Haftung & Recht", "Rechtsschutzversicherung",
"Rechtsschutzversicherung", "Riester Rente", "Risikolebensversicherung",
"Rürup Rente", "Schadenservice", "Sitemap", "Sofortrente", "Staatlich geförderte Pflegezusatzversicherung",
"Startseite", "Sterbegeldversicherung", "Telematik Plus", "Tierhalterhaftpflicht",
"Tierhalterhaftpflicht", "Tierkrankenversicherung", "Tierversicherung",
"Übersicht Altersvorsorge", "Übersicht Anhänger & Wohnmobil",
"Übersicht Autos", "Übersicht Bauen", "Übersicht Existenzsicherung",
"Übersicht Finanzen", "Übersicht Haftpflicht", "Übersicht Haftpflichtversicherung",
"Übersicht Haus & Wohnung", "Übersicht Haus & Wohnung", "Übersicht Kfz-Versicherung",
"Übersicht Krankenzusatzversicherung", "Übersicht Mobilität",
"Übersicht Pflegeversicherung", "Übersicht Private Krankenversicherung",
"Übersicht Rechtsschutzversicherung", "Übersicht Rechtsschutzversicherung",
"Übersicht Tierversicherung", "Übersicht Zusatzschutz", "Übersicht Zweiräder & Quads",
"Unfallmeldedienst (UMD)", "Unfallversicherung", "Verkehrsrechtsschutz",
"Wassersportversicherung", "Wassersportversicherung", "Wohn-Riester Bausparen",
"Wohn-Riester", "Wohngebäudeversicherung", "Wohngebäudeversicherung",
"Wohnmobil-Versicherung", "Wohnwagen-Versicherung", "Zahnzusatzversicherung",
"Zusatzschutz", "Zweiräder & Quads")
sum(fetch_time$`18924` == fetch_time$`18925`)/length(fetch_time$`18924`)
#
# xx <- rownames(fetch_time) %>% {grepl(pattern = "http", .)}
# which(xx)
#
# fdd <- gsub(
# pattern = "__.*__",
# replacement = "__",
# x = rownames(fetch_time)[which(xx)],
# perl = TRUE
# )
#
# fdd %in% rownames(fetch_time)
# row_idx <- sapply(fdd, function(fd) which(fd == rownames(fetch_time)), USE.NAMES = FALSE)
# col_idx <- which(colnames(fetch_time) == "18638")
# fetch_time[row_idx, col_idx] <- 1
# fetch_time[which(xx), ] <- 0
#
#
# DBI::dbWriteTable(
# conn = conn,
# name = target_table_time,
# value = fetch_time,
# overwrite = TRUE
# )
#
#
#
#
#
#
#
#
#
db_name <- "rvest_scraper.db"
db_exists <- file.exists(db_name)
target_table_jobs <- "RVEST_SINGLE_JOBS"
conn <- DBI::dbConnect(RSQLite::SQLite(), db_name)
#
fetch_job <- DBI::dbGetQuery(
conn = conn,
statement = paste0("SELECT * FROM ", target_table_jobs)
)
fetch_job %>% head
id_name_diffs <- which(!apply(fetch_job, 1, function(row) grepl(pattern = row[2], x = row[1], fixed = TRUE)))
fetch_job[id_name_diffs, ][1, ]
DBI::dbDisconnect(conn)
#
#
# rr <- fetch_job$job_id %>% {grepl(pattern = "http", .)}
# rrr <- fetch_job[-which(rr), ]
#
# DBI::dbWriteTable(
# conn = conn,
# name = target_table_jobs,
# value = rrr,
# overwrite = TRUE
# )
#
#
#
#
#
#
#
#
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.