In RodrigoZepeda/covidmx: Descarga y analiza datos de COVID-19 en México

knitr::opts_chunk$set(echo = TRUE)
library(covidmx)
library(tidyverse)
library(kableExtra)

Preguntas

¿Por qué me conviene usar `covidmx`?

Centraliza la información y la lectura de la base es más rápida que lo que ocurriría normalmente. Gracias a covidmx pierdes menos tiempo descargando y le dedicas más tiempo a analizar. El hecho de usar duckdb permite generar preguntas a la base de manera rápida. Por ejemplo con el siguiente benchmark:

dlink <- c("test" = "https://github.com/RodrigoZepeda/covidmx/raw/main/datos_abiertos_covid19.zip")

#Datos del 2021 en tibble (clásico)
datos_tibble <- descarga_datos_abiertos(read_format = "tibble", sites.covid = dlink,
                                        show_warnings = FALSE)

#Datos del 2021 en duckdb (paquete covidmx)
datos_duckdb <- descarga_datos_abiertos(sites.covid = dlink, show_warnings = FALSE)

#Calculamos el total de casos por fecha y sexo para ver que 
#el duckdb es mucho más rápido
microbenchmark::microbenchmark(
  datos_tibble$dats |> 
    group_by(FECHA_SINTOMAS, SEXO) |>
    tally(),
  datos_duckdb$dats |> 
    group_by(FECHA_SINTOMAS, SEXO) |>
    tally()
)

Lo cual resulta en los siguientes tiempos (milisegundos):

#Calculamos el total de casos por fecha y sexo para ver que 
#el duckdb es mucho más rápido
benchmark <- microbenchmark::microbenchmark(
  datos_tibble$dats |> 
    group_by(FECHA_SINTOMAS, SEXO) |>
    tally(),
  datos_duckdb$dats |> 
    group_by(FECHA_SINTOMAS, SEXO) |>
    tally()
) 

benchmark |>
  as_tibble() |>
  mutate(expr = if_else(str_detect(expr, "datos_duckdb"), "duckdb", "tibble")) |>
  mutate(time = time/1.e6) |>
  group_by(expr) |>
  summarise("Media" = mean(time),
            "Minimo" = min(time),
            "Maximo" = max(time),
            "Mediana" = median(time),
            "Q25"     = quantile(time, 0.25),
            "Q75"     = quantile(time, 0.75),
            "DesvEst" = sd(time)) |>
  kableExtra::kable() |>
  kableExtra::kable_styling()

No olvides desconectar

datos_duckdb$disconnect()

¿Para qué me sirve la descarga con `pins`?

El paquete de pins registra una dirección web y verifica que no haya cambiado el archivo presente en la dirección antes de descargar de nuevo. Esto te permite no perder tanto tiempo en la descarga. Ve cómo si descargo una vez y luego una subsecuente el mismo paquete me advierte que no hace falta pues nada ha cambiado:

cache_dir <- tempdir()
descarga_datos_red_irag(cache = cache_dir) #Primer intento no dice nada
descarga_datos_red_irag(cache = cache_dir) #Segundo intento nos dice que ya descargó

¿Para qué me sirve `duckdb`?

duckdb es un sistema de bases de datos caracterizado por su velocidad y por leer de memoria (disco duro) las bases. Usando duckdb tu computadora no sufre por poca RAM y opera más rápido que con un tibble.

¿Cómo guardo la base descargada de datos abiertos?

Utiliza la opción dbdir para crear un archivo .duckdb y guardar tus datos en formato duckdb. Como ejemplo:

#Descarga y almacena en archivo duckdb
descarga_datos_abiertos(dbdir = "ejemplo.duckdb") 

#Lee de archivo duckdb
read_datos_abiertos(dbdir = "ejemplo.duckdb")

Deseo aplicar una función directamente a `datos_covid$dats` y se vuelve muy lento / se acaba la memoria

Probablemente la función no tenga un equivalente en duckdb. La recomendación es aplicar la mayor cantidad de filtros y selecciones que puedas en duckdb y después aplicarle la función que quieras. Ejemplo:

datos_covid <- covidmx::datosabiertos

#No recomendado primero aplicar función ajena a duck y luego semana
#tampoco se recomienda quedarte con todas las variables
datos_covid$dats |>
  mutate(dia_semana = lubridate::wday(FECHA_SINTOMAS)) |>
  filter(SEXO == 1) 

#Recomendado: quedarte solo las variables q necesitas y primero aplicar
#las funciones de dbplyr
datos_covid$dats |>
  select(SEXO, FECHA_SINTOMAS) |>
  filter(SEXO == 1) |>
  mutate(dia_semana = lubridate::wday(FECHA_SINTOMAS))

Al leer con `tibble` se me acaba la memoria

Esto es normal pues los tibble viven en tu memoria RAM. Cambia read_format a "duckdb".

Al leer con `duckdb` se me acaba la memoria

Esto es normal si tu memoria RAM es pequeña. Cambia pragma_memory_limit = "1GB" a algo más pequeño tomando en cuenta que el límite de PRAGMA siempre debe ser menor al de tu RAM (recomiendo la mitad o menos).

¿Cómo leer una base de datos abiertos que ya tenía en mi computadora?

Puedes usar las funciones del tipo read_datos_abiertos_* según vengan en zip, csv o duckdb. La función read_datos_abiertos intenta adivinar el formato automáticamente.

¿Cómo descargar una base de datos abiertos desde otro link?

En las funciones de descarga_ puedes cambiar la variable sites.covid poniendo el nombre de la base como identificador y el sitio en forma de vector. Por ejemplo descargando la siguiente de Github:

dlink       <- c("gtest" = "https://github.com/RodrigoZepeda/covidmx/raw/main/datos_abiertos_covid19.zip")
datos_covid <- descarga_datos_abiertos(read_format = "duckdb", sites.covid = dlink, 
                                       tblname = "test", quiet = TRUE, show_warnings = F, 
                                       force_download = T, cache_datos  = tempfile(), 
                                       cache_diccionario = tempfile())

Quiero obtener una sola columna de la base pero me da `NULL` (ej `datos_duckdb$dats$ORIGEN`)

La base de datos que leíste como duckdb no es un tibble ni un data.frame por lo cual no todas las funciones que aplican para tibble están disponibles. Para obtener una sola columna usa pull:

datos_duckdb$dats %>% pull(ORIGEN)

¿Cómo convertir mi base en `tibble`?

Para convertir tu base en tibble utiliza collect. Por ejemplo:

datos_duckdb$dats %>% collect()

Errores frecuentes

`fun` is not supported on database backends

La función que quieres aplicar no es una función de dbplyr necesitas colapsar tu base primero en un tibble para poder aplicarla. Ver sección correspondiente

Error in dirname(fname) : object 'fname' not found In addition: Warning message: In system2(unzip_command, args = c(unzip_args, datos_abiertos_zip_path), : running command ''unzip' -o ...' had status 9

El vínculo de sites.covid es incorrecto (quizá la SSA lo cambió). Para actualizar el correcto sigue las mismas instrucciones descritas en la sección previa.

Error: rapi_startup: Failed to open database: IO Error: Cannot open file. The process cannot access the file because it is being used by another process.

El problema es que estás usando el driver de duckdb en otro lado. Prueba la opción con read_only: drv = duckdb::duckdb(dbdir = 'tu/archivo.duckdb', read_only = TRUE).

Warning message: Downloading '...' failed; falling back to cached version

Hubo un problema con la conexión a Internet ya sea porque los datos cambiaron de sitio web o porque te quedaste sin señal.

RodrigoZepeda/covidmx documentation built on July 17, 2024, 6:13 p.m.

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

RodrigoZepeda/covidmx
Descarga y analiza datos de COVID-19 en México

In RodrigoZepeda/covidmx: Descarga y analiza datos de COVID-19 en México

Preguntas

¿Por qué me conviene usar `covidmx`?

¿Para qué me sirve la descarga con `pins`?

¿Para qué me sirve `duckdb`?

¿Cómo guardo la base descargada de datos abiertos?

Deseo aplicar una función directamente a `datos_covid$dats` y se vuelve muy lento / se acaba la memoria

Al leer con `tibble` se me acaba la memoria

Al leer con `duckdb` se me acaba la memoria

¿Cómo leer una base de datos abiertos que ya tenía en mi computadora?

¿Cómo descargar una base de datos abiertos desde otro link?

Quiero obtener una sola columna de la base pero me da `NULL` (ej `datos_duckdb$dats$ORIGEN`)

¿Cómo convertir mi base en `tibble`?

Errores frecuentes

`fun` is not supported on database backends

Error in dirname(fname) : object 'fname' not found In addition: Warning message: In system2(unzip_command, args = c(unzip_args, datos_abiertos_zip_path), : running command ''unzip' -o ...' had status 9

Error: rapi_startup: Failed to open database: IO Error: Cannot open file. The process cannot access the file because it is being used by another process.

Warning message: Downloading '...' failed; falling back to cached version

R Package Documentation

Browse R Packages

We want your feedback!

RodrigoZepeda/covidmx Descarga y analiza datos de COVID-19 en México

In RodrigoZepeda/covidmx: Descarga y analiza datos de COVID-19 en México

Preguntas

¿Por qué me conviene usar covidmx?

¿Para qué me sirve la descarga con pins?

¿Para qué me sirve duckdb?

¿Cómo guardo la base descargada de datos abiertos?

Deseo aplicar una función directamente a datos_covid$dats y se vuelve muy lento / se acaba la memoria

Al leer con tibble se me acaba la memoria

Al leer con duckdb se me acaba la memoria

¿Cómo leer una base de datos abiertos que ya tenía en mi computadora?

¿Cómo descargar una base de datos abiertos desde otro link?

Quiero obtener una sola columna de la base pero me da NULL (ej datos_duckdb$dats$ORIGEN)

¿Cómo convertir mi base en tibble?

Errores frecuentes

fun is not supported on database backends

Error in dirname(fname) : object 'fname' not found In addition: Warning message: In system2(unzip_command, args = c(unzip_args, datos_abiertos_zip_path), : running command ''unzip' -o ...' had status 9

Error: rapi_startup: Failed to open database: IO Error: Cannot open file. The process cannot access the file because it is being used by another process.

Warning message: Downloading '...' failed; falling back to cached version

R Package Documentation

Browse R Packages

We want your feedback!

RodrigoZepeda/covidmx
Descarga y analiza datos de COVID-19 en México

¿Por qué me conviene usar `covidmx`?

¿Para qué me sirve la descarga con `pins`?

¿Para qué me sirve `duckdb`?

Deseo aplicar una función directamente a `datos_covid$dats` y se vuelve muy lento / se acaba la memoria

Al leer con `tibble` se me acaba la memoria

Al leer con `duckdb` se me acaba la memoria

Quiero obtener una sola columna de la base pero me da `NULL` (ej `datos_duckdb$dats$ORIGEN`)

¿Cómo convertir mi base en `tibble`?

`fun` is not supported on database backends