Bruno César Pasquini
O objetivo do pacote AnaliseCOVID19Brasil é o de prover análises práticas e atualizadas, incluindo alguns gráficos, além de ser o meu trabalho de conclusão do curso R para Ciência de Dados 2 da Curso-R.
Aí você pode se perguntar…
Se tantos pacotes já fazem análises de dados da COVID-19, por que usar este aqui ~~e não algum outro~~?
Meu primeiro enfoque foi o de fazer um pacote que permita, de maneira muito simples, atualizar os dados da pandemia no Brasil antes de proceder às análises. Em outras palavras, toda a triste dinâmica da pandemia no Brasil vai se revelando conforme este pacote é utilizado ao longo do tempo.
Você pode instalar o AnaliseCOVID19Brasil do GitHub com:
# install.packages("devtools")
devtools::install_github("brunocp76/AnaliseCOVID19Brasil")
Como disse, os primeiros propósitos deste pacotes são ser simples do usuário utilizar e poder atualizar os dados antes de proceder à qualquer análise. Então começamos assim:
library(AnaliseCOVID19Brasil)
atualiza_dados()
#>
#> Atualizacao de dados iniciada em 2022-05-25 10:05:01
#>
#> Etapa 1: Carregando dados do Portal Brasil.io.
#>
#> Por favor aguarde...
#> Rows: 2838003 Columns: 13
#> -- Column specification --------------------------------------------------------
#> Delimiter: ","
#> chr (3): state, city, place_type
#> dbl (8): confirmed, deaths, order_for_place, estimated_population_2019, est...
#> lgl (1): is_last
#> date (1): date
#>
#> i Use `spec()` to retrieve the full column specification for this data.
#> i Specify the column types or set `show_col_types = FALSE` to quiet this message.
#>
#> Concluida a importacao de dados do Portal Brasil.io em 25.18 segundos.
#>
#>
#>
#> Etapa 2: Carregando dados do Ministerio da Saude.
#>
#> Por favor aguarde mais um pouco...
#>
#>
#>
#> Encontrei um erro na funcao brMinisterioSaude, entao lerei o arquivo de backup...
#>
#> Pronto!
#>
#>
#> Concluida a importacao de dados do Ministerio da Saude em 3.52 segundos.
#>
#>
#>
#> Etapa 3: Carregando Informacoes Auxiliares.
#>
#>
#> Concluida a carga de Informacoes Auxiliares em 3.97 segundos.
#>
#>
#>
#> Etapa 4: Organizando todas as informacoes levantadas.
#>
#>
#> Concluida a organizacao de todas as informacoes levantadas em 7.42 segundos.
#>
#>
#>
#> Parabens! Agora voce esta com a base atualizada!
#>
#> O processamento foi concluido em 40.09 segundos.
#>
#> Segue um meta-resumo da base:
#>
#> Rows: 3,149,148
#> Columns: 18
#> $ date <date> 2020-03-27, 2020-03-28, 2020-03-29, 2020-03-30, ~
#> $ semana_epidem <int> 13, 13, 14, 14, 14, 14, 14, 14, 14, 15, 15, 15, 1~
#> $ cod_ibge <int> 1100015, 1100015, 1100015, 1100015, 1100015, 1100~
#> $ lat <dbl> -11.9283, -11.9283, -11.9283, -11.9283, -11.9283,~
#> $ lon <dbl> -61.9953, -61.9953, -61.9953, -61.9953, -61.9953,~
#> $ area_km2 <dbl> 7067.025, 7067.025, 7067.025, 7067.025, 7067.025,~
#> $ capital <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
#> $ interior_metropol <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
#> $ pop_2019 <int> 22945, 22945, 22945, 22945, 22945, 22945, 22945, ~
#> $ municipio <chr> "Alta Floresta D'Oeste", "Alta Floresta D'Oeste",~
#> $ cod_regiao_saude <dbl> 11005, 11005, 11005, 11005, 11005, 11005, 11005, ~
#> $ nome_regiao_saude <chr> "Zona da Mata", "Zona da Mata", "Zona da Mata", "~
#> $ uf <chr> "RO", "RO", "RO", "RO", "RO", "RO", "RO", "RO", "~
#> $ regiao <chr> "Norte", "Norte", "Norte", "Norte", "Norte", "Nor~
#> $ contagios_novos <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
#> $ obitos_novos <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
#> $ contagios_acumulados <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
#> $ obitos_acumulados <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
Talvez você repare que os totais consolidados da data mais recente disponível (no caso, 2022-03-26) não batem exatamente com os números oficiais ou o dos telejornais. Se esta discrepância existe entre o governo e a imprensa por motivos políticos que eu não discutirei aqui, eu entendo que aqui basta que os números estejam bem próximos aos números veiculados pela grande imprensa.
#> ultima_data total_contagios total_obitos taxa_mortalidade
#> 1 2022-03-26 23.482.153 613.496 2,61%
Mais uma vez, o meu enfoque aqui é ter estes dados sendo facilmente atualizados e viabilizando as análises que apresentarei mais para frente.
Para isso, a função atualiza_dados()
é uma das funções principais,
pois aciona uma série de funções menores, cada uma fazendo uma parte do
processo de obter pela internet os dados mais atualizados possíveis de
fontes diferentes e de combinar todos eles em uma única base.
Desta forma, depois de executada esta função você terá a base covid
construída com dados disponíveis tanto no portal
Brasil.io quanto no Ministério da
Saúde
bases_derivadas()
#>
#> Etapa 1: Gerando as sumarizacoes de area e populacao.
#>
#>
#> Concluida a geracao das sumarizacoes de area e populacao em 1.44 segundos.
#>
#>
#>
#> Etapa 2: Gerando a Base Derivada ao Nivel de Cidades.
#>
#>
#> Concluida a geracao da Base Derivada ao Nivel de Cidades em 9.27 segundos.
#>
#>
#>
#> Etapa 3: Gerando a Base Derivada ao Nivel de Regioes de Saude.
#>
#>
#> Concluida a geracao da Base Derivada ao Nivel de Regioes de Saude em 4.33 segundos.
#>
#>
#>
#> Etapa 4: Gerando a Base Derivada ao Nivel de Estados.
#>
#>
#> Concluida a geracao da Base Derivada ao Nivel de Estados em 5.64 segundos.
#>
#>
#>
#> Etapa 5: Gerando a Base Derivada ao Nivel de Regioes do Brasil.
#>
#>
#> Concluida a geracao da Base Derivada ao Nivel de Regioes do Brasil em 4.69 segundos.
#>
#>
#>
#> Etapa 6: Gerando a Base Derivada ao Nivel de Brasil.
#>
#>
#> Concluida a geracao da Base Derivada ao Nivel de Brasil em 0.38 segundos.
#>
#>
#>
#> Parabens! Agora voce esta com todas as bases derivadas!
#>
#> O processamento foi concluido em 25.75 segundos.
#>
#> Segue a relacao de bases disponiveis:
#> [1] "covid" "covid_brasil" "covid_cidades"
#> [4] "covid_estados" "covid_regioes_brasil" "covid_regioes_saude"
#> [7] "tabela_mun" "tabela_ufs"
A função bases_derivadas()
é outra das funções principais, pois parte
da base covid
e gera funções com os dados para análise (os dados
originais e mais alguns dados derivados) em 5 níveis distintos de
agregação (de município a Brasil inteiro), para viabilizar a análise
nestes níveis.
Então após executar esta função você terá as bases derivadas com os dados sumarizados em 5 níveis crescentes de agregação:
Segue a relação de bases disponíveis:
covid
covid_cidades
covid
, esta base e as seguintes
possuem mais alguns indicadores derivados para análise.covid_regioes_saude
covid_estados
covid_regioes_brasil
covid_brasil
Com os dados atualizados e organizados, podemos fazer as primeiras observações:
Algumas coisas também nos levam a outra questão por conta da possibilidade de transmissão assintomática, o tempo entre a detecção do contágio e a ocorrência do óbito.
Podemos ver, até da maneira como (não) são feitas as notificações no Brasil, que as maiores correlações são múltiplos de semanas inteiras…
Uma vez que temos as quantidades de contágios e de óbitos, podemos calcular a Taxa de Mortalidade (Número de Mortos / Número de Contágios)
É sabido que em países que conseguem adotar a testagem em massa, numa média de toda a população, a taxa de mortalidade fica em torno de 1%.
Segue o contágio acumulado por grupo de 100 mil habitantes.
Com o processo construído para ser de fácil atualização e com os dados estruturados, as possibilidades de análise são muitas…
Ainda gostaria de poder explorar algumas questões de séries temporais… Com a sazonalidade visível entre novos contágios e novos óbitos, talvez fosse possível estimar uma projeção de óbitos com base nos contágios. Ainda que este processo seja muito pouco estocástico e dependa muito do (praticamente imprevisível) comportamento humano…
Meu desejo é o de continuar incluindo novas análises e funcionalidades neste pacote. Espero que tenha o tempo necessário para isso.
Atualização dos Dados no GitHub - 25/05/2021.
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.