# pacotes a serem carregados para a analise library(tidyverse) theme_set(theme_bw()) library(performance) library(knitr) library(kableExtra) # definicoes globais # tamanho das figuras: largura = 5, altura = 4 (polegadas) opts_chunk$set(fig.width = 5, fig.height = 4, # exibir o codigo do R nos chunks (mudar para FALSE na versao final) echo = TRUE, # mandar o latex manter a figura na posicao correta fig.pos = 'h')
Diversos autores já publicaram estudos referentes à seguranca no trânsito. \cite{McKenna1991}, por exemplo, estuda a relação entre as habilidades dos motoristas e a percepção que eles possuem sobre estas habilidades. Além desta caracteristica, existem diversas outras que, se estudadas, podem aumentar a seguranca no trânsito. Uma destas caracteristicas e a distância mínima necessária para que um carro pare completamente apos seus freios serem acionados.
Neste trabalho estamos interessados em verificar qual é a relação que existe entre a velocidade de um carro (em milhas por hora) e a distância que ele levou para parar completamente (em pes). Este conjunto de dados foi fornecido pelo programa R: A Language and Environment for Statistical Computing (\cite{R2017}). A hipótese com a qual trabalhamos é a de que existe uma relação positiva entre estas variáveis. Isto é, quanto mais rápido um carro estiver trafegando, maior vai ser a distância necessária para que este carro pare completamente.
Alem de verificar se há correlação entre estas variáveis, desejamos obter uma relação capaz de prever o quanto uma variavel varia em relação a outra. Ou seja, gostariamos de poder estimar a distância necessária para um carro parar completamente se soubermos qual a sua velocidade de trafego no momento em que os freios foram acionados.
Os dados analisados neste trabalho foram obtidos a partir de uma amostra de 50 carros. As medições foram realizadas na decada de 1920 e disponibilizadas originalmente por \cite{Ezekiel1930}. Não há informações a respeito dos modelos dos carros utilizados neste experimento.
Utilizaremos um método estatistico chamado regressão linear a fim de verificar se há relação entre a distância necessária para um carro parar completamente e sua velocidade. Este e um método bastante popular, capaz de descrever com bastante precisao a relação entre as variáveis que nos interessam.
Sejam $x_1, x_2, \cdots, x_n$ as observações referentes a velocidade dos carros em questão. Considere $y_1, y_2, \cdots, y_n$ as observações referentes a distância necessária para os carros pararem. De acordo com \cite{Kutner2004}, podemos expressar a dependencia entre $y$ e $x$ atraves da equação
$$y_i = \beta_0 + \beta_1x_i + \varepsilon_i,$$
\noindent em que $\beta_0$ e $\beta_1$ sao coeficientes estimados pelas equações
\begin{align} \widehat{\beta}1 & = \frac{\sum{i = 1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i = 1}^n(x_i-\overline{x})^2} \label{estimadores01} \ \widehat{\beta}_0 & = \overline{y}-\widehat{\beta}_1\overline{x} \label{estimadores02} \end{align}
\noindent As quantidades $\overline{x}$ e $\overline{y}$ sao, respectivamente, as medias amostrais de $x_1, x_2, \cdots, x_n$ e $y_1, y_2, \cdots, y_n$. Estas medias amostrais sao dadas por
\begin{align} \overline{x} & = \frac{1}{n}\sum_{i = 1}^nx_i \ \overline{y} & = \frac{1}{n}\sum_{i = 1}^ny_i \end{align}
Determinamos se o coeficiente $\beta_1$ e estatisticamente significante atraves de um teste $t$. Sob a hipótese nula, assumimos que o estimador possui distribuição $t$ com $n-1$ graus de liberdade.
A fim de verificar visualmente se há algum tipo de relação entre as variáveis consideradas neste estudo, exibimos o gráfico de dispersao dos dados na Figura \ref{fig:graficoDispersao}. Note que e possivel perceber uma forte tendência linear positiva na relação entre estas variáveis. Quanto maior o valor da velocidade, maior a distância necessária para o carro parar completamente.
```r Gráfico de dispersao da distância de parada completa (pés) versus velocidade (mph) dos carros."} ggplot(cars, aes(x = speed, y = dist)) + geom_point() + labs(x = "Velocidade (mph)", y = "Distância (pés)")
```r Gráfico de dispersão da distância de parada completa (pés) versus velocidade (mph) dos carros com a reta que melhor se ajusta a estes dados."} ggplot(cars, aes(x = speed, y = dist)) + geom_point() + labs(x = "Velocidade (mph)", y = "Distância (pés)") + geom_smooth(method = "lm", se = FALSE)
Alem disso, adicionamos ao gráfico exibido na Figura \ref{fig:graficoDispersao02} a reta que melhor descreve a relação entre estas variáveis. Esta reta foi obtida atraves do método descrito na seção anterior, fazendo uso das fórmulas \eqref{estimadores01} e \eqref{estimadores02}. Explicitamente, a equação representada na Figura \ref{fig:graficoDispersao02} é dada por
ajuste <- lm(dist ~ speed, data = cars)
\begin{equation}\label{equaçãoFinal} \widehat{y}_i = -17,5791 + 3,9324x_i. \end{equation}
Entretanto, precisamos testar se os coeficientes estimados e apresentados na relação \eqref{equaçãoFinal} são, de fato, estatisticamente significantes. Para isto, testaremos as hipóteses
\begin{align} H_0 &: \beta_0 = 0 \ H_1 &: \beta_0 \neq 0 \ \end{align}
\noindent e
\begin{align} H_0 &: \beta_1 = 0 \ H_1 &: \beta_1 \neq 0 \ \end{align}
\noindent Os resultados destes testes estão apresentados na Tabela \ref{tab:Resultados}.
summary(ajuste)$coefficients |> kable(caption = "Resultado das estimativas dos parâmetros da regressão ajustada.", booktabs = TRUE, col.names = c("Estimativa", "Erro Padrão", "t", "p-valor"), digits = 4) |> kable_styling(latex_options = c("hold_position"))
Note que, em ambos os casos, o p-valor encontrado é inferior a $\alpha = 0,05$. Portanto, podemos rejeitar ambas as hipóteses nulas e $\beta_0$ e $\beta_1$ são estatisticamente diferentes de zero.
Para finalizar a análise, devemos verificar se o modelo ajustado não viola as hipóteses do modelo de regressão linear. Para verificar isto, exibimos a análise de resíduos na Figura \ref{fig:residuos}.
r Análise de resíduos do modelo de regressão linear ajustado."}
check_model(ajuste, check = c("linearity", "qq", "homogeneity", "outliers"))
Note que na parte superior esquerda da imagem, embora o gráfico dos resíduos versus valores ajustados não apresente tendência, a variância não é constante. Note que os pontos próximos de zero estão mais próximos entre si do que os pontos mais a direita no gráfico. Portanto, há uma violação das hipóteses da regressão linear neste caso.
Assim, podemos sugerir uma transformação nestes dados ou a utilização de outro método de análise, como um modelo linear generalizado.
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.