# pacotes a serem carregados para a analise
library(tidyverse)
theme_set(theme_bw())
library(performance)
library(knitr)
library(kableExtra)

# definicoes globais 
# tamanho das figuras: largura = 5, altura = 4 (polegadas)
opts_chunk$set(fig.width = 5, fig.height = 4, 
# exibir o codigo do R nos chunks (mudar para FALSE na versao final)
               echo = TRUE,
# mandar o latex manter a figura na posicao correta
               fig.pos = 'h')

Objetivos

Diversos autores já publicaram estudos referentes à seguranca no trânsito. \cite{McKenna1991}, por exemplo, estuda a relação entre as habilidades dos motoristas e a percepção que eles possuem sobre estas habilidades. Além desta caracteristica, existem diversas outras que, se estudadas, podem aumentar a seguranca no trânsito. Uma destas caracteristicas e a distância mínima necessária para que um carro pare completamente apos seus freios serem acionados.

Neste trabalho estamos interessados em verificar qual é a relação que existe entre a velocidade de um carro (em milhas por hora) e a distância que ele levou para parar completamente (em pes). Este conjunto de dados foi fornecido pelo programa R: A Language and Environment for Statistical Computing (\cite{R2017}). A hipótese com a qual trabalhamos é a de que existe uma relação positiva entre estas variáveis. Isto é, quanto mais rápido um carro estiver trafegando, maior vai ser a distância necessária para que este carro pare completamente.

Alem de verificar se há correlação entre estas variáveis, desejamos obter uma relação capaz de prever o quanto uma variavel varia em relação a outra. Ou seja, gostariamos de poder estimar a distância necessária para um carro parar completamente se soubermos qual a sua velocidade de trafego no momento em que os freios foram acionados.

Metodologia

Os dados analisados neste trabalho foram obtidos a partir de uma amostra de 50 carros. As medições foram realizadas na decada de 1920 e disponibilizadas originalmente por \cite{Ezekiel1930}. Não há informações a respeito dos modelos dos carros utilizados neste experimento.

Utilizaremos um método estatistico chamado regressão linear a fim de verificar se há relação entre a distância necessária para um carro parar completamente e sua velocidade. Este e um método bastante popular, capaz de descrever com bastante precisao a relação entre as variáveis que nos interessam.

Sejam $x_1, x_2, \cdots, x_n$ as observações referentes a velocidade dos carros em questão. Considere $y_1, y_2, \cdots, y_n$ as observações referentes a distância necessária para os carros pararem. De acordo com \cite{Kutner2004}, podemos expressar a dependencia entre $y$ e $x$ atraves da equação

$$y_i = \beta_0 + \beta_1x_i + \varepsilon_i,$$

\noindent em que $\beta_0$ e $\beta_1$ sao coeficientes estimados pelas equações

\begin{align} \widehat{\beta}1 & = \frac{\sum{i = 1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i = 1}^n(x_i-\overline{x})^2} \label{estimadores01} \ \widehat{\beta}_0 & = \overline{y}-\widehat{\beta}_1\overline{x} \label{estimadores02} \end{align}

\noindent As quantidades $\overline{x}$ e $\overline{y}$ sao, respectivamente, as medias amostrais de $x_1, x_2, \cdots, x_n$ e $y_1, y_2, \cdots, y_n$. Estas medias amostrais sao dadas por

\begin{align} \overline{x} & = \frac{1}{n}\sum_{i = 1}^nx_i \ \overline{y} & = \frac{1}{n}\sum_{i = 1}^ny_i \end{align}

Determinamos se o coeficiente $\beta_1$ e estatisticamente significante atraves de um teste $t$. Sob a hipótese nula, assumimos que o estimador possui distribuição $t$ com $n-1$ graus de liberdade.

Resultados

A fim de verificar visualmente se há algum tipo de relação entre as variáveis consideradas neste estudo, exibimos o gráfico de dispersao dos dados na Figura \ref{fig:graficoDispersao}. Note que e possivel perceber uma forte tendência linear positiva na relação entre estas variáveis. Quanto maior o valor da velocidade, maior a distância necessária para o carro parar completamente.

```r Gráfico de dispersao da distância de parada completa (pés) versus velocidade (mph) dos carros."} ggplot(cars, aes(x = speed, y = dist)) + geom_point() + labs(x = "Velocidade (mph)", y = "Distância (pés)")

```r Gráfico de dispersão da distância de parada completa (pés) versus velocidade (mph) dos carros com a reta que melhor se ajusta a estes dados."}
ggplot(cars, aes(x = speed, y = dist)) +
  geom_point() +
  labs(x = "Velocidade (mph)", y = "Distância (pés)") +
  geom_smooth(method = "lm", se = FALSE)

Alem disso, adicionamos ao gráfico exibido na Figura \ref{fig:graficoDispersao02} a reta que melhor descreve a relação entre estas variáveis. Esta reta foi obtida atraves do método descrito na seção anterior, fazendo uso das fórmulas \eqref{estimadores01} e \eqref{estimadores02}. Explicitamente, a equação representada na Figura \ref{fig:graficoDispersao02} é dada por

ajuste <- lm(dist ~ speed, data = cars)

\begin{equation}\label{equaçãoFinal} \widehat{y}_i = -17,5791 + 3,9324x_i. \end{equation}

Entretanto, precisamos testar se os coeficientes estimados e apresentados na relação \eqref{equaçãoFinal} são, de fato, estatisticamente significantes. Para isto, testaremos as hipóteses

\begin{align} H_0 &: \beta_0 = 0 \ H_1 &: \beta_0 \neq 0 \ \end{align}

\noindent e

\begin{align} H_0 &: \beta_1 = 0 \ H_1 &: \beta_1 \neq 0 \ \end{align}

\noindent Os resultados destes testes estão apresentados na Tabela \ref{tab:Resultados}.

summary(ajuste)$coefficients |>
  kable(caption = "Resultado das estimativas dos parâmetros da regressão ajustada.",
        booktabs = TRUE,
        col.names = c("Estimativa", "Erro Padrão", "t", "p-valor"),
        digits = 4) |> 
  kable_styling(latex_options = c("hold_position"))

Note que, em ambos os casos, o p-valor encontrado é inferior a $\alpha = 0,05$. Portanto, podemos rejeitar ambas as hipóteses nulas e $\beta_0$ e $\beta_1$ são estatisticamente diferentes de zero.

Para finalizar a análise, devemos verificar se o modelo ajustado não viola as hipóteses do modelo de regressão linear. Para verificar isto, exibimos a análise de resíduos na Figura \ref{fig:residuos}.

r Análise de resíduos do modelo de regressão linear ajustado."} check_model(ajuste, check = c("linearity", "qq", "homogeneity", "outliers"))

Note que na parte superior esquerda da imagem, embora o gráfico dos resíduos versus valores ajustados não apresente tendência, a variância não é constante. Note que os pontos próximos de zero estão mais próximos entre si do que os pontos mais a direita no gráfico. Portanto, há uma violação das hipóteses da regressão linear neste caso.

Assim, podemos sugerir uma transformação nestes dados ou a utilização de outro método de análise, como um modelo linear generalizado.



mnunes/modeloLEA documentation built on Oct. 17, 2023, 8:44 p.m.