####13-1 통계적 가설 검정이란?####
#통계 분석: 기술 통계, 추론 통계
#유의확률: 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률
####13-2 t검정(두 집단의 평균 비교)####
#compact 자동차와 suv 자동차의 도시 연비 t검정#
mpg <- as.data.frame(ggplot2::mpg)
library(dplyr)
mpg_diff <- mpg %>%
select(class, cty) %>%
filter(class %in% c("compact", "suv"))
head(mpg_diff)
table(mpg_diff$class)
t.test(data = mpg_diff, cty ~ class, var.equal = T) #cty(비교할 값), class(비교할 집단)
#결론: p-value가 0.05보다 작으므로 'compact와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다'
# suv보다 compact의 도시 연비가 더 높다
#일반 휘발유와 고급 휘발유의 도시 연비 t검정#
mpg_diff2 <- mpg %>%
select(fl, cty) %>%
filter(fl %in% c("r", "p"))
table(mpg_diff2$fl)
t.test(data = mpg_diff2, cty ~ fl, var.equal = T)
#결론: '일반 휘발유와 고급 휘발유를 사용하는 자동차 간 도시 연비 차이가 통계적으로 유의하지 않다'
####13-3 상관분석(두 변수의 관계성 분석)####
#두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법
#상관계수가 1에 가까울수록 관련성이 크다
#실업자 수와 개인 소비 지출의 상관관계#
economics <- as.data.frame(ggplot2::economics)
cor.test(economics$unemploy, economics$pce)
#결론: 실업자 수와 개인 소비 지출의 상관이 통계적으로 유의하다
# 실업자 수와 개인 소비 지출은 정비례 관계이다
#상관행렬 히트맵 만들기#
head(mtcars)
car_cor <- cor(mtcars) #상관행렬 생성
round(car_cor, 2) #소수점 셋째 자리에서 반올림
install.packages("corrplot")
library(corrplot)
corrplot(car_cor) #원
corrplot(car_cor, method = "number") #상관계수
col <- colorRampPalette(c("#BB4444", "#EE9988", "#FFFFFF", "#77AADD", "#4477AA"))
corrplot(car_cor,
method = "color",
col = col(200), #색상 200개 선정
type = "lower", #왼쪽 아래 행렬만 표시
order = "hclust", #유사한 상관계수끼리 군집화
addCoef.col = "black", #상관계수 색깔
tl.col = "black", #변수명 색깔
tl.srt = 45, #변수명 45도 기울임
diag = F) #대각 행렬 제
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.