組員名單與分工

B0344109 黃詩茜 -蒐集資料 -資料處理與清洗 -圖表製作 -探討與結論

B0344247 許定楠 -資料處理與清洗 -探索式分析 -圖表製作 -探討與結論 -PPT製作與報告

分析議題

12月1日是世界愛滋病日,台灣感染愛滋人數在2015年達到史上第3高,愛滋病再也不是遙遠議題,更可能發生在我們親密朋友的身上。

愛滋病毒為人類免疫缺乏病毒(Human Immunodeficiency Virus, HIV)的簡稱,是一種破壞免疫系統的病毒。

愛滋病毒會破壞人體原本的免疫系統,使病患的身體抵抗力降低,當免疫系統遭到破壞後,原本不會造成生病的病菌,變得有機會感染人類,嚴重時會導致病患死亡。

愛滋病(AIDS, Acquired Immune Deficiency Syndrome)是由愛滋病毒所引起的疾病。

分析動機

關心全台感染HIV病毒的病例分布, 藉由此次分析提升大眾對於HIV病毒的重視與現行狀況。

資料介紹與來源

-資料來源 : 政府資料開放平台 -資料名稱 : 地區年齡性別統計表-HIV感染(含母子垂直感染疑似個案)(2003/1-2017/5) -資料集描述 : 2003-2017起各地區、各年齡層、性別之病例數統計表 (疾病名稱:HIV感染,日期種類:診斷日,病例種類:確定病例,感染來源:本國籍、非本國籍)。 -主要欄位說明 : 「確定病名」、「診斷年份」、「診斷月份」、「縣市」、「性別」、「國籍」、「年齡層」、「確定病例數」。

載入使用資料們

library(readxl)
aa<- read_excel("~/Desktop/Age_County_Gender_044.xlsx")
aa

資料處理與清洗

說明處理資料的步驟

1.用str()函數總覽Age_County_Gender_044這個資料框的欄位與欄位類別;資料框內有13276筆資料(觀察值,obs),每筆資料有8個欄位 (variables)。 2.使用complete.cases來選出完整的資料列,如果資料列是完整的,則會回傳真TRUE;表中顯示所有資料皆是完整。 3.處理各年份、月份、縣市、性別總確定病例數由大至小排序。

library(dplyr)
library(data.table)

str(aa)

complete.cases(aa)


ac<-data.table(aa)
ba<-group_by(ac,診斷年份)%>%    
    summarise(總確定病例數=n())
baa<-arrange(ba,                
        desc(總確定病例數))
baa

ac<-data.table(aa)
bb<-group_by(ac,診斷月份)%>%  
    summarise(總確定病例數=n())
bab<-arrange(bb,                
        desc(總確定病例數))
bab

ac<-data.table(aa)
bc<-group_by(ac,縣市)%>%  
    summarise(總確定病例數=n())
bac<-arrange(bc,                
        desc(總確定病例數))
bac

ac<-data.table(aa)
bd<-group_by(ac,性別)%>%  
    summarise(總確定病例數=n())
bad<-arrange(bd,                
        desc(總確定病例數))
bad

探索式資料分析

將原本是一片模糊的情況,刻畫出基本輪廍

假設

1.年齡層20-24愛滋病例數最多。(年輕氣盛) 2.7-8月份愛滋中獎率最高。(學生放暑假期間) 3.感染病例應足年遞減。(政策、教育宣達) 4.台北市受感染病例最多。(首都、深夜場所眾多)

結果

1.年齡層落在25-29受感染人數最多,可能原因剛步入社會,涉世未深。 2.3月份最多,但1-12月受感染人數皆在正負100內,故認定受感染人數比例和月份無相關性。 3.自2005年爆發期後,立法院修法加強輔導各單位宣達,透過台灣紅絲帶基金會,防範愛滋病變降低了一些,但2006至今年感染人數皆在900上下,發展似恆動態平衡,感染途徑主要還是由不安全的性行為而感染,其次為毒品使用者。 4.台北市比例算是高可能原因如上,其他縣市皆大至符合人口數與受感染病例人數正相關。

library(dplyr)
library(data.table)

ac<-data.table(aa)
be<-group_by(ac,年齡層)%>%  
    summarise(總確定病例數=n())
bae<-arrange(be,                
        desc(總確定病例數))
bae

ac<-data.table(aa)
bb<-group_by(ac,診斷月份)%>%  
    summarise(總確定病例數=n())
bab<-arrange(bb,                
        desc(總確定病例數))
bab

ac<-data.table(aa)
ba<-group_by(ac,診斷年份)%>%    
    summarise(總確定病例數=n())
ba

ac<-data.table(aa)
bc<-group_by(ac,縣市)%>%  
    summarise(總確定病例數=n())
bac<-arrange(bc,                
        desc(總確定病例數))
bac

探討與結論

-1.點線圖表示各年份的確定病例數,分析感染病例是否逐漸上升/下降。

library(ggplot2)
library(ggthemes)
library(scales)

ac<-data.table(aa)
ba<-group_by(ac,診斷年份)%>%    
    summarise(總確定病例數=n())
colnames(ba)=c("YEARS","HIV_NUMBERS")
ggplot(ba,
       aes(x=YEARS,
           y=HIV_NUMBERS))+
  geom_point()+
  geom_smooth()
#逐漸上升

-2.探討各縣市確定HIV感染之統計。

library(ggplot2)
library(ggthemes)
library(scales)

ggplot(aa, 
       aes(x = 診斷年份, 
           y = 確定病例數,
           color=縣市,
           bins = 30)) + 
    geom_line()+ theme(text=element_text(family="STKaiti"))

-3.探討男性、女性確定HIV感染之人數差異。

library(ggplot2)
library(ggthemes)
library(scales)

qplot(診斷年份, data =aa, 
      fill = 性別,
      bins = 30)+ theme(text=element_text(family="STKaiti"))
#男女病例數正相關

-4.探討不同年齡層的確定病例數之排名。

library(ggplot2)
library(ggthemes)
library(scales)

ggplot(aa, 
       aes(x = 診斷年份, 
           y = 確定病例數)) + 
    geom_point()+facet_grid(.~年齡層)+ theme(text=element_text(family="STKaiti"))
#橫向分類

-5.以國籍區分,分析台灣的HIV感染病例。

library(ggplot2)
library(ggthemes)
library(scales)

ggplot(aa, aes(x=診斷年份,
               fill=國籍)) +
  geom_bar() +
  scale_fill_ptol() +
  theme_minimal()+ theme(text=element_text(family="STKaiti"))

分析結果可能解決的問題

-1. 年齡以落在25-29歲的受感染人數最多,可以把該年齡層當作主要宣導族群。 -2. 歷年來男性確定HIV感染人數皆高於女性,可針對男性加強教育正確性行為觀念。



qq29452747/FianlReport documentation built on May 16, 2019, 10:07 a.m.