B0344109 黃詩茜 -蒐集資料 -資料處理與清洗 -圖表製作 -探討與結論
B0344247 許定楠 -資料處理與清洗 -探索式分析 -圖表製作 -探討與結論 -PPT製作與報告
12月1日是世界愛滋病日,台灣感染愛滋人數在2015年達到史上第3高,愛滋病再也不是遙遠議題,更可能發生在我們親密朋友的身上。
愛滋病毒為人類免疫缺乏病毒(Human Immunodeficiency Virus, HIV)的簡稱,是一種破壞免疫系統的病毒。
愛滋病毒會破壞人體原本的免疫系統,使病患的身體抵抗力降低,當免疫系統遭到破壞後,原本不會造成生病的病菌,變得有機會感染人類,嚴重時會導致病患死亡。
愛滋病(AIDS, Acquired Immune Deficiency Syndrome)是由愛滋病毒所引起的疾病。
關心全台感染HIV病毒的病例分布, 藉由此次分析提升大眾對於HIV病毒的重視與現行狀況。
-資料來源 : 政府資料開放平台 -資料名稱 : 地區年齡性別統計表-HIV感染(含母子垂直感染疑似個案)(2003/1-2017/5) -資料集描述 : 2003-2017起各地區、各年齡層、性別之病例數統計表 (疾病名稱:HIV感染,日期種類:診斷日,病例種類:確定病例,感染來源:本國籍、非本國籍)。 -主要欄位說明 : 「確定病名」、「診斷年份」、「診斷月份」、「縣市」、「性別」、「國籍」、「年齡層」、「確定病例數」。
library(readxl) aa<- read_excel("~/Desktop/Age_County_Gender_044.xlsx") aa
說明處理資料的步驟
1.用str()函數總覽Age_County_Gender_044這個資料框的欄位與欄位類別;資料框內有13276筆資料(觀察值,obs),每筆資料有8個欄位 (variables)。 2.使用complete.cases來選出完整的資料列,如果資料列是完整的,則會回傳真TRUE;表中顯示所有資料皆是完整。 3.處理各年份、月份、縣市、性別總確定病例數由大至小排序。
library(dplyr) library(data.table) str(aa) complete.cases(aa) ac<-data.table(aa) ba<-group_by(ac,診斷年份)%>% summarise(總確定病例數=n()) baa<-arrange(ba, desc(總確定病例數)) baa ac<-data.table(aa) bb<-group_by(ac,診斷月份)%>% summarise(總確定病例數=n()) bab<-arrange(bb, desc(總確定病例數)) bab ac<-data.table(aa) bc<-group_by(ac,縣市)%>% summarise(總確定病例數=n()) bac<-arrange(bc, desc(總確定病例數)) bac ac<-data.table(aa) bd<-group_by(ac,性別)%>% summarise(總確定病例數=n()) bad<-arrange(bd, desc(總確定病例數)) bad
將原本是一片模糊的情況,刻畫出基本輪廍
1.年齡層20-24愛滋病例數最多。(年輕氣盛) 2.7-8月份愛滋中獎率最高。(學生放暑假期間) 3.感染病例應足年遞減。(政策、教育宣達) 4.台北市受感染病例最多。(首都、深夜場所眾多)
1.年齡層落在25-29受感染人數最多,可能原因剛步入社會,涉世未深。 2.3月份最多,但1-12月受感染人數皆在正負100內,故認定受感染人數比例和月份無相關性。 3.自2005年爆發期後,立法院修法加強輔導各單位宣達,透過台灣紅絲帶基金會,防範愛滋病變降低了一些,但2006至今年感染人數皆在900上下,發展似恆動態平衡,感染途徑主要還是由不安全的性行為而感染,其次為毒品使用者。 4.台北市比例算是高可能原因如上,其他縣市皆大至符合人口數與受感染病例人數正相關。
library(dplyr) library(data.table) ac<-data.table(aa) be<-group_by(ac,年齡層)%>% summarise(總確定病例數=n()) bae<-arrange(be, desc(總確定病例數)) bae ac<-data.table(aa) bb<-group_by(ac,診斷月份)%>% summarise(總確定病例數=n()) bab<-arrange(bb, desc(總確定病例數)) bab ac<-data.table(aa) ba<-group_by(ac,診斷年份)%>% summarise(總確定病例數=n()) ba ac<-data.table(aa) bc<-group_by(ac,縣市)%>% summarise(總確定病例數=n()) bac<-arrange(bc, desc(總確定病例數)) bac
-1.點線圖表示各年份的確定病例數,分析感染病例是否逐漸上升/下降。
library(ggplot2) library(ggthemes) library(scales) ac<-data.table(aa) ba<-group_by(ac,診斷年份)%>% summarise(總確定病例數=n()) colnames(ba)=c("YEARS","HIV_NUMBERS") ggplot(ba, aes(x=YEARS, y=HIV_NUMBERS))+ geom_point()+ geom_smooth() #逐漸上升
-2.探討各縣市確定HIV感染之統計。
library(ggplot2) library(ggthemes) library(scales) ggplot(aa, aes(x = 診斷年份, y = 確定病例數, color=縣市, bins = 30)) + geom_line()+ theme(text=element_text(family="STKaiti"))
-3.探討男性、女性確定HIV感染之人數差異。
library(ggplot2) library(ggthemes) library(scales) qplot(診斷年份, data =aa, fill = 性別, bins = 30)+ theme(text=element_text(family="STKaiti")) #男女病例數正相關
-4.探討不同年齡層的確定病例數之排名。
library(ggplot2) library(ggthemes) library(scales) ggplot(aa, aes(x = 診斷年份, y = 確定病例數)) + geom_point()+facet_grid(.~年齡層)+ theme(text=element_text(family="STKaiti")) #橫向分類
-5.以國籍區分,分析台灣的HIV感染病例。
library(ggplot2) library(ggthemes) library(scales) ggplot(aa, aes(x=診斷年份, fill=國籍)) + geom_bar() + scale_fill_ptol() + theme_minimal()+ theme(text=element_text(family="STKaiti"))
-1. 年齡以落在25-29歲的受感染人數最多,可以把該年齡層當作主要宣導族群。 -2. 歷年來男性確定HIV感染人數皆高於女性,可針對男性加強教育正確性行為觀念。
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.