-
Notifications
You must be signed in to change notification settings - Fork 4
/
Copy pathhw6-0516.Rmd
64 lines (47 loc) · 2.27 KB
/
hw6-0516.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
---
title: "1928-1969間,小兒麻痺在美國各州的發生率變化"
output: github_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
#資料前處理
把資料讀進來
```{r}
polio<-read.csv("POLIO_Incidence.csv",stringsAsFactors = F)
head(polio)
```
##
將寬表格轉成長表格
```{r}
#install.packages("reshape")
library(reshape)
polio.m<-melt(polio,id.vars = c('YEAR','WEEK'))
head(polio.m)
```
##
處理缺值
```{r}
polio.m[polio.m$value=="-",]$value<-NA #處理缺值,將"-"轉為NA
polio.m$value<-as.numeric(as.character(polio.m$value)) #將value欄位轉為數字
```
##
計算年度發生率
```{r}
polio.sumYear<- #各州各年度加總,計算該年度的總發生率
aggregate(value~YEAR+variable,data=polio.m,FUN=sum,na.rm=F)
head(polio.sumYear)
```
#視覺化呈現
解釋選擇圖形種類:會選擇Heatmap的原因是他可以用以XY軸與方格顏色完整呈現三個維度(年份、各州、發生率)的變量中彼此的變化及相關性
程式碼:我以年份作為X軸的變量,而Y軸作為美國的所有洲的名稱,每個方格用來顯示依各年份及各州小兒麻痺的發生率的加總,並將小兒麻痺的發生率以白色至紫色由小到大顯示在每一個方格中,並且在1955年中畫出Y軸的虛線。
圖形呈現:
```{r}
#install.packages("ggplot2")
library(ggplot2)
ggplot(polio.sumYear, aes(YEAR, variable)) + #aes(x,y)
geom_tile(aes(fill = value),colour = "white")+
geom_vline(xintercept = 1955,colour="black", linetype = "longdash")+ #geom_tile: 區塊著色
scale_fill_gradient(low = "white",high = "purple") #數值低:白色
```
圖形解釋:在Heatmap的圖形中為1928至1969年間小兒麻痺的發生率變化,我以年份作為X軸的變量,而Y軸作為美國的所有洲的名稱,每個方格用來顯示依各年份及各州小兒麻痺的發生率的加總,並將小兒麻痺的發生率以白色至紫色由小到大顯示在每一個方格中,可看出1930年後小兒麻痺發生率逐漸上升,至1950年左右到達了巔峰,而我在1955年中畫出Y軸的虛線,由此可看出1955年後(小兒麻痺疫苗出現)紫色方格變少表示小兒麻辦的發生率明顯驟減的趨勢,意即疫苗的出現成功降低小兒麻痺的發生率