2021. 7. 20. 00:41ㆍ야구데이터분석 공부
구글 트렌드 사이트에 들어가서 야구데이터를 추출한다.
양키스, 레드삭스, 다저스, 컵스 , 카디널스 데이터를 추출해서 csv파일로 저장한다.
library(readr)
pop <- read_csv("multiTimeline.csv")
colnames(pop) <- c("month","ny","boston","la","chicago","st")
파일을 불러오고 열의 이름들을 사용하기 쉽게 바꿔준다.
일단 프로야구 휴식기인 겨울시즌을 제외하고 정규시즌만의 인기도를 비교하기 위해 포스트 시즌과
비지든을 제외한 4월부터 9월까지 단 6개월 정규시즌과 관련된 데이터만 사용한다.
년월 변수를 분리한다.
a <- strsplit(as.character(pop$month),"-")
b <- data.frame(matrix(unlist(a), ncol = 2,byrow = TRUE)) #1행2열 짜리 행렬로 만든뒤 데이터프레임으로 변환시킨다.
c <- cbind(pop,b)
c$X2 <- as.numeric(as.character(c$X2)) #x2(월) 변수를 스트링으로 만든뒤 숫자형으로 바꾼다.
d <- c[!((c$X2==1)|(c$X2) == 2 | (c$X2 ==3)| (c$X2) ==10 |(c$X2 == 11)| (c$X2 == 12)),] #겨울시즌이 아닐때의 데이터만 추출
그리고 1,2,3,10,11,12(비시즌)월 을 제외한 데이터만 d에 저장한다.
처음 볼건 5개팀의 인기가 같은 수준인지를 ANOVA분석을 통해 확인한다.
두 그룹만을 비교하는 t테스트와는 달리 분산분석(ANOVA)는 두 그룹 이상의
평균차이를 한번에 비교하고, 팀별 인기도가 통계적으로 다르다고 확인 됐을 경우
두번째로 어떤 팀간에 차이가 있는지 확인하는 투기HSD 테스트를 적용한다.
처음 실험
귀무가설: 5개팀의 인기 평균은 모두 동일하다.
대립가설 5개팀의 인기 평균은 모두 동일하지 않다.
with(d, boxplot(ny,boston,la,chicago,st,
names=c("ny","boston","la","chicago","st")))
boxplot 그래프로 확인해보자
평균값은 양키스가 가장 높아보이지만 최대값은 la가 가지고 있다.
d에 들어가있는 데이터형태보단 stack 함수를 통해 인기도, 식별이름 인 데이터형태로 만들어준다.
d[c(1,7,8)] <- NULL #month,x1,x2 null로 바꿈
df <- stack(d)
df
anova <- aov(values~ind,df)
summary(anova)
Df Sum Sq Mean Sq F value Pr(>F)
ind 4 2863 715.9 13.86 5.83e-11 ***
Residuals 870 44951 51.7
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
p의 값이 엄청 작다. 5개팀의 인기도가 모두 같을 확률이 1%도 되지 않는다는 의미다.
결론은 팀들 차이의 인기도 차이가 있다는 결론이다.
두번째 다섯 팀끼리 짝을 지어 차이를 모두 비교하는 투키HSD 테스트로 어떤 팀의 인기도가
가장 높은지 확인하고 각 팀의 인기도에 따라 팀의 순서를 매길 수 있다.
TukeyHSD(anova,which = "ind")
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = values ~ ind, data = df)
$ind
diff lwr upr p adj
boston-ny -1.6228571 -3.7233818 0.4776675 0.2158305
la-ny -2.6400000 -4.7405246 -0.5394754 0.0055831
chicago-ny -0.8000000 -2.9005246 1.3005246 0.8361768
st-ny -5.2228571 -7.3233818 -3.1223325 0.0000000
la-boston -1.0171429 -3.1176675 1.0833818 0.6765234
chicago-boston 0.8228571 -1.2776675 2.9233818 0.8215211
st-boston -3.6000000 -5.7005246 -1.4994754 0.0000320
chicago-la 1.8400000 -0.2605246 3.9405246 0.1177305
st-la -2.5828571 -4.6833818 -0.4823325 0.0072243
st-chicago -4.4228571 -6.5233818 -2.3223325 0.0000001
유의수준 5% 기준으로 관측된 대부분의 팀 간 인기도의 차이가 존재하는 것으로 보인다.
boston과 ny의 차이가 -1.86이고
chicago 와 la는 1.84이다.
마이너스는 양키스의 인기도가 보스턴 보다 높음을 의미하고
플러스인 chicago 와 la에서는 chicago가 더 높음을 의미한다.
'야구데이터분석 공부' 카테고리의 다른 글
긍정오류와 부정오류 (0) | 2021.07.21 |
---|---|
데이터 분리 , 결합 , 대체 (0) | 2021.07.20 |
그룹별 비교 : AL(American League) vs NL(National League) (0) | 2021.07.19 |
표준편차의 힘 (0) | 2021.07.14 |
선수들 비교해보기 (0) | 2021.07.13 |