구글 트렌드를 이용한 구단별 인기도 차이

2021. 7. 20. 00:41야구데이터분석 공부

구글 트렌드 사이트에 들어가서 야구데이터를 추출한다. 

양키스, 레드삭스, 다저스, 컵스 , 카디널스 데이터를 추출해서 csv파일로 저장한다.

library(readr)
pop <- read_csv("multiTimeline.csv")
colnames(pop) <- c("month","ny","boston","la","chicago","st")

파일을 불러오고 열의 이름들을 사용하기 쉽게 바꿔준다.

일단 프로야구 휴식기인 겨울시즌을 제외하고 정규시즌만의 인기도를 비교하기 위해 포스트 시즌과

비지든을 제외한 4월부터 9월까지 단 6개월 정규시즌과 관련된 데이터만 사용한다.

년월 변수를 분리한다.

a <- strsplit(as.character(pop$month),"-")
b <- data.frame(matrix(unlist(a), ncol = 2,byrow = TRUE)) #1행2열 짜리 행렬로 만든뒤 데이터프레임으로 변환시킨다.
c <- cbind(pop,b)
c$X2 <- as.numeric(as.character(c$X2)) #x2(월) 변수를 스트링으로 만든뒤 숫자형으로 바꾼다.
d <- c[!((c$X2==1)|(c$X2) == 2 | (c$X2 ==3)| (c$X2) ==10 |(c$X2 == 11)| (c$X2 == 12)),] #겨울시즌이 아닐때의 데이터만 추출

그리고 1,2,3,10,11,12(비시즌)월 을 제외한 데이터만 d에 저장한다.

처음 볼건 5개팀의 인기가 같은 수준인지를 ANOVA분석을 통해 확인한다. 

두 그룹만을 비교하는 t테스트와는 달리 분산분석(ANOVA)는 두 그룹 이상의 

평균차이를 한번에 비교하고, 팀별 인기도가 통계적으로 다르다고 확인 됐을 경우 

두번째로 어떤 팀간에 차이가 있는지 확인하는 투기HSD 테스트를 적용한다.

 

처음 실험 

 

귀무가설: 5개팀의 인기 평균은 모두 동일하다.

대립가설 5개팀의 인기 평균은 모두 동일하지 않다.

 

with(d, boxplot(ny,boston,la,chicago,st,
                names=c("ny","boston","la","chicago","st")))

boxplot 그래프로 확인해보자

평균값은 양키스가 가장 높아보이지만 최대값은 la가 가지고 있다.

d에 들어가있는 데이터형태보단 stack 함수를 통해 인기도, 식별이름 인 데이터형태로 만들어준다.

d[c(1,7,8)] <- NULL #month,x1,x2 null로 바꿈
df <- stack(d)
df
anova <- aov(values~ind,df)
summary(anova)
            Df Sum Sq Mean Sq F value   Pr(>F)    
ind           4   2863   715.9   13.86 5.83e-11 ***
Residuals   870  44951    51.7                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

p의 값이 엄청 작다. 5개팀의 인기도가 모두 같을 확률이 1%도 되지 않는다는 의미다.

결론은 팀들 차이의 인기도 차이가 있다는 결론이다.

 

두번째 다섯 팀끼리 짝을 지어 차이를 모두 비교하는 투키HSD 테스트로 어떤 팀의 인기도가 

가장 높은지 확인하고 각 팀의 인기도에 따라 팀의 순서를 매길 수 있다.

 

TukeyHSD(anova,which = "ind")

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = values ~ ind, data = df)

$ind
                     diff        lwr        upr     p adj
boston-ny      -1.6228571 -3.7233818  0.4776675 0.2158305
la-ny          -2.6400000 -4.7405246 -0.5394754 0.0055831
chicago-ny     -0.8000000 -2.9005246  1.3005246 0.8361768
st-ny          -5.2228571 -7.3233818 -3.1223325 0.0000000
la-boston      -1.0171429 -3.1176675  1.0833818 0.6765234
chicago-boston  0.8228571 -1.2776675  2.9233818 0.8215211
st-boston      -3.6000000 -5.7005246 -1.4994754 0.0000320
chicago-la      1.8400000 -0.2605246  3.9405246 0.1177305
st-la          -2.5828571 -4.6833818 -0.4823325 0.0072243
st-chicago     -4.4228571 -6.5233818 -2.3223325 0.0000001

유의수준 5% 기준으로 관측된 대부분의 팀 간 인기도의 차이가 존재하는 것으로 보인다.

boston과 ny의 차이가 -1.86이고

chicago 와 la는 1.84이다.

마이너스는 양키스의 인기도가 보스턴 보다 높음을 의미하고

플러스인 chicago 와 la에서는 chicago가 더 높음을 의미한다.