R 공부/R(11)
-
한국복지패널 데이터를 활용한 한국인의 삶 분석
일단 데이터를 한번 살펴보자 변수에 대한 설명이 적혀있는 파일인데 변수명이 알수없는 문자들로 되어있다. 모든 변수들로 연습해보긴 어려우므로 가장 활용도가 높은 변수 세개로 연습해보자 성별, 태어난 연도, 가처분 소득 분석목표 분석1: 성별에 따른 소득 분석2: 나이와 소득의 관계 분석3: 연령대에 따른 소득 분석4: 연령대 및 성별에 따른 소득 install.packages("foreign") #foreign 패키지 설치 #패키지 로드 library(foreign) library(dplyr) library(ggplot2) #데이터 불러오기 raw_welfare
2021.06.07 -
데이터 정제하기
결측치 정제하기 결측치(Missing Value) 누락된 값, 비어 있는 ㄱ밧 함수 적용 불가, 분석 결과 왜곡 제거 후 분석 실시 데이터에서 결측치 표기는 대문자 NA로 한다. df % filter(!is.na(score)&!is.na(sex)) df 데이터 안에 있는 결측치가 아닌걸 추출하면 된다. 하지만 이건 숫자의 한계가 있다. 함수중에 na.omit이라는 함수를 이용하면 결측치 없이 추출가능하다. 이건 모든 결측치를 다 없애주는 단점이 있다. 그리고 파라미터에 na.rm이라는 파라미터를 넣으면 결측치를 제외하고 평균,합계를 산출해준다. exam % summarise(mean_hwy = mean(hwy,na.rm = T))
2021.06.07 -
그래프
막대그래프(Bar Chart) : 데이터의 크기를 막대의 길이로 표현한 그래프 성별 소득 차이 처럼 집단 간 차이를 표현할 때 주로 사용 막대그래프 1 - 평균 막대 그래프 만들기 각 집단의 평균값을 막대 길이로 표현한 그래프 집단별 평균표 만들기 df_mpg % group_by(drv) %>% summarise(mean_hwy = mean(hwy)) #결과 drv mean_hwy 1 4 19.2 2 f 28.2 3 r 21 그래프 생성 ggplot(data = df_mpg, aes(x = drv,y= mean_hwy))+ geom_col() 그리고 x축을 크기 순으로 정렬하려면? ggplot(data = df_mpg, aes(x = reorder(drv,-mean_hwy),y= mean_hwy))+ g..
2021.06.06 -
산점도
산점도(Scater Plot) : 데이터를 x축과 y축에 점으로 표현한 그래프 나이와 소득처럼, 연속 값으로 된 두 변수의 관계를 표현할 때 사용 대표적인 library 인 ggplot2를 사용해볼것이다. ggplot2 의 구조는 3단계로 나뉜다 1단계 : 배경 설정(축) 2단계 : 그래프추가(점,막대,선) 3단계 : 설정추가(축 범위, 색 ,표시) 실제로 실행해보자 1단계 배경설정하기 ggplot(data = mpg , aes(x = displ, y = hwy)) mpg데이터를 사용할것이고 , x축에는 displ , y축에는 hwy가 들어간다 다음와 같이 x축과 y축이 설정되고 그래프가 생성되지 않은 표가 완성된다. 2단계 그래프 추가하기 ggplot(data = mpg , aes(x = displ, ..
2021.06.06 -
데이터 전처리(2)
데이터를 순서대로 정렬해보자 수학점수를 오름차수로 정렬하려면? exam %>% arrange(math) #수학점수 오름차수 정렬 내림차수로 하려면? exam %>% arrange(desc(math)) #수학점수 내림차수 정렬 정렬 기준 변수를 여러개 지정할수도 있다. exam %>% arrange(class,math) # class 및 math 오름차순 정렬 파생 변수를 한번 추가해보자! 파생변수란? 영어점수와 수학점수가 있을때 합계를 위한 새로운 변수를 만드는데 이런변수를 파생변수라고 한다. exam %>% mutate(total = math + english + science) total 이라는 수학 영어 과학점수를 합계한 변수를 생성했다. 한번에 여러 파생 변수를 추가할수도 있다. exam %>% ..
2021.05.30 -
데이터 전처리(1)
데이터 전처리(Preprocessing)를 할때에는 dplyr패키지의 함수들을 주로 사용하게 된다. 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 기본적인 함수들이다. 1. 조건에 맞는 데이터(행)만 추출하기 id class math english science 1 1 1 50 98 50 2 2 1 60 97 60 3 3 1 45 86 78 4 4 1 30 98 58 5 5 2 25 80 65 6 6 2 50 89 98 7 7 2 80 90 45 8 8 2 90 78 25 9 9 3 ..
2021.05.17