R 공부/비지도학습(3)
-
Hieararchical Clustering Analysis
Hieararchical Clustering Analysis을 한국어로 하면 계층적 군집 분석이라고 할수있다. 계층적 군집 분석은 : 가장 가까운 데이터 끼리 순차적(계층적)으로 묶어 나가는 군집화 기법이다. A랑 가장 가까운 데이터는 D이다. 그럼 A와 D를 묶는다. 그럼 AD와 다른것과의 거리는 어떻게 구하는가? AD와 C의 거리가 가깝기 때문에 ADC로 묶어주고 ADBC로 바꿔준다. 그럼 군집 개수는 어떻게 설정할것인가? 수평으로 잘라준뒤 나눠진 군집 개수로 정한다. 실습을 해보자 오늘 사용할 데이터는 USArrests 라는 데이터이다. R에 기본적으로 내장되있는 데이터이므로 그냥 사용하면 된다. df % #rname에 행의 이름을 넣어줌 arrange(desc('Rape')) %>% #Rape변수..
2021.06.28 -
k-Means Analysis
Clustering(군집화) 유사한 성질을 가지는 데이터 끼리 cluster(군집)를 나누는 과정 목표: 군집 내 데이터들의 거리는 가깝게, 군집간 거리는 멀게 K-means Clustering K개의 중심 정하고, 그 중심을 기반으로 clustering 하는 기법이다. K-means process 랜덤하게 K개의 점을 찍고 각 점을 중심으로 데이터들을 할당 할당된 군집에서 다시 중심점을 찾고 해당 중심점에서 가장 가까운 데이터로 재 군집화 군집에 할당된 데이터들이 바뀌지 않을 때 까지 2번의 과정을 반복 데이터간 거리를 측정하는 방법에는 여러가지 방법이 있다. 많이 사용하는 방법은 유클리드거리, 맨하튼 거리 가 있다. K-mean clustering 의 활용 군집화 및 군집별 특성 파악 Ex1) 고객 ..
2021.06.27 -
PCA(주성분 분석)
PCA는 내가 가진 데이터에서 가장 중요한 성분을 순서대로 추출하는 기법이다. 내 데이터의 분산을 가장 잘 설명해주는 축이 주성분1(PC1) PC1에 직교하는 축이 주성분2(PC2) 이미지 데이터에서 사용하는 PCA 공분산 행렬은 데이터 간 퍼져있는 정도를 나타내는 행렬 PCA는 분산을 최대화 하는축(주성분)을 찾는 작업이다 공분산행렬 Eigenvalue(고유값) & Eigenvector(고유벡터) 공분산 행렬에서 나타나는 고유한 벡터와 벡터의 고유값을 의미한다. 고유한 벡터: 분산의 방향, 주성분 벡터의 고유값: 분산의 크기, 주성분의 연산 v는 0이 아니어야한다. I는 단위행열이다. 역행렬이 존재하면 안되는 걸 찾는것. Eigenvalue의 크기 순서대로 eigenvector을 나열한다. 정렬된 ei..
2021.06.26