본문 바로가기

반응형

Machine Learning Tasks/Clustering

(10)
Clustering - 군집 개수 정하기 이전 포스트에서 군집화의 대표 알고리즘 K-Means에 알아보았습니다. K-Means의 대표적인 특징으로는 군집의 개수 $k$를 미리 설정해주어야 하는 것이었는데요. 데이터에 대한 사전 지식이나 나눌 그룹의 수를 미리 정의한 경우에는 괜찮지만 그러한 배경이 없는 경우 군집화가 비지도 학습이라 정답이 없기 때문에 일반적인 성능평가 방법을 이용할 수 없습니다. 어떻게 군집 알고리즘에 대한 성능평가를 내려 $k$를 적절하게 설정할 수 있을까요? Elbow method 가장 대표적인 방법으로 지난 포스트에서 다루었던 inertia 를 이용하는 방법입니다. Inertia는 각 군집 별 오차의 제곱의 합으로 군집 내 분산으로 정의할 수 있는데, 일반적으로 $k$가 증가하면 샘플이 할당된 센트로이드에 가까워져 ine..
Clustering - K-Means 군집화는 대표적인 비지도학습 주제의 하나로 데이터 $x$에 대한 출력 $y$를 예측하는 지도학습과는 달리 $x$ 자체가 비슷한 것끼리 묶어주는 알고리즘입니다. 비지도학습이니 당연히 $x$에 대한 라벨 $y$가 필요하지 않고 비슷한 특성을 가진 데이터끼리 그룹 (군집)을 구성하는 것으로 간단하게는 문서, 음악, 영화를 여러 주제의 그룹으로 모으는 경우나 스팸 이메일을 판단하는 데이도 사용되는 중요한 분야입니다. 이번 포스트에서는 군집화의 대표적인 알고리즘, K-Means를 살펴보도록 하겠습니다. K-Means K-Means 는 군집의 개수 $k$를 설정하고 각 군집에 할당된 데이터 샘플의 평균 중심으로 군집 중심을 이동하는 방법입니다. K-Means는 다음과 같이 4단계로 요약할 수 있습니다. 1) 데이터..

반응형