본문 바로가기

반응형

Machine Learning Tasks

(67)
Clustering - Performance (2), Total Sum of Squares 지난 포스트 [Machine Learning/Unsupervised Learning] - Clustering - Performance (1) 지난 포스트에서 라벨 없이 clustering 의 성능 평가를 위한 지표들인 silhouette score, calinski-harabasz index, davies-bouldin index 에 대해 알아봤습니다. Clustering 의 목적 자체가 전체 데이터셋 중 비슷한 데이터끼리는 같은 군집으로 비슷하지 않은 데이터끼리는 서로 다른 군집끼리는 구별되도록 묶는 알고르짐이기에 대표적인 지표들인 silhouette score, calinski-harabasz index 는 서로 모양은 다르지만 clustering 의 성능 평가를 위해서 1) 각 군집이 얼마나 잘 뭉..
Clustering - Performance (1) 지난 포스트 [Machine Learning/Unsupervised Learning] - Clustering - Hungrian Algorithm 지난 포스트에서는 clustering 의 결과 할당된 군집 번호를 라벨과의 정확도가 최대화가 되도록 재할당하는 Hungarian Algorithm 에 대하여 알아봤습니다. 이번 포스트에서는 데이터에 대한 라벨이 없고 순수히 clustering 결과의 성능을 측정하기 위한 다양한 방법들을 알아보도록 하겠습니다. Silhouette score Silhouette score 는 지난 포스트에서 cluster 의 개수를 판단하는 지표로서 소개해드렸는데요, clustering 의 성능을 평가하는데도 사용됩니다. Silhouette score 는 특정 데이터 샘플과 같은..
Clustering - Hungrian Algorithm Clustering 은 주어진 데이터를 정해진 수의 군집 수에 따라 비슷한 특성끼리 묶어주는 알고리즘으로 K-Means, DBSCAN, deep learning based clustering 등 모든 종류의 clustering 알고리즘은 훈련 후의 각 데이터 샘플 별 할당된 군집 번호를 출력합니다. 하지만 문제는 할당된 군집 번호가 훈련 시마다 매 번 다르고 각 데이터 별 라벨이 있을 경우 라벨 번호와 맞지 않는다는 것인데요, 이번 포스트에서는 clustering 이후의 군집 번호를 기준 (라벨)에 맞게 재정렬하는 Hungarian 알고리즘에 대해 알아보도록 하겠습니다. 4개의 클래스를 가진 16개의 데이터가 [0,0,0,0,1,1,1,1,2,2,2,2,3,3,3,3] 라벨을 가졌을 때, clusteri..
Learning and Evaluating Representations for Deep One-Class Classification (2) 이전 포스트 [Machine Learning/Anomaly Detection] - Learning and Evaluating Representations for Deep One-Class Classification (1) Experiments 실험은 CIFAR-10/100, Fashin-MNIST, Cat-vs-Dog 에 대해 one-vs-rest 방법으로 진행합니다. 또한 더욱 challenging 한 CelebA 의 eyeglasses 데이터와 (안경을 쓴 이미지가 비정상 데이터라 간주합니다.) 산업용 결함 데이터인 MVTec 에 대해서도 실험을 진행합니다. Backbone 모델로는 ResNet-18을 $f$로, 여러 층의 MLP를 $g$로 구성합니다. Main results 각각의 represent..
Learning and Evaluating Representations for Deep One-Class Classification (1) 이번 포스트에서 다룰 내용은 self-supervised 를 통해 추출한 representation을 이용해 이상탐지를 수행하는 two-stage 이상탐지에 관한 논문 "Learning and Evaluating Representations for Deep One-Class Classification" 입니다. 이상탐지를 위한 전통적인 방법으로는 크게 데이터 분포를 추정해 확률이 낮은 곳에 위치하는 데이터를 이상치로 판단하는 KDE (Kernel Density Esitmation) 와 one-class 주변에 decision boundary를 구축하는 OCSVM (One-class SVM) 이 있습니다. 이러한 전통적인 방법의 문제는 deep neural networks 와 달리 데이터의 represen..
NeuTraL AD 이미지의 회전, 반전, crop 등의 다양한 transformation을 이용한 representation 학습 방법은 간단한 image classification 부터 시작하 다양한 downstream task에 선제적으로 이용되어 왔습니다. 지난 포스트에서 다루었던 SimCLR, MoCo, SwAV 등이 있죠. 하지만 이미지에 쓰이는 다양한 transformation 은 이미지의 공간적인 정보를 어느 정도 유지한다는 가정이 적용되기에 이미지를 제외한 tabular/time series 데이터에 이미지에 쓰이는 다양한 transformation 을 그대로 적용하기는 굉장히 애매합니다. 이번 포스트에서 다룰 내용은 SimCLR 등에서 다루었던 대조 학습 기반에 transformation 까지 neural..
Clustering - Learning Discrete Representations via Information Maximizing Self-Augmented Training Deep neural networks 는 데이터의 복잡한 비선형 관계를 잘 모델링할 수 있다는 점에서 머신러닝의 다양한 분야에 채택되어 왔고 clustering 이나 hash learning 과 같은 discrete representation이 필요한 태스크에도 응용되어 왔습니다. 하지만 deep neural networks은 모델의 복잡도가 크고 clustering과 같은 비지도학습은 타겟 단에서의 라벨이 없기 때문에 모델에 대한 적절한 정규화 (regularization)이 필수적입니다. 이번 포스트에서 다룰 내용은 데이터를 discrete representation 으로 매핑하는 deep neural networks를 data augmentation 에 대해서도 결과가 변하지 않도록 (invaria..
Isolation Forest 지난 포스트의 전통적인 이상탐지 기법 LOF (Local Outlier Factor) 에 이어, 이번 포스트에서 다룰 이상탐지 기법은 2008년에 발표된 Isolation Forest 입니다. Isolation Forest는 여러 개의 의사결정나무 (decision tree)를 종합한 앙상블 기반의 이상탐지 기법으로 의사결정나무를 지속적으로 분기시키면서 모든 데이터 관측치의 고립 정도 여부에 따라 이상치를 판별하는 방법입니다. 직관적으로 비정상 데이터라면 의사결정나무의 루트에서 가까운 깊이에서 고립될 것이고 정상 데이터라면 루트에서 먼 깊이에서 고립될 것입니다. 즉, 특정한 샘플이 고립되는 leaf 노드 (의사결정나무의 끝) 까지의 거리를 outlier score로 정의하고 루트 노드까지의 평균 거리가 ..

반응형