본문 바로가기

반응형

Machine Learning Tasks/Anomaly Detection

(10)
Learning and Evaluating Representations for Deep One-Class Classification (2) 이전 포스트 [Machine Learning/Anomaly Detection] - Learning and Evaluating Representations for Deep One-Class Classification (1) Experiments 실험은 CIFAR-10/100, Fashin-MNIST, Cat-vs-Dog 에 대해 one-vs-rest 방법으로 진행합니다. 또한 더욱 challenging 한 CelebA 의 eyeglasses 데이터와 (안경을 쓴 이미지가 비정상 데이터라 간주합니다.) 산업용 결함 데이터인 MVTec 에 대해서도 실험을 진행합니다. Backbone 모델로는 ResNet-18을 $f$로, 여러 층의 MLP를 $g$로 구성합니다. Main results 각각의 represent..
Learning and Evaluating Representations for Deep One-Class Classification (1) 이번 포스트에서 다룰 내용은 self-supervised 를 통해 추출한 representation을 이용해 이상탐지를 수행하는 two-stage 이상탐지에 관한 논문 "Learning and Evaluating Representations for Deep One-Class Classification" 입니다. 이상탐지를 위한 전통적인 방법으로는 크게 데이터 분포를 추정해 확률이 낮은 곳에 위치하는 데이터를 이상치로 판단하는 KDE (Kernel Density Esitmation) 와 one-class 주변에 decision boundary를 구축하는 OCSVM (One-class SVM) 이 있습니다. 이러한 전통적인 방법의 문제는 deep neural networks 와 달리 데이터의 represen..
NeuTraL AD 이미지의 회전, 반전, crop 등의 다양한 transformation을 이용한 representation 학습 방법은 간단한 image classification 부터 시작하 다양한 downstream task에 선제적으로 이용되어 왔습니다. 지난 포스트에서 다루었던 SimCLR, MoCo, SwAV 등이 있죠. 하지만 이미지에 쓰이는 다양한 transformation 은 이미지의 공간적인 정보를 어느 정도 유지한다는 가정이 적용되기에 이미지를 제외한 tabular/time series 데이터에 이미지에 쓰이는 다양한 transformation 을 그대로 적용하기는 굉장히 애매합니다. 이번 포스트에서 다룰 내용은 SimCLR 등에서 다루었던 대조 학습 기반에 transformation 까지 neural..
Isolation Forest 지난 포스트의 전통적인 이상탐지 기법 LOF (Local Outlier Factor) 에 이어, 이번 포스트에서 다룰 이상탐지 기법은 2008년에 발표된 Isolation Forest 입니다. Isolation Forest는 여러 개의 의사결정나무 (decision tree)를 종합한 앙상블 기반의 이상탐지 기법으로 의사결정나무를 지속적으로 분기시키면서 모든 데이터 관측치의 고립 정도 여부에 따라 이상치를 판별하는 방법입니다. 직관적으로 비정상 데이터라면 의사결정나무의 루트에서 가까운 깊이에서 고립될 것이고 정상 데이터라면 루트에서 먼 깊이에서 고립될 것입니다. 즉, 특정한 샘플이 고립되는 leaf 노드 (의사결정나무의 끝) 까지의 거리를 outlier score로 정의하고 루트 노드까지의 평균 거리가 ..
Local Outlier Factor (LOF) 이번 포스트에서 다룰 내용은 딥러닝 기반 이상탐지 말고 2000년에 발표된 전통적인 이상탐지 방법, Local Outlier Factor (LOF) 입니다. LOF 의 기본 아이디어는 전체 데이터 분포에서 지역적인 밀집도를 (density) 고려하겠다는 것에서부터 출발합니다. 일반적인 density based 방법은 특정 거리 안에 들어오는 데이터의 개수로 밀집도를 정의하나 밑의 그림의 C1/C2 처럼 밀집된 정도가 각각 다르다면 밀집도를 정의하는 특정 임계치를 정하는 것이 어렵습니다. 밑의 경우에 대해 기존 density based 방법은 o1은 이상치로 잘 탐지하겠지만 o2는 탐지를 못할 가능성이 높겠죠. 따라서 LOF는 지역적인 밀집도를 고려하여 이상치를 판단합니다. LOF LOF에서는 먼저 특정 ..
RAPP 이번 포스트에서는 2020년 ICLR에서 발표된 마키노락스의 (Machine Intelligence 회사로 시스템에 대한 이상탐지 및 지능제어 솔루션을 제공합니다) 이상탐지 방법론의 논문입니다. 주목할 점은 새로운 학습 방법론을 제시하는 것이 아니라 anomaly score를 측정하는 새로운 방법론만으로 이상 탐지의 성능을 비약적으로 향상시키는 것에 있는데요, 한번 살펴보도록 하겠습니다. 오토인코더 (auto-encoder)는 데이터 $x$의 최대한의 정보를 남기게끔 압축한 이후에 이를 다시 복원시키는 모델로 비선형 관계를 표현할 수 있는 deep neural networks를 사용한 deep auto-encoder가 이상탐지 분야에서 매우 많이 사용되어 왔습니다. 정상 데이터를 통해 오토인코더를 정상 ..
Classification-based Anomaly Detection for General Data 이 논문은 classification 기반의 이상 탐지를 수행한 GEOM (Geometric-transformation classification) 을 확장하여 이미지 이외의 tabular 등의 다른 데이터 타입에도 적용 가능한 이상 탐지 알고리즘을 (GOAD) 제안한 논문입니다. 훈련 데이터에 정상 데이터만 포함된 semi-supervised 시나리오를 가정하였고 open-set classification 에서 영감을 받아 inter-class separation (각 클래스 간의 거리)은 늘리고 intra-class separation (한 클래스 안의 거리) 줄어들도록 GEOM 알고리즘을 개선했습니다. 또한, 이미지가 아닌 데이터에 대해서도 일반화가 가능하도록 기존의 기하학적인 transformat..
Deep Anomaly Detection Using Geometric Transformations 이 논문은 이미지의 geo-transformation을 이용한 이상 탐지 알고리즘을 제안합니다. 입력 이미지에 대해 flipping, rotation 등의 transformation을 통해 얻은 self-labeled (자가 라벨) 데이터를 이용해 일반적인 classifier를 학습시키고 classifier의 score로부터 정상, 비정상 여부를 판단합니다. 이 방법은 classifier가 정상 데이터에 대한 geo-transformed 된 이미지를 어떠한 transformation을 적용하였는지 잘 구분하게 학습하게 되면 정상 데이터의 도드라지는 공통된 feature를 얻을 수 있게 되리라는 동기에서 출발하였습니다. Methods Problem statement 먼저 문제를 정의하겠습니다. 주어진 정상..

반응형