본문 바로가기

반응형

regularization

(3)
Label Smoothing Multi-class 분류를 위한 cross entropy loss 에서 목적함수의 타겟으로 사용되는 라벨은 일반적으로 정확히 하나의 클래스만 명확히 표현하는 (one-hot vector) hard 라벨이 사용됩니다. Label smoothing 기법은 한 클래스가 전체를 모두 차지하는 hard 라벨을 정답 클래스의 비중을 약간 줄이고 나머지 클래스의 비중을 늘리는 soft 라벨로 변환하는 기법인데요, 처음에는 Inception 구조의 성능을 높이고자 도입되었고 간단한 정규화 방법으로 image classification, speech recognition, machine translation 분야에 Table 1에서 처럼 적극적으로 사용되고 있습니다. $K$개의 클래스에 대해서 라벨을 얼마만큼 부드럽게..
Maximum Likelihood Estimation & Maximum A Posteriori Maximum likelihood estimation (MLE) MLE (최대우도법)은 주어진 데이터셋 $D$에 대해 $D$를 가장 잘 설명하는 (likelihood) 모델의 파라미터 $w$를 찾는 방법입니다. Likelihood 란 특정한 파라미터로 정의된 모델의 분포가 데이터에 대해 얼마나 잘 들어맞는지에 대한 통계적인 정의로 확률은 단순히 정의된 확률분포 상에서의 값을 말하지만 likelihood 는 데이터 분포에 모델 분포가 얼마나 잘 들어맞는지를 뜻합니다. 즉, MLE는 likelihood 함수 $p(D|w)$ 가 최대화되는 $\hat{w}$를 찾는 방법이고 보통 로그를 취해 negative log-likelihood (NLL) 를 최소화하는 방향으로 식을 변환합니다. $\hat{w}=argma..
CutMix 이번 포스트에서 살펴볼 내용은 네이버 Clova 에서 발표한 CutMix 입니다. 그동안 이미지 기반 태스크의 성능을 끌어올리기 위해 Mixup, Cutout 등과 같은 다양한 data augmentation 기법이 제안되었는데요, 이 방법들은 이미지에서 일부분을 잘라내서 0으로 채우거나 (Cutout) 다른 이미지와 겹침으로서 CNN 으로 하여금 이미지의 덜 중요한 부분까지 (사람으로 치면 머리가 아닌 다리) 포커싱하게 만드는 regional dropout 전략이라고 볼 수 있습니다. 하지만 Table 1에서 보다시피 Cutout 은 이미지의 일부분을 아예 삭제하여 정보 손실을 유발하고 Mixup 은 다른 이미지와 interpolate 함으로서 이미지 정보가 왜곡되어 버리는 현상이 발생합니다. CutM..

반응형