본문 바로가기

반응형

분류 전체보기

(369)
Self-Supervised Learning - SimCLRv2 (1) Semi-supervised learning은 일부의 labeled data와 매우 많은 unlabeled data를 함께 활용하는 것으로 대부분의 현실 상황과 맞물려 있어 중요한 문제로 다루어져 왔습니다. 이번 포스트에서 다룰 내용은 SimCLR에서 연장된 SimCLRv2로 self-supervised learning으로 뽑아낸 representation을 이용하여 semi-supervised learning을 수행합니다. 기본적인 방법은 대량의 unlabeled data를 task specific하지 않은 task agnostic한 방법으로 self-supervised learning으로 수행한 후 적은 labeled data로 fine-tuning을 하는 것입니다. 이 방법은 NLP 분야에서 BER..
Docker 이미지 커맨드 Docker hub는 도커의 공식 리포지토리 서비스로 github이나 bitbucket 같은 소스코드 관리 툴과 연계하여 이미지를 빌드할 수 있으며 물리/가상/클라우드 등의 플랫폼에 상관없이 이미지를 배포할 수 있습니다. 이번 포스트에서는 도커 이미지에 관련한 다양한 도커 커맨드를 알아보도록 하겠습니다. 이미지 다운로드 Docker hub에서는 docker image pull 명령어를 사용하여 이미지를 다운받을 수 있습니다. docker image pull [옵션] 이미지명[:태그명] 예를 들어 CentOS의 버전 7을 다운로드하려면 "docker image pull centos:7" 명령어를 사용하면 취득이 가능하고 태그명을 생략하면 최신판 (latest)를 취득합니다. 이때 "-a" 옵션을 지정하면 ..
Self-Supervised Learning - BYOL (2) 이전 포스트 [Machine Learning/Unsupervised Learning] - Self-Supervised Learning - BYOL (1) Experiment Self-supervised pretraining으로 뽑아낸 representation의 성능을 파악하기 위해 classification, segmentation, object detection, depth estimation 등의 컴퓨터 비젼 태스크를 수행합니다. Linear evaluation on ImageNet 먼저 encoder로부터 추출된 representation에 대해 linear classifier를 훈련시킵니다. 결과는 Table 1과 같고 Top-1 (일반적인 accuracy)와 Top-5 (해당 확률이 5등 안에..
파이썬으로 보는 통계 (7) - 분산분석, ANOVA 분산분석 (ANOVA, ANalysis Of VAriance) 이란 두개 이상의 모집단을 비교할때 사용하는 통계 검정방법으로 t-검정과는 달리 F-분포를 이용한 F-검정의 한 종류입니다. t-검정은 두 집단에 대해서 비교를 하는 것이지만 ANOVA의 경우 두개 이상의 그룹에 대해서도 비교가 가능합니다. ANOVA 수행을 위해서는 1) 데이터가 정규분포를 따르며, 2) 각 모집단의 분산이 동일하며 (등분산), 3) 각각의 모집단에서 샘플이 독립적으로 추출된다는 전제조건이 만족되어야 합니다. 여러 개의 집단 비교시 ANOVA를 사용하는 이유는 t-검정으로 두 집단씩 여러번 비교하게 되면 신뢰도 $1-\alpha$가 독립적으로 여러 번 곱해지므로 신뢰도가 급격하게 감소하게 됩니다. 하지만 분산분석은 F-분포를..
파이썬으로 보는 통계 (6) - F-검정을 이용한 등분산검정 F-검정은 두 개 이상의 모집단에 대한 분산 비교를 통한 검정으로 두 모집단이 같은 분산을 가지고 있는지와 (등분산검정) 이후 다룰 ANOVA (분산분석)에 사용됩니다. 이번 포스트에서 다룰 내용은 F-검정을 이용해 정규분포를 따르는 두 모집단이 같은 분산을 가지고 있는지 (등분산인지) 확인하는 등븐산검정을 살펴보려 합니다. F-분포가 모분산이 각각 $\sigma_1^2, \sigma_2^2$인 정규모집단에서 서로 독립적으로 추출된 크기 $n, m$ 표본의 분산을 각각 $S_1^2, S_2^2$라 할때 다음 특성을 가진다는 사실을 이용하고, $F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}=\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \si..
파이썬으로 보는 통계 (5) - F-분포 F-분포는 분산분석 (ANOVA test)에 이용되는 분포로 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포입니다. F-분포는 두 개 이상의 표본집단의 분산을 비교하거나 분산을 추정할 때 쓰이며, 두 개 이상의 표본평균들이 동일한 모평균을 가진 집단에서 추출되었는지 아니면 서로 다른 모집단에서 추출된 것인지를 판단하기 위하여 사용됩니다. 자유도 $k_1, k_2$의 카이제곱 분포를 따르는 두 확률변수 $V_1, V_2$가 존재할 때, 확률변수 $F$는 다음과 같이 정의되며 자유도가 $(k_1, k_2)$인 F-분포를 따른다고 합니다. $F = \frac{V_1/k_1}{V_2/k_2}\sim F(k_1, k_2)$ F-분포의 확률밀도함수는 다음과 같이 정의되며 보통..
파이썬으로 보는 통계 (4) - 카이제곱 검정 카이제곱 검정은 교차분석이라고도 불리며, 두 범주형 변수 $A, B$가 서로 종속사건인지 독립사건인지 판별하는 것으로 각 범주형 변수에서 관찰된 빈도와 기대 빈도와 얼마나 다른지를 검증합니다. 종속사건이란 사건 $A$가 발생 후 사건 $B$가 발생할 확률과 ($P(B|A)$) 사건 $B$가 발생할 확률이 ($P(B)$) 다른 경우로 두 개의 사건이 독립적이지 않고 어떠한 형태로 연관되어 있는 사건을 말합니다. 카이제곱 검정에 사용하는 카이제곱 검정통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정값으로 가정된 분포란 귀무가설일 경우의 분포를 말합니다. 카이제곱 검정에서의 귀무가설은 두 범주형 변수가 독립 사건이다 라고 가정한 것으로 카이제곱 통계량은 다음과 같이 정의됩니다. $\chi^2 =..
파이썬으로 보는 통계 (3) - t-검정 t-검정은 표본 데이터에서 t-분포를 이용해 검정통계량 $t$를 계산하고 이를 이용하여 두 그룹 간의 모평균에 차이가 있는지를 검정하는 방법입니다. t-분포를 이용해 샘플 크기가 $n$ 충분히 클 경우 모평균은 확률 $1-\alpha$ 신뢰도로 다음과 같이 추정할 수 있으며 (양측 검정의 경우), 이를 이용하여 표본평균과 모평균의 차이를 검정하고 두 그룹 간의 모평균의 차이를 검정할 수 있습니다. 1 sample t-검정 1 sample t-검정은 단일 집단에 대해 평균에 대해 가설을 검정하기 위해 사용합니다. 일반적으로 모집단의 평균이 특정 값으로 알려져있는 경우 모집단의 평균이 특정 값과 같은 지에 대해 가설을 세우고 검증하는 방법입니다. 모집단으로부터 $n$개의 표본 $X_1, ..., X_n$을 ..

반응형