분류 전체보기 (369) 썸네일형 리스트형 파이썬으로 보는 통계 (2) - t-분포 Student-t 분포는 표본평균을 이용해 정규분포의 평균을 측정할 때 사용되는 분포로 표준정규분포를 따르는 확률변수 $Z$와 자유도가 $v$인 카이제곱 분포를 따르는 확률변수 $V$로 다음과 같이 정의하면 확률변수 $T$는 자유도가 $v$인 t-분포를 따릅니다. $T=\frac{Z}{\sqrt{\frac{V}{v}}}$ 정규분포 $N(\mu, \sigma^2)$에서 추출한 $n$개의 표본 $X_1, ..., X_n$에 대해 표본평균 $X_m = \frac{1}{n}(X_1+...+X_n)$, 표본분산 $S^2=\frac{1}{n-1}\sum(X_i-X_m)^2$라 할 때, $V=(n-1)\frac{S^2}{\sigma^2}$는 자유도가 $n-1$인 카이제곱 분포를 따릅니다. (Cochran의 정리) $.. 파이썬으로 보는 통계 (1) - 카이제곱 분포 카이제곱 분포는 (Chi-squared distribution, $\chi^2$) $k$개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 더해서 얻어지는 분포로 $k$는 자유도 (degree of freedom)이라 합니다. 정규 확률변수 제곱의 합에 대해서 정의되다 보니 양수에서 확률 분포가 다음과 같이 정의됩니다. $\Gamma$는 감마함수이고 자유도 $k$에 따라 분포가 다음과 같이 달라지게 됩니다. 자유도 $k$는 단순히 표본 개수 $n$에서 1을 뺸 것이라 생각하면 됩니다. 예를 들어 4개의 숫자 평균이 3이라 할 때 3개의 숫자를 자유롭게 선택한다면 마지막 한 개의 숫자는 정해져 있기 때문입니다. 카이제곱 분포의 특징은 1) 연속확률변수 $X$가 정규분포 $N(\mu, \sigma^2.. Pandas DataFrame 합치기 - merge, concat merge Pandas의 merge 함수는 두 개의 데이터프레임 (DataFrame)을 합치는 함수입니다. 먼저 다음과 같은 두 개의 데이터프레임을 생성하겠습니다. df1 = pd.DataFrame({'key': list('bbacaab'), 'data1': range(7)}) df2 = pd.DataFrame({'key': list('aabde'), 'data2': range(13,18)}) 두 개의 데이터프레임은 'key' 라는 공통적인 열을 가지고 있습니다. Pandas의 merge 함수를 실행하면 자동으로 이름이 같은 공통된 열을 찾습니다. 디폴트로 실행할 경우 how='inner' 방식으로 동작하는데 이 방식은 두 데이터프레임의 공통된 열이 같은 값을 가지는 것에 대한 열에 대해서만 합치게 됩니.. Pandas 에서 데이터 이상치 찾기 - Z-score, Modified Z-score, IQR 이상치 (anomaly)란 주어진 데이터 분포 중심에서 멀리 떨어진 데이터를 말합니다. 말 그대로 정상 데이터가 아니라 비정상 데이터인 것이죠. 주어진 데이터에서 이상치를 찾는 가장 간단한 방법은 Z-score 입니다. Z-score Z-score 는 평균과 표준오차가 정의되어 있을 떄 해당 데이터가 얼마나 벗어나 있는지 측정하는 지표로 $Z-score = \frac{x_i-\mu}{\sigma}$ 와 같이 정의됩니다. 평균에서 얼마나 떨어져 있는지 계산하고 표준 오차로 나눠줌으로써 평균에서 어느 방향으로 얼마나 떨어져 있는지 계산합니다. Z-score의 절대값이 클수록 이상치라고 생각할 수 있습니다. Example 기본적인 라이브러리를 iport 하고 1950년부터 열린 월드컵 최다 득점자 정보를 가진.. 파이썬에서 SARIMA 실행하기 - SARIMAX 파이썬의 statsmodels 패키지는 ARIMA, SARIMA 시계열 선형 모델을 지원합니다. 이번 포스트에서는 statsmodels의 SARIMAX 함수를 이용하여 시계열 데이터의 패턴을 학습하고 예측하는 걸 해보도록 하겠습니다. 먼저, SARIMAX 함수를 import 합니다. SARIMAX의 X는 외부 변수를 나타내는 eXogeneous의 줄임말로 자기 자신 (endogeneous) 뿐만 아니라 외부 변수까지 학습과 예측에 포함할 수 있다는 것입니다. from statsmodels.tsa.statespace.sarimax import SARIMAX SARIMAX의 주요 파라미터는 다음과 같습니다. 파라미터 Description endog 관측된 시계열 데이터 (endogeneous 데이터를 말합니.. Augmented Dickey-Fuller Test - Stationary 확인 시계열 데이터를 처리하기 위해서는 데이터를 stationary 하게 만든 이후에 AR, MA, ARMA, ARIMA 모델 등을 적용해야 합니다. 지난 포스트에서 알아봤듯이 stationary 하기 위해서는 시계열 데이터의 평균, 분산이 시간에 따라 일정해야 하고 래그 $h$에 따른 공분산이 일정해야 합니다. Stationary를 그림으로 그려서 판단할 수 있지만 통계적인 정량적 방법으로 검증할 수 있는 방법이 바로 Augmented Dickey-Fuller Test (ADF Test) 입니다. 먼저 Dickey-Fuller Test는 1979년에 David Dickey와 Wayne Fuller에 의해 개발된 autoregressive 모델의 단위근 (unitroot) 통계 검정 방법으로 대표적인 stat.. Self-Supervised Learning - BYOL (1) Self-supervision을 이용한 이미지 representation을 추출하는 분야는 그 포텐셜로 인해 Google, Facebook을 필두로 깊게 연구되고 있습니다. 이미지의 자가 라벨을 이용한 self-supervision의 여러 방법론 중에서 같은 이미지의 다르게 augmented 된 positive pair의 거리를 줄이고 다른 이미지의 augmented 이미지인 negative pair의 거리를 늘리는 contrastive learning이 높은 성능으로 인해 대세로 자리잡았는데요, contrastive learning은 효과적인 학습을 위한 많은 negative pair가 필요하고 (일반적으로 큰 batch size를 잡습니다) image augmentation 종류에 영향을 많이 받습니.. Docker의 작동 구조 Namespace Docker는 리눅스 커널의 namespace 기능을 사용하여 컨테이너라는 독립된 환경을 만듭니다. Namespace는 한 덩어리의 데이터에 이름을 붙여 분할함으로써 충돌 가능성을 줄이고 쉽게 참조할 수 있는 개념으로 같은 이름의 객체라도 속해 있는 namespace가 다를 경우 다른 실체로 처리됩니다. 리눅스 커널의 namespace는 다음 6가지 독립된 namespace를 지원합니다. Namespace PID namespace PID란 Process ID의 약자로 리눅스에서 각 프로세스에 할당된 고유 ID를 말하며, namespace가 다른 프로세스끼리는 서로 액세스 할 수 없습니다. Network namespace 네트워크 디바이스, IP 주소, 포트 번호, 라우팅 테이블 과 같은.. 이전 1 ··· 32 33 34 35 36 37 38 ··· 47 다음