Compositional Data
세상에는 이미지, 음성, 로그 등의 많은 종류의 데이터가 다양한 분야에 존재합니다. 특히, 생물학, 화학, 지질학 등의 자연과학에서는 다음 표와 같이 다양한 구성 요소가 퍼센트로 표현되어 합이 100 (혹은 1) 으로 표현되는 데이터가 많은데요, 이러한 데이터를 compositional data 라고 합니다. 즉, 확률, 구성성분, 퍼센트, ppm 등으로 표현되는 모든 류의 데이터가 compositional data 가 되는 것이죠. Data Component 1 Component 2 Component 3 Component 4 Sum Data 1 20 30 20 30 100 Data 2 25 25 25 25 100 Data 3 15 55 15 15 100 다른 종류의 데이터와는 다른 composition..
Regression - 다중 선형 회귀 in Python
이번 포스트에서는 지난 포스트에서 다룬 다중 선형 회귀 모델을 파이썬으로 실험해보려 합니다. 지난번 보스톤 주택 가격 데이터로부터 $X, y$를 설정하고 훈련/테스트 데이터를 sklearn.model_selection 모듈의 train_test_split 함수를 통해 구성합니다. import pandas as pd df = pd.read_csv('/content/drive/MyDrive/Posco/Regression/Data/housing_data.txt', sep='\s+') df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] df.head()..