classification (3) 썸네일형 리스트형 Classification - Metrics (1) 분류 모델의 성능은 어떻게 평가할까요? 먼저 간단한 이진 분류부터 생각해보겠습니다. 당장 생각나는 성능 지표는 정확도 (accuracy) 일겁니다. 전체 데이터에서 얼마만큼 맞추었는지에 대한 비율이죠. 평범한 상황에서는 적당한 지표가 되겠지만 90명의 정상환자와 10명의 암환자를 구분하는 케이스와 같이 각 범주에 대한 데이터가 균형적이지 않을 때에 대해서 생각해보면 모델이 단순히 모두 정상이라고 판단해도 정확도는 90%가 됩니다. 얼핏 보면 매우 잘 학습된 분류 모델이라고 생각할 수 있겠지만 데이터의 불균형으로부터 이뤄진 비정상적인 결과입니다. 이번 포스트에서는 정확도 이외에 데이터 불균형 상황에서 분류 모델의 성능을 평가하는 다양한 성능 지표를 알아보도록 하겠습니다. Metrics Definitions.. Classification - Logistic Regression (2) Classification - Logistic Regression (1) 지난 포스트에 이어 이번 포스트에서는 파이썬을 이용해 logistic regression 을 수행해보려 합니다. 파이썬에서는 sklearn.linear_model 모듈의 LogisticRegression 함수를 사용하며 간단한 iris (붓꽃 데이터)에 대해 실험해 보겠습니다. 붓꽃 데이터는 sklearn.datasets 안에 들어있는 toy dataset으로 150개의 데이터와 5개의 컬럼으로 (Sepal Length/Width, Petal Length/Width, Species) 이루어진 데이터로 타겟은 Species 열이며 3 종류로 구분합니다. 여기서는 2/3 번째 열인 꽃잎의 길이와 너비 정보만을 이용하여 붓꽃의 종류를 예.. Classification - Logistic Regression (1) 회귀 분석에서는 종속 변수가 연속적인 값을 가질 때 여러 독립 변수의 선형결합으로 종속 변수의 값을 예측했습니다. 하지만 종속 변수가 범주형일때, 예를 들어 남성/여성이나 나라 등 연속되지 않은 범주의 형태를 가질때에는 분류 (classification) 의 형태로 예측을 수행해야 합니다. 이번 포스트에서는 분류 분석에서 가장 기본적인 Logistic Regression에 대해 살펴보도록 하겠습니다. Logistic Regression은 이름에 "회귀"가 붙어있는 것처럼 선형 회귀를 분류 분석으로 연장한 것으로 두 개의 범주로 나누는 binary classification 부터 세 개 이상의 범주로 분류하는 multi-class classification 모두에 대해 적용할 수 있는 가장 기본적인 분류 .. 이전 1 다음