posted by 카타로그z 2015. 9. 2. 14:27
반응형

논문에 사용되는 Evaluation 의미 정리


Binary classifier 즉 답이다 아니다와 같은 결과를 통계적으로 분석할때 가장 많이 사용하는 것이

Sensitivity, Specitivity, F-1 Score 그리고 Recall, Precision, Accuracy가 있다.


위 식은 모두 True Positive, False Positive, Ture Negative, False Negative를 이용하여 계산이 된다.

참고로 Sensitivity는 Recall이라고 불린다.






1. TP, FP, TN, FN 정리

일단 TP, FP, TN, FN은 아래와 같이 정리된다.


 

 실제 정답이 TRUE[True set]

실제 정답이 FALSE[False Set]

 결과가 TRUE(Positive)

 True Positive(TP)

Fasle Positive(FP)

 결과가 FALSE(Negative)

 Fasle Negative(FN) 

True Negative(TN) 


앞뒤 조합에 따라 조건과 결과에 따라 4가지 결과를 얻을 수 있다.


위는 주어진 질문에 대하여 답을 정할 수 있다.


True Positive는 Yes로 대답해야 하는 것에 대하여 Yes로 대답하였을 경우

True Negative는 No로 대답해야 하는 것에 대하여 No로 대답하였을 경우


Flase Positive는 No로 대답해야 하는 것에 대하여 YES 대답하였을 경우

Fase Negative 는 Yes로 대답해야 하는 것에 대하여 No로 대답하였을 경우






예를 들면 다음과 같다

가. "남자를 분류하는 분류기"(데이터베이스, 패턴인식)

1) 입력 : 남자; 결과 : 남자 => True Positive

2) 입력 : 여자; 결과 : 여자 => True Negative

3) 입력 : 남자; 결과 : 여자 => False Negative

4) 입력 : 여자; 결과 : 남자 => False Positive




나. "감염과 비감염 판단"(의료)

1) 입력 : 감염; 결과 : 감염 => True Positive

2) 입력 : 비감염; 결과 : 비감염 => True Negative

3) 입력 : 감염; 결과 : 비감염 => False Negative

4) 입력 : 비감염; 결과 : 감염 => False Positive






2. Sensitivity=Recall[민감도], Specificity[특이도], Precision[정확률]


Sesitivity, Specificity, Precision, Acuuracy는 다양한 분야에서 사용되는 유명한 통계지표이다.


일반적으로 Sensitivity, Sepcificity 그리고 ROC Curve가 같이 사용되고 True set과 False set의

양이 비슷하고 True Negative를 정확히 알아낼 수 있을 때 사용된다.


Recall, Precision, Accuracy가 묶여서 같이 사용되고, False set이 모호한 경우에 사용된다.

상황에 따라 전부 사용되는 경우도 있다.


위 통계 지표 모두 아래와 같은 표를 이용하여 계산된다.


 

 실제 정답이 TRUE[True set]

실제 정답이 FALSE[False Set]

 결과가 TRUE(Positive)

 True Positive(TP)

Fasle Positive(FP)

 결과가 FALSE(Negative)

 Fasle Negative(FN) 

True Negative(TN) 





가. Sensitivity=Recall[민감도]

 Sensitivity는 Recall과 동일한 수식을 사용한다.

 Sensitivity 및 Recall은 True set을 입력하였을 때, True로 인식한 것의 비율이다.

분류기에 빗대어 말하면 1이라는 값을 넣었을때 1이라는 결과를 얻은 비율이다. 


식 : Sensitivitiy = TP / (TP+FN)


즉 Recall 및 Sensitivity는 실제 결과가 True인 것중 True의 비율이다.




나. Specificity[특이도]

 Specificity는 Sensitivity와 반대로 False set을 입력하였을때, False로 인식한 것의 비율이다.

분류기에 빗대어 말하면 0이라는 값을 넣었을 때 0이라는 결과를 얻은 비율이다.


식 : Specificity = TN/(FP+TN)


즉 Specificity는 실제 결과가 False인 것 중 Flase의 비율이다.




다. Preicision[정확률]

 Precision은 내가 정답이라고 예측한 것 중 실제로 정답인 것의 비율이다. 즉 내가 예측한 것이 얼마나 정확한지를 나타낸다.

분류기에 빗대어 말하면 정답을 넣었을때 몇개 정답으로 분류됐는지를 보는 것이다.


식: Preicision = TP / (TP+FP)


식을 분석하면 결과가 Positive라고 한 것 중에 정답의 비율이 된다.





3. Accuracy[정확도]와 F-1Socre

 F-1 Score는 Precision과 Recall을 이용할때, Accuracy는 Sensitivity와 Specificiy를 이용할때 계산한다.


식 : Accuracy : (TP+TN) / (TP + TN + FP + FN)

식 : F-1 Score : 2*(Precision * Recall) / (Precision + Recall)



반응형