λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
μΉ΄ν…Œκ³ λ¦¬ μ—†μŒ

λ¨Έμ‹ λŸ¬λ‹ 평가 μ§€ν‘œ μ™„λ²½ 정리 (MSE, AUC λ“±)

by 119906 2025. 4. 30.
λ°˜μ‘ν˜•

λͺ¨λΈμ„ λ§Œλ“€μ—ˆλŠ”λ°, 이게 쒋은 건지 λ‚˜μœ 건지 μ–΄λ–»κ²Œ μ•Œ 수 μžˆμ„κΉŒμš”? 정닡은 ‘평가 μ§€ν‘œ’λ₯Ό λ³΄λŠ” κ±°μ˜ˆμš”. μ„±λŠ₯을 수치둜 λ§ν•΄μ£ΌλŠ” 도ꡬ죠!

 

λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ€ μš©λ„μ— 따라 νšŒκ·€, λΆ„λ₯˜, 닀쀑 λΆ„λ₯˜ λ“± λ‹€μ–‘ν•˜κ²Œ λ‚˜λ‰˜κΈ° λ•Œλ¬Έμ—, 그에 λ§žλŠ” 평가 μ§€ν‘œλ„ λ‹€λ₯΄κ²Œ μ‚¬μš©λΌμš”.

 

λ‚΄κ°€ μƒκ°ν–ˆμ„ λ•Œ λͺ¨λΈλ³΄λ‹€ 더 μ€‘μš”ν•œ 게 λ°”λ‘œ '평가 κΈ°μ€€'μ΄μ—μš”. μ–΄λ–€ 수치둜 μ’‹κ³  λ‚˜μ¨μ„ νŒλ‹¨ν•˜λŠλƒμ— 따라 κ²°κ³Ό 해석이 μ™„μ „νžˆ λ‹¬λΌμ§€λ‹ˆκΉŒμš”.

 

μ΄μ œλΆ€ν„° λŒ€ν‘œ μ§€ν‘œμΈ MSE, RMSE, MAE, AUC, F1-score λ“± 각각이 μ–΄λ–€ μƒν™©μ—μ„œ μ“°μ΄λŠ”μ§€ μ‰½κ²Œ μ •λ¦¬ν•΄λ³Όκ²Œμš”!

 

μ™œ 평가 μ§€ν‘œκ°€ μ€‘μš”ν•œκ°€?

λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€λŠ” κ²ƒλ§ŒνΌ μ€‘μš”ν•œ 게 λ°”λ‘œ '평가'μ˜ˆμš”. μ„±λŠ₯이 μ–Όλ§ˆλ‚˜ 쒋은지, μ–΄λ–€ μƒν™©μ—μ„œ 잘 μž‘λ™ν•˜λŠ”μ§€λ₯Ό μ •λŸ‰μ μœΌλ‘œ 확인해야 ν•˜λ‹ˆκΉŒμš”.

 

평가 μ§€ν‘œλŠ” λͺ¨λΈμ˜ μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œκ°’ μ‚¬μ΄μ˜ 차이λ₯Ό 수치둜 λ‚˜νƒ€λ‚΄ μ£ΌλŠ” κΈ°μ€€μ΄μ—μš”. 이 수치λ₯Ό κΈ°μ€€μœΌλ‘œ λͺ¨λΈμ„ μ„ νƒν•˜κ±°λ‚˜ κ°œμ„ ν•  수 있죠.

 

문제 μœ ν˜•μ— 따라 νšŒκ·€ 문제, λΆ„λ₯˜ 문제, 닀쀑 클래슀 문제 λ“±μœΌλ‘œ λ‚˜λ‰˜λ©°, 각각 λ‹€λ₯Έ μ§€ν‘œλ₯Ό μ‚¬μš©ν•΄μš”. 같은 수치λ₯Ό 써도 μ˜λ―Έκ°€ λ‹€λ₯΄κΈ° λ•Œλ¬Έμ— ꡬ뢄이 μ€‘μš”ν•΄μš”.

 

λ˜ν•œ 평가 μ§€ν‘œλŠ” λ‹¨μˆœ 정확도뿐 μ•„λ‹ˆλΌ 정밀도, μž¬ν˜„μœ¨, 손싀 κ°’ λ“± λ‹€μ–‘ν•œ κ΄€μ μ—μ„œ λͺ¨λΈμ„ μ΄ν•΄ν•˜λŠ” 데 도움을 μ€˜μš”.

νšŒκ·€ 문제의 평가 μ§€ν‘œ

νšŒκ·€ λͺ¨λΈμ€ μ—°μ†λœ 숫자 값을 μ˜ˆμΈ‘ν•΄μš”. 예: μ§‘κ°’, 날씨, 주식 가격 λ“±. 이럴 땐 였차λ₯Ό μ€‘μ‹¬μœΌλ‘œ λͺ¨λΈ μ„±λŠ₯을 ν‰κ°€ν•΄μš”.

 

κ°€μž₯ 기본적인 μ§€ν‘œλŠ” MSE(Mean Squared Error)μ˜ˆμš”. μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œκ°’μ˜ 차이λ₯Ό μ œκ³±ν•΄ 평균을 λ‚Έ κ°’μ΄μ—μš”. μž‘μ„μˆ˜λ‘ μ„±λŠ₯이 쒋은 κ±°μ£ .

 

RMSE(Root MSE)λŠ” MSE의 μ œκ³±κ·Όμ„ μ·¨ν•œ κ°’μœΌλ‘œ, μ‹€μ œ 였차 λ‹¨μœ„λ₯Ό κ·ΈλŒ€λ‘œ λ³Ό 수 μžˆμ–΄μ„œ μ§κ΄€μ μ΄μ—μš”. 예: 예츑 μ˜€μ°¨κ°€ ν‰κ· μ μœΌλ‘œ 1.2도 정도닀!

 

MAE(Mean Absolute Error)λŠ” μ ˆλŒ€ 였차의 ν‰κ· μ΄μ—μš”. MSE보닀 μ΄μƒμΉ˜μ— 덜 λ―Όκ°ν•΄μ„œ μ•ˆμ •μ μΈ 평가가 ν•„μš”ν•  λ•Œ 자주 μ‚¬μš©λΌμš”.

λΆ„λ₯˜ 문제의 평가 μ§€ν‘œ

λΆ„λ₯˜ λ¬Έμ œλŠ” μ–΄λ–€ μΉ΄ν…Œκ³ λ¦¬μ— μ†ν•˜λŠ”μ§€λ₯Ό λ§žνžˆλŠ” λ¬Έμ œμ˜ˆμš”. μŠ€νŒΈλ©”μΌ μ—¬λΆ€, μ•” 진단, 고객 μ΄νƒˆ 예츑 λ“±μ—μ„œ 많이 μ‚¬μš©λΌμš”.

 

Accuracy(정확도)λŠ” 전체 쀑 맞힌 λΉ„μœ¨μ΄μ—μš”. μ§κ΄€μ μ΄μ§€λ§Œ, λΆˆκ· ν˜• 데이터에선 μ„±λŠ₯을 잘 λ°˜μ˜ν•˜μ§€ λͺ»ν•΄μš”.

 

Precision(정밀도)은 'λ§žλ‹€κ³  ν•œ 것 쀑 μ‹€μ œλ‘œ λ§žμ€ λΉ„μœ¨', Recall(μž¬ν˜„μœ¨)은 'μ‹€μ œλ‘œ λ§žμ•„μ•Ό ν•˜λŠ” 것 쀑 μ–Όλ§ˆλ‚˜ λ§žμ·„λŠ”κ°€'λ₯Ό μ˜λ―Έν•΄μš”.

 

F1-scoreλŠ” 정밀도와 μž¬ν˜„μœ¨μ˜ μ‘°ν™” ν‰κ· μœΌλ‘œ, 두 μ„±λŠ₯을 ν•¨κ»˜ κ³ λ €ν•  수 μžˆμ–΄μš”. λΆˆκ· ν˜• 데이터에 특히 μ€‘μš”ν•΄μš”!

 

ν˜Όλ™ ν–‰λ ¬κ³Ό 정확도 뢄석

ν˜Όλ™ ν–‰λ ¬(Confusion Matrix)은 λΆ„λ₯˜ κ²°κ³Όλ₯Ό ν‘œλ‘œ 정리해 λ³΄μ—¬μ€˜μš”. μ‹€μ œ κ°’κ³Ό 예츑 κ°’μ˜ μ‘°ν•©μœΌλ‘œ TP, FP, TN, FN을 μ•Œ 수 μžˆμ–΄μš”.

 

TP(True Positive): λ§žλ‹€κ³  μ˜ˆμΈ‘ν•΄μ„œ λ§žμ€ 것, FP(False Positive): 틀린데 λ§žλ‹€κ³  μ˜ˆμΈ‘ν•œ 것, FN(False Negative): λ§žλŠ”λ° ν‹€λ Έλ‹€κ³  μ˜ˆμΈ‘ν•œ 것이죠.

 

이 ν‘œλ₯Ό λ°”νƒ•μœΌλ‘œ Accuracy, Precision, Recall, F1-scoreλ₯Ό 계산할 수 μžˆμ–΄μš”. λͺ¨λΈμ΄ μ–΄λ–€ μ‹€μˆ˜λ₯Ό 많이 ν•˜λŠ”μ§€λ„ μ•Œ 수 μžˆμ–΄μ„œ μœ μš©ν•΄μš”.

 

예λ₯Ό λ“€μ–΄, 의료 뢄야에선 FP보닀 FN(μ‹€μ œλ‘œ μ§ˆλ³‘μΈλ° λ†“μΉœ 경우)이 더 치λͺ…적일 수 μžˆμ–΄μ„œ Recall이 더 μ€‘μš”ν•˜κ²Œ 여겨지기도 ν•΄μš”.

AUC와 ROC 곑선 μ΄ν•΄ν•˜κΈ°

ROC(Receiver Operating Characteristic) 곑선은 민감도(Recall)와 1-νŠΉμ΄λ„(False Positive Rate)λ₯Ό μΆ•μœΌλ‘œ κ·Έλ¦° κ·Έλž˜ν”„μ˜ˆμš”. λͺ¨λΈμ˜ λΆ„λ₯˜ λŠ₯λ ₯을 μ‹œκ°ν™”ν•΄μš”.

 

AUC(Area Under Curve)λŠ” ROC 곑선 μ•„λž˜ 면적을 λ§ν•΄μš”. 1에 κ°€κΉŒμšΈμˆ˜λ‘ μ™„λ²½ν•œ λͺ¨λΈ, 0.5에 κ°€κΉŒμšΈμˆ˜λ‘ 랜덀 μ˜ˆμΈ‘μ΄λΌλŠ” λœ»μ΄μ—μš”.

 

AUCλŠ” λΆ„λ₯˜ μž„κ³„κ°’(threshold)을 λ³€ν™”μ‹œμΌœλ„ μ„±λŠ₯을 κ°κ΄€μ μœΌλ‘œ λ³Ό 수 μžˆμ–΄μ„œ, 이진 λΆ„λ₯˜ λͺ¨λΈμ—μ„œ κ°€μž₯ 널리 μ‚¬μš©λΌμš”.

 

특히 데이터가 λΆˆκ· ν˜•ν•œ μƒν™©μ—μ„œλ„ AUCλŠ” 쒋은 비ꡐ 기쀀이 될 수 μžˆμ–΄μš”. Accuracyλ§ŒμœΌλ‘œλŠ” μˆ¨κ²¨μ§„ μ„±λŠ₯을 놓칠 수 μžˆκ±°λ“ μš”.

μ§€ν‘œ 선택 μ‹œ 고렀사항

μ–΄λ–€ μ§€ν‘œλ₯Ό 써야 ν• μ§€λŠ” 데이터와 문제 νŠΉμ„±μ— 따라 λ‹¬λΌμš”. λΆ„λ₯˜λƒ νšŒκ·€λƒ, κ· ν˜• 데이터냐 λΆˆκ· ν˜• 데이터냐에 따라 λ‹€λ₯΄κ²Œ μ ‘κ·Όν•΄μ•Ό ν•΄μš”.

 

예λ₯Ό λ“€μ–΄ μ‹ μš©μΉ΄λ“œ λΆ€μ • μ‚¬μš© νƒμ§€μ²˜λŸΌ μ–‘μ„± ν΄λž˜μŠ€κ°€ 적은 κ²½μš°μ—” Accuracy보단 Recallκ³Ό AUCκ°€ 더 μ€‘μš”ν•΄μš”.

 

νšŒκ·€ λ¬Έμ œμ—μ„œ MSEλŠ” μ΄μƒμΉ˜μ— λ―Όκ°ν•˜μ§€λ§Œ, MAEλŠ” μ „λ°˜μ μΈ 평균 였차λ₯Ό 보기 μ’‹μ•„μš”. 상황에 맞게 μ“°λŠ” 게 ν•΅μ‹¬μ΄μ—μš”.

 

μ—¬λŸ¬ μ§€ν‘œλ₯Ό ν•¨κ»˜ 보고, 전체적인 μ„±λŠ₯을 μž…μ²΄μ μœΌλ‘œ μ΄ν•΄ν•˜λŠ” 게 κ°€μž₯ μ’‹μ•„μš”!

πŸ“Š μ£Όμš” λ¨Έμ‹ λŸ¬λ‹ 평가 μ§€ν‘œ λΉ„κ΅ν‘œ

μ§€ν‘œ μ„€λͺ… μ‚¬μš© μ˜ˆμ‹œ
MSE 였차 제곱의 평균 νšŒκ·€ (예: μ£Όκ°€ 예츑)
F1-score 정밀도와 μž¬ν˜„μœ¨μ˜ μ‘°ν™” 평균 λΆˆκ· ν˜• 데이터 λΆ„λ₯˜
AUC ROC 곑선 μ•„λž˜ 면적 이진 λΆ„λ₯˜ μ„±λŠ₯ 비ꡐ
MAE μ ˆλŒ€κ°’ 였차 평균 μ‹€μƒν™œ 수치 예츑

 

FAQ

Q1. MSE와 RMSE 쀑 μ–΄λ–€ 게 더 μ’‹λ‚˜μš”?

 

A1. RMSEλŠ” μ‹€μ œ 였차 λ‹¨μœ„λ₯Ό κ·ΈλŒ€λ‘œ λ³΄μ—¬μ€˜μ„œ 해석이 μ‰¬μ›Œμš”. 직관적인 평가가 ν•„μš”ν•  땐 RMSEκ°€ μ’‹μ•„μš”.

 

Q2. Accuracy만 봐도 λ˜μ§€ μ•Šλ‚˜μš”?

 

A2. λΆˆκ· ν˜• λ°μ΄ν„°μ—μ„œλŠ” Accuracyκ°€ 높아도 μ‹€μ œλ‘  μ„±λŠ₯이 μ•ˆ 쒋을 수 μžˆμ–΄μš”. Precision, Recall도 κΌ­ ν™•μΈν•˜μ„Έμš”.

 

Q3. AUCκ°€ 0.5λ©΄ 무슨 λœ»μΈκ°€μš”?

 

A3. 0.5λŠ” μ™„μ „ 랜덀 예츑과 κ°™λ‹€λŠ” λœ»μ΄μ—μš”. λͺ¨λΈμ΄ μ˜ˆμΈ‘μ„ μž˜ν•˜μ§€ λͺ»ν•˜κ³  μžˆλ‹€λŠ” μ‹ ν˜Έμ˜ˆμš”.

 

Q4. νšŒκ·€ λͺ¨λΈμ—λ„ F1-scoreλ₯Ό μ“°λ‚˜μš”?

 

A4. μ•„λ‹ˆμ—μš”! F1-scoreλŠ” λΆ„λ₯˜ 문제 μ „μš©μ΄μ—μš”. νšŒκ·€ λ¬Έμ œμ—” MSE, RMSE, MAE 등을 μ‚¬μš©ν•΄μš”.

 

Q5. ROC 곑선은 μ–΄λ–€ μƒν™©μ—μ„œ μœ μš©ν•˜μ£ ?

 

A5. 이진 λΆ„λ₯˜μ—μ„œ λͺ¨λΈμ˜ 민감도와 νŠΉμ΄λ„λ₯Ό μ‹œκ°μ μœΌλ‘œ 비ꡐ할 λ•Œ μœ μš©ν•΄μš”. μž„κ³„κ°’ 변화에 λ”°λ₯Έ μ„±λŠ₯ 차이λ₯Ό λ³Ό 수 μžˆμ–΄μš”.

 

Q6. Precisionκ³Ό Recall 쀑 뭐가 더 μ€‘μš”ν•œκ°€μš”?

 

A6. 상황에 따라 λ‹¬λΌμš”. 슀팸 ν•„ν„°λŠ” Precision이 μ€‘μš”ν•˜κ³ , μ§ˆλ³‘ κ²€μΆœμ€ Recall이 더 μ€‘μš”ν•΄μš”.

 

Q7. F1-scoreκ°€ λ†’μœΌλ©΄ 쒋은 λͺ¨λΈμΈκ°€μš”?

 

A7. λ„€, 특히 Precisionκ³Ό Recall의 κ· ν˜•μ΄ μ€‘μš”ν•  λ•Œ F1-scoreκ°€ λ†’λ‹€λŠ” 건 쒋은 μ§•μ‘°μ˜ˆμš”.

 

Q8. 닀쀑 클래슀 λΆ„λ₯˜μ—λ„ AUCλ₯Ό μ“Έ 수 μžˆλ‚˜μš”?

 

A8. λ„€! One-vs-Rest λ°©μ‹μœΌλ‘œ 각 ν΄λž˜μŠ€μ— λŒ€ν•΄ AUCλ₯Ό κ΅¬ν•œ λ’€ 평균을 λ‚΄λŠ” λ°©μ‹μœΌλ‘œ μ μš©ν•  수 μžˆμ–΄μš”.

λ°˜μ‘ν˜•