본문 바로가기

AI

생성형 모델의 평가지표

dijeong 2024. 8. 13. 16:34

1. IS(Inception Score)

2. FID(Frechet Inception Distance)

3. intra FID

4. classification accuracy / CAS

5. LPIPS

6. CLIP Score

1. IS (Inception Score)

**IS (Inception Score)**는 생성된 이미지의 품질과 다양성을 평가하는 지표이다.
이 지표는 특정한 딥러닝 모델(보통 Inception 모델)을 사용해 이미지에서 추출된 특징을 바탕으로 계산된다.
IS는 두 가지를 측정한다:
1. 이미지의 품질: 생성된 이미지가 얼마나 뚜렷하고 의미 있는지(즉, 그 이미지가 특정한 객체나 장면을 명확히 나타내고 있는지).
2. 다양성: 여러 이미지를 생성했을 때, 그 이미지들이 서로 얼마나 다른지를 평가한다.
높은 IS 점수는 이미지들이 모두 명확하고, 다양한 콘텐츠를 포함하고 있음을 의미한다.
단점으로는, 이 지표가 인간의 주관적인 평가를 반영하지 못하며, 모델에 과도하게 의존할 수 있다.

2. FID (Fréchet Inception Distance)

**FID (Fréchet Inception Distance)**는 생성된 이미지와 실제 이미지 간의 유사성을 평가하는 지표이다.
FID는 실제 이미지와 생성된 이미지의 특징을 비교하여 그 사이의 거리를 측정한다. 이 특징도 역시 Inception 모델로부터 추출된다.
FID는 두 가지 요소를 고려한다:
1. 이미지 간 평균값의 차이: 생성된 이미지와 실제 이미지의 특징 분포 간 차이.
2. 분포의 모양 차이: 생성된 이미지와 실제 이미지의 분포가 얼마나 비슷한지를 측정한다.
낮은 FID 점수는 생성된 이미지가 실제 이미지와 매우 비슷하다는 것을 의미한다.
FID는 IS에 비해 좀 더 인간의 시각적 평가와 일치하는 경향이 있으며, IS의 단점을 보완한다.

조건부

3. Intra FID (Intra Fréchet Inception Distance)

Intra FID는 FID의 변형된 형태이다.
FID는 전체 데이터셋에 대한 평가를 제공하지만, Intra FID는 생성된 이미지들이 같은 클래스 내에서 얼마나 유사한지를 측정한다.
예를 들어, '고양이' 클래스로 생성된 이미지들이 실제 고양이 이미지와 얼마나 비슷한지를 측정하는 것이 Intra FID이다.
낮은 Intra FID 점수는 같은 클래스 내에서 생성된 이미지들이 실제 이미지와 매우 유사하다는 것을 의미한다.

4. Classification Accuracy / CAS (Classification Accuracy Score)

Classification Accuracy 또는 CAS는 생성된 이미지가 정확하게 분류될 수 있는지를 측정하는 지표이다.
예를 들어, AI가 '사과' 이미지를 생성했다면, 이 이미지를 분류 모델이 제대로 '사과'로 인식하는지를 확인하는 것이다.
높은 CAS는 생성된 이미지가 분류 모델에 의해 정확히 인식될 정도로 품질이 좋다는 것을 의미한다.

5. LPIPS (Learned Perceptual Image Patch Similarity)

LPIPS는 이미지 간의 시각적 유사성을 측정하는 지표이다.
두 이미지가 인간의 눈에 얼마나 비슷하게 보이는지를 학습된 딥러닝 모델을 통해 측정한다.
이 지표는 생성된 이미지와 기준 이미지 간의 미세한 차이까지도 반영하며, 시각적 품질을 평가하는 데 유용하다.
낮은 LPIPS 점수는 두 이미지가 매우 유사하다는 것을 의미한다.

6. CLIP Score

CLIP Score는 텍스트와 이미지 간의 유사성을 측정하는 지표이다.
OpenAI의 CLIP 모델을 사용해 텍스트와 이미지를 비교하여 얼마나 잘 매치되는지 평가한다.
예를 들어, '노란색 고양이'라는 텍스트 설명에 맞게 생성된 이미지가 얼마나 그 설명과 일치하는지를 측정한다.
높은 CLIP Score는 텍스트와 이미지 간의 매칭이 잘 이루어졌다는 것을 의미한다.

정리

IS는 생성된 이미지의 품질과 다양성을 평가하며, 점수가 높을수록 좋다.
FID는 생성된 이미지가 실제 이미지와 얼마나 비슷한지를 측정하며, 점수가 낮을수록 좋다.
Intra FID는 같은 클래스 내에서 생성된 이미지들이 실제 이미지와 얼마나 비슷한지를 측정하며, 점수가 낮을수록 좋다.
**Classification Accuracy (CAS)**는 생성된 이미지가 정확히 분류될 수 있는지를 평가하며, 점수가 높을수록 좋다.
LPIPS는 이미지 간의 시각적 유사성을 측정하며, 점수가 낮을수록 이미지가 유사하다.
CLIP Score는 텍스트와 이미지 간의 유사성을 측정하며, 점수가 높을수록 텍스트와 이미지의 매칭이 잘 이루어졌음을 의미한다.

'AI' 카테고리의 다른 글

VQVAE(벡터양자화 변분 오토인코더) (0)	2024.08.13
오토인코더, 변분오토인코더 (2)	2024.08.13
CNN - Backbone, Neck, Head (0)	2024.07.30
R-CNN, Fast R-CNN, Faster R-CNN (0)	2024.07.26
CNN - CAM(Class Activation Mapping) (0)	2024.07.25

티스토리툴바