본문 바로가기

AI

생성형 모델의 평가지표

1. IS(Inception Score)

2. FID(Frechet Inception Distance)

3. intra FID

4. classification accuracy / CAS

5. LPIPS

6. CLIP Score

 

 

1. IS (Inception Score)

  • **IS (Inception Score)**는 생성된 이미지의 품질다양성을 평가하는 지표이다.
  • 이 지표는 특정한 딥러닝 모델(보통 Inception 모델)을 사용해 이미지에서 추출된 특징을 바탕으로 계산된다.
  • IS는 두 가지를 측정한다:
    1. 이미지의 품질: 생성된 이미지가 얼마나 뚜렷하고 의미 있는지(즉, 그 이미지가 특정한 객체나 장면을 명확히 나타내고 있는지).
    2. 다양성: 여러 이미지를 생성했을 때, 그 이미지들이 서로 얼마나 다른지를 평가한다.
  • 높은 IS 점수는 이미지들이 모두 명확하고, 다양한 콘텐츠를 포함하고 있음을 의미한다.
  • 단점으로는, 이 지표가 인간의 주관적인 평가를 반영하지 못하며, 모델에 과도하게 의존할 수 있다.

2. FID (Fréchet Inception Distance)

  • **FID (Fréchet Inception Distance)**는 생성된 이미지와 실제 이미지 간의 유사성을 평가하는 지표이다.
  • FID는 실제 이미지와 생성된 이미지의 특징을 비교하여 그 사이의 거리를 측정한다. 이 특징도 역시 Inception 모델로부터 추출된다.
  • FID는 두 가지 요소를 고려한다:
    1. 이미지 간 평균값의 차이: 생성된 이미지와 실제 이미지의 특징 분포 간 차이.
    2. 분포의 모양 차이: 생성된 이미지와 실제 이미지의 분포가 얼마나 비슷한지를 측정한다.
  • 낮은 FID 점수는 생성된 이미지가 실제 이미지와 매우 비슷하다는 것을 의미한다.
  • FID는 IS에 비해 좀 더 인간의 시각적 평가와 일치하는 경향이 있으며, IS의 단점을 보완한다.

 

조건부

3. Intra FID (Intra Fréchet Inception Distance)

  • Intra FIDFID의 변형된 형태이다.
  • FID는 전체 데이터셋에 대한 평가를 제공하지만, Intra FID는 생성된 이미지들이 같은 클래스 내에서 얼마나 유사한지를 측정한다.
  • 예를 들어, '고양이' 클래스로 생성된 이미지들이 실제 고양이 이미지와 얼마나 비슷한지를 측정하는 것이 Intra FID이다.
  • 낮은 Intra FID 점수는 같은 클래스 내에서 생성된 이미지들이 실제 이미지와 매우 유사하다는 것을 의미한다.

4. Classification Accuracy / CAS (Classification Accuracy Score)

  • Classification Accuracy 또는 CAS는 생성된 이미지가 정확하게 분류될 수 있는지를 측정하는 지표이다.
  • 예를 들어, AI가 '사과' 이미지를 생성했다면, 이 이미지를 분류 모델이 제대로 '사과'로 인식하는지를 확인하는 것이다.
  • 높은 CAS는 생성된 이미지가 분류 모델에 의해 정확히 인식될 정도로 품질이 좋다는 것을 의미한다.

5. LPIPS (Learned Perceptual Image Patch Similarity)

  • LPIPS는 이미지 간의 시각적 유사성을 측정하는 지표이다.
  • 두 이미지가 인간의 눈에 얼마나 비슷하게 보이는지를 학습된 딥러닝 모델을 통해 측정한다.
  • 이 지표는 생성된 이미지와 기준 이미지 간의 미세한 차이까지도 반영하며, 시각적 품질을 평가하는 데 유용하다.
  • 낮은 LPIPS 점수는 두 이미지가 매우 유사하다는 것을 의미한다.

6. CLIP Score

  • CLIP Score는 텍스트와 이미지 간의 유사성을 측정하는 지표이다.
  • OpenAI의 CLIP 모델을 사용해 텍스트와 이미지를 비교하여 얼마나 잘 매치되는지 평가한다.
  • 예를 들어, '노란색 고양이'라는 텍스트 설명에 맞게 생성된 이미지가 얼마나 그 설명과 일치하는지를 측정한다.
  • 높은 CLIP Score는 텍스트와 이미지 간의 매칭이 잘 이루어졌다는 것을 의미한다.

정리

  • IS는 생성된 이미지의 품질다양성을 평가하며, 점수가 높을수록 좋다.
  • FID는 생성된 이미지가 실제 이미지와 얼마나 비슷한지를 측정하며, 점수가 낮을수록 좋다.
  • Intra FID는 같은 클래스 내에서 생성된 이미지들이 실제 이미지와 얼마나 비슷한지를 측정하며, 점수가 낮을수록 좋다.
  • **Classification Accuracy (CAS)**는 생성된 이미지가 정확히 분류될 수 있는지를 평가하며, 점수가 높을수록 좋다.
  • LPIPS는 이미지 간의 시각적 유사성을 측정하며, 점수가 낮을수록 이미지가 유사하다.
  • CLIP Score는 텍스트와 이미지 간의 유사성을 측정하며, 점수가 높을수록 텍스트와 이미지의 매칭이 잘 이루어졌음을 의미한다.

'AI' 카테고리의 다른 글

VQVAE(벡터양자화 변분 오토인코더)  (0) 2024.08.13
오토인코더, 변분오토인코더  (2) 2024.08.13
CNN - Backbone, Neck, Head  (0) 2024.07.30
R-CNN, Fast R-CNN, Faster R-CNN  (0) 2024.07.26
CNN - CAM(Class Activation Mapping)  (0) 2024.07.25