본문 바로가기

AI

자연어처리의 데이터 증강기법

  1. EDA (Easy Data Augmentation):
    • EDA는 네 가지 규칙에 따라 단어 수준에서 변형하여 새로운 문장을 생성하는 방법이다.
      • Synonym Replacement (SR): 단어를 유의어로 교체하는 방법이다.
      • Random Insertion (RI): 임의의 단어를 문장에 삽입하는 방법이다.
      • Random Swap (RS): 두 단어의 위치를 변경하는 방법이다.
      • Random Deletion (RD): 문장에서 임의의 단어를 삭제하는 방법이다.
  2. AEDA (An Easier Data Augmentation):
    • EDA의 더 쉬운 버전으로, 성능이 더 좋음을 목표로 한다.
    • 다양한 문장부호(punctuation marks)를 입력 문장에 추가하여 문장을 변형한다.
      • 예시 문장부호: ".", ",", ";", "?", ":", "!", "/", "-" 등이 사용된다.
  3. Back Translation:
    • 번역기를 활용하여 원본 문장을 Source Language(예: 한국어)에서 Target Language(예: 일본어, 영어)로 번역한 후, 다시 Source Language로 역번역하여 의미는 비슷하지만 다른 문장을 생성하는 기법이다.
    • 이 방법은 의미의 변화 없이 데이터의 다양성을 높이는데 유용하다.

이 세 가지 기법은 자연어 처리 모델의 일반화 성능을 향상시키기 위해 데이터의 다양성을 증가시키는 데 사용된다.

'AI' 카테고리의 다른 글

모델 = 가중치?  (1) 2024.09.25
Konlpy 오류 수정  (0) 2024.09.02
Bart의 Pre-training 방법  (0) 2024.08.28
OOV  (0) 2024.08.26
GPT-1 모델 특징  (0) 2024.08.26