자연어처리의 데이터 증강기법

EDA (Easy Data Augmentation):
- EDA는 네 가지 규칙에 따라 단어 수준에서 변형하여 새로운 문장을 생성하는 방법이다.
  - Synonym Replacement (SR): 단어를 유의어로 교체하는 방법이다.
  - Random Insertion (RI): 임의의 단어를 문장에 삽입하는 방법이다.
  - Random Swap (RS): 두 단어의 위치를 변경하는 방법이다.
  - Random Deletion (RD): 문장에서 임의의 단어를 삭제하는 방법이다.
AEDA (An Easier Data Augmentation):
- EDA의 더 쉬운 버전으로, 성능이 더 좋음을 목표로 한다.
- 다양한 문장부호(punctuation marks)를 입력 문장에 추가하여 문장을 변형한다.
  - 예시 문장부호: ".", ",", ";", "?", ":", "!", "/", "-" 등이 사용된다.
Back Translation:
- 번역기를 활용하여 원본 문장을 Source Language(예: 한국어)에서 Target Language(예: 일본어, 영어)로 번역한 후, 다시 Source Language로 역번역하여 의미는 비슷하지만 다른 문장을 생성하는 기법이다.
- 이 방법은 의미의 변화 없이 데이터의 다양성을 높이는데 유용하다.

이 세 가지 기법은 자연어 처리 모델의 일반화 성능을 향상시키기 위해 데이터의 다양성을 증가시키는 데 사용된다.

개인적인 IT기록