- EDA (Easy Data Augmentation):
- EDA는 네 가지 규칙에 따라 단어 수준에서 변형하여 새로운 문장을 생성하는 방법이다.
- Synonym Replacement (SR): 단어를 유의어로 교체하는 방법이다.
- Random Insertion (RI): 임의의 단어를 문장에 삽입하는 방법이다.
- Random Swap (RS): 두 단어의 위치를 변경하는 방법이다.
- Random Deletion (RD): 문장에서 임의의 단어를 삭제하는 방법이다.
- EDA는 네 가지 규칙에 따라 단어 수준에서 변형하여 새로운 문장을 생성하는 방법이다.
- AEDA (An Easier Data Augmentation):
- EDA의 더 쉬운 버전으로, 성능이 더 좋음을 목표로 한다.
- 다양한 문장부호(punctuation marks)를 입력 문장에 추가하여 문장을 변형한다.
- 예시 문장부호: ".", ",", ";", "?", ":", "!", "/", "-" 등이 사용된다.
- Back Translation:
- 번역기를 활용하여 원본 문장을 Source Language(예: 한국어)에서 Target Language(예: 일본어, 영어)로 번역한 후, 다시 Source Language로 역번역하여 의미는 비슷하지만 다른 문장을 생성하는 기법이다.
- 이 방법은 의미의 변화 없이 데이터의 다양성을 높이는데 유용하다.
이 세 가지 기법은 자연어 처리 모델의 일반화 성능을 향상시키기 위해 데이터의 다양성을 증가시키는 데 사용된다.
'AI' 카테고리의 다른 글
모델 = 가중치? (1) | 2024.09.25 |
---|---|
Konlpy 오류 수정 (0) | 2024.09.02 |
Bart의 Pre-training 방법 (0) | 2024.08.28 |
OOV (0) | 2024.08.26 |
GPT-1 모델 특징 (0) | 2024.08.26 |