본문 바로가기

AI

Bart의 Pre-training 방법

출처 : 패스트캠퍼스 & Upstage ai lab 강의자료

  1. Token Masking: 문장의 일부 토큰을 마스크(숨기기)하여 모델이 이를 예측하도록 학습하는 방법이다.
  2. Token Deletion: 문장에서 랜덤하게 선택된 토큰들을 삭제하여, 모델이 해당 문장을 재구성하도록 학습하는 방법이다.
  3. Sentence Permutation: 문장 내 문장 순서를 섞어서 입력하고, 이를 원래 순서로 복원하도록 학습하는 방법이다.
  4. Document Rotation: 문서의 일부분을 앞으로 또는 뒤로 회전시켜, 모델이 이를 원래 순서로 재배치하도록 학습하는 방법이다.
  5. Text Infilling: 문장에서 여러 연속된 단어를 제거하고, 모델이 그 빈칸을 채우도록 학습하는 방법이다.

'AI' 카테고리의 다른 글

Konlpy 오류 수정  (0) 2024.09.02
자연어처리의 데이터 증강기법  (0) 2024.08.28
OOV  (0) 2024.08.26
GPT-1 모델 특징  (0) 2024.08.26
BERT 이해하기  (0) 2024.08.23