본문 바로가기

AI

Bart의 Pre-training 방법

dijeong 2024. 8. 28. 11:14

출처 : 패스트캠퍼스 & Upstage ai lab 강의자료

Token Masking: 문장의 일부 토큰을 마스크(숨기기)하여 모델이 이를 예측하도록 학습하는 방법이다.
Token Deletion: 문장에서 랜덤하게 선택된 토큰들을 삭제하여, 모델이 해당 문장을 재구성하도록 학습하는 방법이다.
Sentence Permutation: 문장 내 문장 순서를 섞어서 입력하고, 이를 원래 순서로 복원하도록 학습하는 방법이다.
Document Rotation: 문서의 일부분을 앞으로 또는 뒤로 회전시켜, 모델이 이를 원래 순서로 재배치하도록 학습하는 방법이다.
Text Infilling: 문장에서 여러 연속된 단어를 제거하고, 모델이 그 빈칸을 채우도록 학습하는 방법이다.

'AI' 카테고리의 다른 글

Konlpy 오류 수정 (0)	2024.09.02
자연어처리의 데이터 증강기법 (0)	2024.08.28
OOV (0)	2024.08.26
GPT-1 모델 특징 (0)	2024.08.26
BERT 이해하기 (0)	2024.08.23

티스토리툴바