본문 바로가기

AI

OOV

OOV는 Out-Of-Vocabulary의 약자로, 자연어 처리(NLP)에서 사전에 포함되지 않은 단어를 의미한다.

OOV의 의미

  • 사전 미포함 단어: NLP 모델이 텍스트를 처리할 때, 미리 정의된 어휘(vocabulary) 목록을 사용한다. 이 어휘 목록에 포함되지 않은 단어들은 모델이 직접적으로 이해하거나 처리할 수 없다. 이런 단어들을 OOV라고 한다.
  • 예시: 예를 들어, "cat", "dog", "bird"라는 어휘를 가진 모델이 있을 때, "elephant"라는 단어가 등장한다면, 이는 OOV 단어로 간주된다. 모델은 "elephant"를 직접 이해할 수 없기 때문에 이 단어를 처리하는 데 어려움을 겪는다.

OOV 문제 해결 방법

OOV 문제를 해결하기 위해 몇 가지 방법이 사용된다:

  1. 서브워드 토크나이저: BPE나 WordPiece와 같은 서브워드 기반 토크나이저는 단어를 더 작은 단위로 쪼개어 OOV 문제를 줄인다. 예를 들어, "elephant"를 "ele", "phant"로 분할할 수 있다. 이렇게 하면 새로운 단어들도 기존 서브워드의 조합으로 처리할 수 있다.
  2. 백오프(backoff) 기법: OOV 단어를 처리할 수 있는 기본 전략으로, OOV 단어를 특정 토큰(예: <unk> 또는 <OOV>)으로 대체하여 처리하는 방법이다. 이렇게 하면 모델이 해당 단어를 모른다고 표시하고, 이를 통해 문맥을 기반으로 적절한 대응을 할 수 있다.
  3. 대규모 어휘 사용: 더 큰 어휘 목록을 사용하여 OOV 단어의 발생 가능성을 줄인다. 그러나 어휘가 너무 커지면 모델의 복잡성이 증가할 수 있다.

요약

OOV는 자연어 처리에서 사전에 포함되지 않은 단어를 의미하며, 모델이 이러한 단어를 처리할 때 발생하는 문제를 설명하는 용어이다. OOV 문제는 서브워드 토크나이저나 백오프 기법 등을 통해 해결할 수 있다.

'AI' 카테고리의 다른 글

자연어처리의 데이터 증강기법  (0) 2024.08.28
Bart의 Pre-training 방법  (0) 2024.08.28
GPT-1 모델 특징  (0) 2024.08.26
BERT 이해하기  (0) 2024.08.23
Self-attention  (0) 2024.08.21