바이트 페어 인코딩(Byte Pair Encoding, BPE) 💡 BPE(Byte Pair Encoding)란? "Byte Pair Encoding(BPE)"은 '바이트 쌍 인코딩'으로 직역되며, 이는 단어나 문자열에서 연속된 바이트 쌍을 찾아내어 하나의 새로운 토큰으로 결합하는 방식을 의미합니다. 이 알고리즘은 주어진 데이터에서 자주 등장하는 바이트 쌍을 기반으로 새로운 토큰을 만들어내어 데이터를 효율적으로 표현하고 토큰화하는 데 사용됩니다. 📢 여기서 OOV란? 기계는 문제를 풀 때 모르는 단어가 나오면 주어진 문제를 풀기 어려워지는데, 이러한 상황을 OOV(Out-Of-Vocabulary)라고 합니다. OOV는 학습되지 않은 단어가 들어온 상황을 나타내며, 이를 완화하기 위해 Subword Tok..