tokenizer란

  • 문장을 특정규칙이있는 단어단위로 자르는거
  • 이 규칙은 사전에 대용량 문서를 통해 학습하여 자르는듯하다

불러오기

  • 허깅페이스에서 모델을 검색하여 “닉네임/repo이름”으로 허깅페이스에서 바로 불러오는게 가능하다.
  •   MODEL_NAME = "kykim/bert-kor-base"
      tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    

    출력 확인하기

  • encode
    • tokenizer.encode("문장")
    • tokenizer의 규칙에 따라 자르고, id를 list로 보여준다.
    • 앞뒤로는 [cls]토큰, [sep]토큰이 따라온다.
  • decode
    • tokenizer.encode([토큰 id list])
    • tokenizer가 가진 토큰의 id리스트를 받아서 문장으로 만들어준다.
  • tokenize
    • tokenizer.encode("문장")
    • 실제 토크나이저가 자르는 문장단위로 list로 출력한다.

새로운 special 토큰 추가하기

  •   special_tokens_dict = {'additional_special_tokens': ['[EN1]', '[/EN1]', '[EN2]', '[/EN2]']}
      tokenizer.add_special_tokens(special_tokens_dict)
    
  • 새로운 EN1과 EN2등을 추가하기위한 dict를 선언
  • tokenizer.add_special_tokens를 통해 해당 추가된 스페셜토큰을 적용한다.