강의확인

문장 토큰 분류

  • 주어진 문장의 각 token이 어떤 범주에 속하는지 분류
  • named entity recognnition(NER)
    • 특정한 의미를 가지는 단어를 인식
    • 개체명, 인명, 날짜, 기관명 등
  • part-of-speech tagging(POS tagging)
    • 품사단위로 태깅
  • 데이터
    • kor_ner
      • bio태그

피어세션

  • Stratified KFold, 앙상블을통해 성능향상이 있었다고한다.(2등!)
    • 메모리누스는 폴더에 저장하는 방식?
  • 입력sentence를 concat하여 증가시키니 성능이 오르긴했다.
  • 임베딩 레이어에 리사이즈가 필요
  • 멀티센텐스가 더 좋았다.

오피스아워 text augmentation(박상희님)

  • text augmentation이란?
    • 부족한 데이터 증강
  • 꽤어려움
    • 의미보존, 외적인구조만 변경, 의미 정의가 어렵고, 제대로 되어있는지 판단이 어려움
  • EDA(easy data augmentation)
    • 전처리 기법으로 augmentation
    • 50% 데이터로 전체데이터와 같은성능
    • 논문에서는 4가지방법
    • SR,RI,RS,RD
  • back trasnlation
    • 기계번역의 성능을 향상시키기위해
    • 한국-번역-외국어-번역-한국어 를 사용
  • transformer

QA

  • 포트폴리오
    • 구심점이 필요
    • 하나를 집중해서 진행
    • 문제제기, 기존한계, 해결과정
  • 토크나이저나 언어모델은 특정 도메인에 맞게 직접 만들기도한다.
  • hugging-face사용하는것을 아는것도 장점이될수있다.
    • fairseq는 카카오 브레인에서 사용한다.

오늘 한일

  • 토큰 추가하여 학습 진행

어떻게 했는지

  • cls단어1 sep단어2sep문장의 형태에서 cls문장e1단어e1문장e2단어e2문장형태로 변형하여 학습
    • 앞에서 단어를 표시해도 문장에서 토큰화되면서 제대로 표시를 못하는 경우가 있었다.
      • ‘자동차’라는 단어가 문장에서는 ‘자동차의’로 되면서 토큰나이저가 다르게 잘라낸다.
    • 이를 위해 그냥 문장에서 직접 해당 단어들에 토큰으로 감싸서 사용
  • 하나의 문장보다 두개의 문장을 이용
    • cls단어1 sep단어2sep문장e1단어e1문장e2단어e2문장으로 적용하여 학습
    • 아무래도 단어에대한 정보를 좀더 나타내서 성능이 올랐다고 생각합니다.

좋았던 점

  • 약간의 성능향상을 기대했는데 실제로 성능이 올랐습니다.

아쉬운 점

  • 좀더 많은 시도를 해보고싶은데 코드의 이해와 어떻게 적용하는지에대한 고민이 오래걸려서 아쉽습니다.