강의확인

advanced model

  • CSTR
    • CNN만 사용
    • sequence to sequence model 에 비해 구조가 단순
    • charactor단위로(글자 단위)
    • backbone
      • resnet based, FPN
    • CBAM
      • SENet과 유사
    • SADM
      • 픽셀에서 모든 픽셀과 내적으로 유사도를 계산
      • 픽셀마다 중요도를 계산
  • SRN
    • visual context, semantic context로 두영역이 존재
    • backbone
      • resnet50 + FPN
    • PVAM
      • rnn에서 query되는 이전 hiddenstate를 삭제
      • character reading order를 임베딩해서 사용
    • GSRM
      • gt랑 비교
      • 제일 가능성 높은거 찾기
        • self attention으로 내부적으로 학습
    • visual G, semantic S를 퓨전해서 weight학습
  • SEED
    • SE-ASTER
      • 흔들리고 흐릿하고 화질낮은것
    • text rectification network
      • spatial transformer network
      • 기울어진 글자를 똑바로 해주는것
  • SATRN
    • STN을 활용한 rectifying과정을 거침
    • base와 다른점
      • cnn+transformer encoder,decoder구조
      • densenet으로 변경
  • 성능은 transformer기반이 좀더 좋다고 한다.

end to end based model

  • text인식과 찾기를 동시에
  • FOTS
    • detection: EAST
    • recognition: CNN,LSTM,CTC
  • Mask TextSpotter
    • mask rcnn과 유사

해본거

  • rotate를 적용했지만 validation을 봤을때, 기본보다 떨어졌다.
    • rotate (wrap옵션)