강의확인
advanced model
- CSTR
- CNN만 사용
- sequence to sequence model 에 비해 구조가 단순
- charactor단위로(글자 단위)
- backbone
- CBAM
- SADM
- 픽셀에서 모든 픽셀과 내적으로 유사도를 계산
- 픽셀마다 중요도를 계산
- SRN
- visual context, semantic context로 두영역이 존재
- backbone
- PVAM
- rnn에서 query되는 이전 hiddenstate를 삭제
- character reading order를 임베딩해서 사용
- GSRM
- gt랑 비교
- 제일 가능성 높은거 찾기
- self attention으로 내부적으로 학습
- visual G, semantic S를 퓨전해서 weight학습
- SEED
- SE-ASTER
- text rectification network
- spatial transformer network
- 기울어진 글자를 똑바로 해주는것
- SATRN
- STN을 활용한 rectifying과정을 거침
- base와 다른점
- cnn+transformer encoder,decoder구조
- densenet으로 변경
- 성능은 transformer기반이 좀더 좋다고 한다.
end to end based model
- text인식과 찾기를 동시에
- FOTS
- detection: EAST
- recognition: CNN,LSTM,CTC
- Mask TextSpotter
해본거
- rotate를 적용했지만 validation을 봤을때, 기본보다 떨어졌다.