강의확인
text localization
- 글자가 어딨는지
- Detection based
- segmentation based
- hybrid based
Detection based
- textBoxes
- word based알고리즘
- SSD구조
- text box layer를 추가
- SSD와 다른점
- seglink
- 여러 segment를 찾아서 link를 해준다.
- SSD구조
- segment socore로 글자 유무(2) = 2score
- segment offset(4) ,1개는 각도(1) = 5score
- 하나의 박스주의 8개박스에서 연결유무(2) = 16score
- 하나의 박스와 이전레이어 4개와 cross layer = 8score
segmentation based
- pixellink
- pixel단위로 글자인지 아닌지 확인
- 연결됐는지 확인하는 부분도 존재
- seglink는 박스단위면, pixellink는 pixel단위로 계산
- textsnake
hybrid based
- textFuseNet
- semantic segmentation으로 텍스트영역을 찾아낸다. global level
- detection으로 word레벨 탐지
- mask branch로 character레벨 탐지
- multi path fusion(여러 feature를 융합)
TextRecognition
- 대회에서는 localization은 존재, recognition이 목적
- text위치를 알고 잘라온 이미지를 입력하여 인식하기
- cnn based
- rnn+ctc based
- rnn+attention based
cnn based
- CHAR
- 이미지를 통째로 classification
- word단위
- character 단위
- bags of n-grams classification
- 전체적으로 성능은 낮음, 직관적임
- word단위가 더 좋다고 한다.
rnn+ctc
- CRNN
- cnn으로 feature뽑고 이를 RNN으로 text인식
- 잘개 쪼개지면 S를 -s-가 되기도 하고 A는 aa로 나오기도한다.
- ctc
- connectionist temporal classification
rnn+attention
- ctc없이 가능하도록
- aster
- cnn을 거치고 이를 bilstm으로 진행
- lstm결과를 인코딩하여 attention진행
오늘한거
- Synthetically Supervised Feature Learning for
Scene Text Recognition
- 슈퍼바이즈 러닝을 적용했다.
- 왜곡된 이미지들을 잘 처리하기위해?
- What Is Wrong With Scene Text Recognition Model Comparisons?
Dataset and Model Analysis
- 좋지않다 좋은 훈련과 평가
- 3가지 어려움을 공헌
-
- 훈련과 평가데이터의 불일치조사, 불일치에서 성능차이를 조사
-
- four-stage STR framework 사용
-
- 일관된 훈련과 평가 데이터 세트로 정확, 속도, 메모리 측면의 성능측정을 했다.
- Aggregation Cross-Entropy for Sequence Recognition
- ACE소개
- ACE loss function소개
- ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification(수정?)
- 원근(관점)에따라 이미지가 변형이라는 문제가많다.
- 최근엔 이미지와 텍스트스타일 변형하여 학습을한다(?) 하지만 원근과 휘어진것엔 약하다
- ESIR은 휘어진것과 원근으로 변형된것을
- 그외 논문