강의확인

text localization

  • 글자가 어딨는지
  • Detection based
    • textboxes
    • segLink
  • segmentation based
    • pixellink
    • textsnake
  • hybrid based
    • textfusenet

Detection based

  • textBoxes
    • word based알고리즘
      • 단어 전체로
    • SSD구조
    • text box layer를 추가
    • SSD와 다른점
      • vertical offset
        • 바운딩박스를 1/2만큼 아래로 내린다.
  • seglink
    • 여러 segment를 찾아서 link를 해준다.
    • SSD구조
    • segment socore로 글자 유무(2) = 2score
    • segment offset(4) ,1개는 각도(1) = 5score
    • 하나의 박스주의 8개박스에서 연결유무(2) = 16score
    • 하나의 박스와 이전레이어 4개와 cross layer = 8score

segmentation based

  • pixellink
    • pixel단위로 글자인지 아닌지 확인
    • 연결됐는지 확인하는 부분도 존재
      • seglink는 박스단위면, pixellink는 pixel단위로 계산
  • textsnake
    • 휘어진 원 모양의 텍스트 인식을 위해

hybrid based

  • textFuseNet
    • semantic segmentation으로 텍스트영역을 찾아낸다. global level
    • detection으로 word레벨 탐지
    • mask branch로 character레벨 탐지
    • multi path fusion(여러 feature를 융합)

TextRecognition

  • 대회에서는 localization은 존재, recognition이 목적
  • text위치를 알고 잘라온 이미지를 입력하여 인식하기
  • cnn based
  • rnn+ctc based
  • rnn+attention based

cnn based

  • CHAR
    • 이미지를 통째로 classification
    • word단위
      • OOV문제
    • character 단위
      • 최대 길이가 정해져있다.
    • bags of n-grams classification
    • 전체적으로 성능은 낮음, 직관적임
    • word단위가 더 좋다고 한다.

rnn+ctc

  • CRNN
    • cnn으로 feature뽑고 이를 RNN으로 text인식
    • 잘개 쪼개지면 S를 -s-가 되기도 하고 A는 aa로 나오기도한다.
      • 이를 ctc로 조정
    • ctc
      • connectionist temporal classification

rnn+attention

  • ctc없이 가능하도록
  • aster
    • cnn을 거치고 이를 bilstm으로 진행
    • lstm결과를 인코딩하여 attention진행

오늘한거

  • Synthetically Supervised Feature Learning for Scene Text Recognition
    • 슈퍼바이즈 러닝을 적용했다.
    • 왜곡된 이미지들을 잘 처리하기위해?
  • What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis
    • 좋지않다 좋은 훈련과 평가
    • 3가지 어려움을 공헌
      1. 훈련과 평가데이터의 불일치조사, 불일치에서 성능차이를 조사
      1. four-stage STR framework 사용
      1. 일관된 훈련과 평가 데이터 세트로 정확, 속도, 메모리 측면의 성능측정을 했다.
  • Aggregation Cross-Entropy for Sequence Recognition
    • ACE소개
    • ACE loss function소개
      • CTC, attention
  • ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification(수정?)
    • 원근(관점)에따라 이미지가 변형이라는 문제가많다.
    • 최근엔 이미지와 텍스트스타일 변형하여 학습을한다(?) 하지만 원근과 휘어진것엔 약하다
    • ESIR은 휘어진것과 원근으로 변형된것을
  • 그외 논문
    • 다는 안봤는데 수식은 안보이는딩?