SRN개요

  • SRN
    • semantic reasoning network
  • 앞부분
    • visual context
      • 시각
  • 뒷부분
    • semantic context
      • 의미
  • 글자가 약간 지워지거나, 작거나 약간 휘어진것을 잘 못찾는게 존재
    • visual만 보면 이것을 못볼것이다.
    • coffee일때 offee를 보면 앞쪽의 c를 예측가능할것이다.
    • semantic(의밀)를 같이 고려

PVAM

  • Parallel visual attention module(PVAM)
    • visual context를 학습
  • rnn attention modeul에서 query로 이전 hidden state를 사용 안함
    • 사용하면 rnn은 시퀀셜하게 작동함 (이전 state가 계산이 되어야 query가 만들어짐)
    • character reading order(문자의 순서를 표현한 index?)를 임베딩하여 사용
      • 기존 rnn과 다르게 parallel계산이 가능하다고 한다.(뭔데)

GSRM

  • global semantic reasoning module(GSRM)
    • semantic context학습
  • visual-to-semantic embedding block
  • PVAM의 결과인 Aligned Visual Feature(G)를

fusion

  • G와 S를 퓨전하여 예측

paddle

  • 백본은 괜찮다.
    • detach와 no_grad?
    • s = s.detach()로 변경
      • with no_grad: s도 가능할듯
  • 중간에 pad를 줌
    • +1하는 부분이 존재 이때 pad를 넣는듯
    • 우리는 pad가 2로 정해져있음
      • 초반 번호를 차지함
  • 그래서 pad가 없는것과 비교하기에는 임베딩이 다름
    • if 2자리가 없는것은 2가 패드/pad가 없는것은 또다른 단어 임베딩 - 한자리씩 밀린다고 생각함
    • 그래서 pad를 맨뒤번호로 넘겨버림