SRN개요
- SRN
- semantic reasoning network
- 앞부분
- 뒷부분
- 글자가 약간 지워지거나, 작거나 약간 휘어진것을 잘 못찾는게 존재
- visual만 보면 이것을 못볼것이다.
- coffee일때 offee를 보면 앞쪽의 c를 예측가능할것이다.
- semantic(의밀)를 같이 고려
PVAM
- Parallel visual attention module(PVAM)
- rnn attention modeul에서 query로 이전 hidden state를 사용 안함
- 사용하면 rnn은 시퀀셜하게 작동함 (이전 state가 계산이 되어야 query가 만들어짐)
- character reading order(문자의 순서를 표현한 index?)를 임베딩하여 사용
- 기존 rnn과 다르게 parallel계산이 가능하다고 한다.(뭔데)
GSRM
- global semantic reasoning module(GSRM)
- visual-to-semantic embedding block
- PVAM의 결과인 Aligned Visual Feature(G)를
fusion
paddle
- 백본은 괜찮다.
- detach와 no_grad?
- s = s.detach()로 변경
- 중간에 pad를 줌
- +1하는 부분이 존재 이때 pad를 넣는듯
- 우리는 pad가 2로 정해져있음
- 그래서 pad가 없는것과 비교하기에는 임베딩이 다름
- if 2자리가 없는것은 2가 패드/pad가 없는것은 또다른 단어 임베딩 - 한자리씩 밀린다고 생각함
- 그래서 pad를 맨뒤번호로 넘겨버림