P-S3-수식인식-1

May 24, 2021

강의확인

대회개요

수식인식
- 수식이미지를 입력받아 Latex포맷으로 출력
- OCR중에 text recognition에 속함
평가방법
- 문장 단위 정확도(sentence accuracy)와 단어 오류율(word error rate)의 가중합

수식인식 대회 소개

손글씨, 인쇄데이터
- validation셋은 따로 제공 없음
- 이미지로 되어있음

OCR(optical character recognition이란

STR(scene text recognition)이라고도 함
사람이 인식
- 글자 찾고, 인식하기
이미지-> text localizatino, text recognition -> 글자위치
text localization
- object detection방법
- instance segmentation방법
- hybrid 위의 두개 같이
text recognition
수식인식
- 일반적인 OCR과 다르게 1줄이 아니다.
  - 2줄, 읽는방향도 다르다.
- localization은 제공
- recognition을 진행

detection

2tage faster rcnn
- RPN과 roi pooling이 있다.
- RPN은 박스를 추출한다
- roi pooling으로 박스크기를 같은 크기로 만든다.
- 나온 박스를 classifier로 분류
1stage SSD
- single shot multibox detector
- 여러 크기의 feature크기로 박스를 추출
- matching strategy
  - 배경은 안잡고 물체에 맞게 바운딩박스를 조정
  - gt와 iou가 0.5이상이면 물체가 있다고판단
- 앞쪽에서는 작은물체 뒤로갈수록 큰물체를 잡는 장점이있다.
- 초반 feature는 아직 성숙하지 못하기 때문에 예상한것처럼 작은물체를 못잡는다.
  - Neck을 이용
  - feature pyramid network로 단점을 커버하려한다.

segmentation

Unet
- padding을 하기보다 자연스럽게 보이기위해 mirroring을 적용하여 연속적보이게하여 자연스럽게 보이도록 한다.
- 사이즈를 줄였다가 키우는 이유는?
  - 일부만 보면 자동차지만, 큰그림으로 보면 보트로 보인다.
  - feature가 깊어질수록 큰영역을 보게되고 위치정보를 잃어버린다.
    - context를 이해한다.
    - 부족한 위치정보는 앞에서 가져오기
  - feature pyramid network와 skip connection하는 이유
mask rcnn
- semantic segmentation(FCN)
- roi align
  - roi pooling은 한픽셀 빗나가는게 원본에서 큰 격차를 보여줄수 잇따.

피어세션

간단 아이스브레이킹
- 수학전공
우리가 해야할것
- 위치를 판단된것
- text를 latex로 변환?