강의확인
대회개요
- 수식인식
- 수식이미지를 입력받아 Latex포맷으로 출력
- OCR중에 text recognition에 속함
- 평가방법
- 문장 단위 정확도(sentence accuracy)와 단어 오류율(word error rate)의 가중합
수식인식 대회 소개
- 손글씨, 인쇄데이터
- validation셋은 따로 제공 없음
- 이미지로 되어있음
OCR(optical character recognition이란
- STR(scene text recognition)이라고도 함
- 사람이 인식
- 이미지-> text localizatino, text recognition -> 글자위치
- text localization
- object detection방법
- instance segmentation방법
- hybrid 위의 두개 같이
- text recognition
- 수식인식
- 일반적인 OCR과 다르게 1줄이 아니다.
- localization은 제공
- recognition을 진행
detection
- 2tage faster rcnn
- RPN과 roi pooling이 있다.
- RPN은 박스를 추출한다
- roi pooling으로 박스크기를 같은 크기로 만든다.
- 나온 박스를 classifier로 분류
- 1stage SSD
- single shot multibox detector
- 여러 크기의 feature크기로 박스를 추출
- matching strategy
- 배경은 안잡고 물체에 맞게 바운딩박스를 조정
- gt와 iou가 0.5이상이면 물체가 있다고판단
- 앞쪽에서는 작은물체 뒤로갈수록 큰물체를 잡는 장점이있다.
- 초반 feature는 아직 성숙하지 못하기 때문에 예상한것처럼 작은물체를 못잡는다.
- Neck을 이용
- feature pyramid network로 단점을 커버하려한다.
segmentation
- Unet
- padding을 하기보다 자연스럽게 보이기위해 mirroring을 적용하여 연속적보이게하여 자연스럽게 보이도록 한다.
- 사이즈를 줄였다가 키우는 이유는?
- 일부만 보면 자동차지만, 큰그림으로 보면 보트로 보인다.
- feature가 깊어질수록 큰영역을 보게되고 위치정보를 잃어버린다.
- context를 이해한다.
- 부족한 위치정보는 앞에서 가져오기
- feature pyramid network와 skip connection하는 이유
- mask rcnn
- semantic segmentation(FCN)
- roi align
- roi pooling은 한픽셀 빗나가는게 원본에서 큰 격차를 보여줄수 잇따.
피어세션
- 간단 아이스브레이킹
- 우리가 해야할것
- 위치를 판단된것
- text를 latex로 변환?