강의확인

대회개요

  • 수식인식
    • 수식이미지를 입력받아 Latex포맷으로 출력
    • OCR중에 text recognition에 속함
  • 평가방법
    • 문장 단위 정확도(sentence accuracy)와 단어 오류율(word error rate)의 가중합

수식인식 대회 소개

  • 손글씨, 인쇄데이터
    • validation셋은 따로 제공 없음
    • 이미지로 되어있음

OCR(optical character recognition이란

  • STR(scene text recognition)이라고도 함
  • 사람이 인식
    • 글자 찾고, 인식하기
  • 이미지-> text localizatino, text recognition -> 글자위치
  • text localization
    • object detection방법
    • instance segmentation방법
    • hybrid 위의 두개 같이
  • text recognition
  • 수식인식
    • 일반적인 OCR과 다르게 1줄이 아니다.
      • 2줄, 읽는방향도 다르다.
    • localization은 제공
    • recognition을 진행

detection

  • 2tage faster rcnn
    • RPN과 roi pooling이 있다.
    • RPN은 박스를 추출한다
    • roi pooling으로 박스크기를 같은 크기로 만든다.
    • 나온 박스를 classifier로 분류
  • 1stage SSD
    • single shot multibox detector
    • 여러 크기의 feature크기로 박스를 추출
    • matching strategy
      • 배경은 안잡고 물체에 맞게 바운딩박스를 조정
      • gt와 iou가 0.5이상이면 물체가 있다고판단
    • 앞쪽에서는 작은물체 뒤로갈수록 큰물체를 잡는 장점이있다.
    • 초반 feature는 아직 성숙하지 못하기 때문에 예상한것처럼 작은물체를 못잡는다.
      • Neck을 이용
      • feature pyramid network로 단점을 커버하려한다.

segmentation

  • Unet
    • padding을 하기보다 자연스럽게 보이기위해 mirroring을 적용하여 연속적보이게하여 자연스럽게 보이도록 한다.
    • 사이즈를 줄였다가 키우는 이유는?
      • 일부만 보면 자동차지만, 큰그림으로 보면 보트로 보인다.
      • feature가 깊어질수록 큰영역을 보게되고 위치정보를 잃어버린다.
        • context를 이해한다.
        • 부족한 위치정보는 앞에서 가져오기
      • feature pyramid network와 skip connection하는 이유
  • mask rcnn
    • semantic segmentation(FCN)
    • roi align
      • roi pooling은 한픽셀 빗나가는게 원본에서 큰 격차를 보여줄수 잇따.

피어세션

  • 간단 아이스브레이킹
    • 수학전공
  • 우리가 해야할것
    • 위치를 판단된것
    • text를 latex로 변환?