마스터클래스
FPN+efficientnetb5
deeplabv3+se_resnext_32x4d
tta적용
crf적용
후처리로 좋은 결과
crf는 잘못 예측한 부분을 많이 완화해줬다(이번 대회에서 좋았다.)
실험순서
모델에대한 실험
augmentation조합
이미지확인
하이퍼파라미터
lr은 점수의 변화량을 줄이기위해서 lr을 줄여서 확인
batch도 32,24,16으로 실험
label smoothing도 좋았다고 한다.
앙상블
순서
모델찾기를 우선, batch는 최대한 크게하여 진행
augmentation과 튜닝 시간은 줄이기
batch와 lr을 실험해보고 , augmentation추가후, batch와 lr을 추가적으로 조정
앙상블
다양성이 있어야 좀더 효과가 있다고한다.
corelation을확인
강의확인
baseline 소개
efficient unet
모델불러오기
segmentation models
import segmentation_models_pytorch as smp
이미지 출력 결과
(배치사이즈,클래스갯수,세로,가로)
이미지가 2*2이고 클래스만큼 각 픽셀마다 채널이 존재
마스크 출력
(배치,세로,가로)
클래스 축이 없고, 각 픽셀이 어떤 클래스 인델스를 가지는지 출력
시드고정 필수
같은실험 같은결과를 내기위해
실험은 하나에 한조건으로
valid의 중요
제출횟수제한되어 제출전에 성능확인하는 방식
holdout
20%는 고정
20%가 학습에 참여 못함
k-fold
valid가 번갈아가면서 학습에 참여
stratified k-fold
class distriburtion을 고려
class분포를 유사하게 분리를한다.
group k - fold
의료사진은 대부분 같은 클래스에는 같은 사람의 사진이 들어가게된다.
이런 사진을 나눠서 valid로 한다고 하면, 이미 train에서 학습한 정보를 valid에서는 높은 점수를 받아서 학습 효율이 떨어진다.
train과 valid에 동일한 그룹이 나뉘지 않도록 그룹화 해주는거
augmentation
성능향상
라이브러리 albumentation
도메인에 맞게 적용하기
cutout
grid mask (cutout의 단점을 극복하기위해)
cut mix 두 이미지를 잘라서 붙이기
snap mix 두 이미지에 중요한 부분을 합치기
모델
HRnet등의 sota 확인
기존 모델에서도 백본 변경, 다양한 모델의 환경을 확인
learning scheduler
cosineAnnealingLR
reduceLROnPlateau
gradual warmup
batch size
gradient accumulate
mixed precision training of deep neural network
웨이트의 소수점을 32에서 16을 줄여서 배치사이즈 증가
optimizer
adam, adamp,adamw
앙상블
k-fold
swa(stochastic weigh averaging)
weight를 업데이트가 아닌 평균낸다.
시드앙상블
시드만 바꿔서 앙상블
피어세션
kortok이라는 모듈로 형태소단위로 사용하는것
https://github.com/kakaobrain/kortok
bert이다.
본인 발표
[SEP]의 special 토큰으로서와 plain토큰으로 있을때 차이가 있었다.
roberta는 구분자에 두개
roberta의 문장1문장2로 나뉜것 확인
데이터 불균형이 아쉽다.
앙상블은 corelation이 낮음
inference할때 모델 돌려서 앙상블로 보팅
소프트의 하드 보팅 차이가 있다.
하드보팅이 좀더 좋게 평가되었다.
koelecktra, roberta