P-S1-4.학습과 추론

강의확인

model.train()
- 학습모드로 전환!
optimizer.zero_grad()
- 배치마다 grad를 초기화
- 이전 배치에서 사용된 grad를 안쓰기위해 사용
loss = criterion(outputs,labels)
- criterion = torch.nn.CrossEntropyLoss()
  - criterion이라고 일반적으로 선언
- 모델에 input을 넣고 forward를 진행하였을때, 각 각 연결된 모듈에 있는 grad_fn이 적용되면서 chain이 적용된다.
- loss.backward()는 이러한 grad_fn이 체인되어있는것을 거쳐가면서 계산을 진행한다.
- loss는 grad를 업데이트하기만한다. 이를 파라메터를 적용하진않는다.
  - 이를 적용해주는게 optimizer
optimizer.step()
- 계산된 grad를 파라메터에 적용해준다.
gradient accumulation
- 매번 배치마다 업데이트하기엔 부담이될때
- 하나의 배치에서 loss를 계산하고 optimizer.step과 optimizer.zero_grad를 안한다.
- 다음 배치에서 loss를 계산, step을 진행하면 중첩적으로 계산하게된다. 이후 zero_grad로 초기화해준다.
  - 이렇게하면 2번의 배치마다 업데이트가 적용된다.

데이터를 분리해서 모델을 따로 학습해서 앙상블할지 고민한다.
- 3개로나누기
- 3개로 나누면 확장성면에서 문제가 있지않을까 생각하심
  - 모델은 한개면 충분할듯하다.
데이터 불균형은?
- 부족한건 augmentation적용하려고한다.
mnasnet,shufflenet,inception이 좋았다.
다들 너무 잘해서 뭘 말할게 없었다…

오늘 배운 과정을 한번 확인해보기위해 함수를 적용하여 학습을 해보았다.
- train을 위해 optimizer와 loss를 사용하여 epoch마다 계산되도록 적용
- 이전에 작성한 dataset과 model을 사용해보았다.