강의 복습 내용
- multimodal
- visual data and text
- joint embedding
- cross modal translation
- image captioning
- show and tell
- show attend and tell
- text to image by generative model
- cross modal reasoning
- visual question answering
- visual data and audio
- audio 처리
- spectrogram
- Fourier trasform
- STFT(short time fourier transform)
- melspectrogrma
- MFC
- join embedding
- cross modal translation
- speech2face
- image-tospeech
- sound source localization
- looking to listen at the cocktail party
- lib movements generation
- 3d
- 데이터형식
- multi-view images
- volumetric(3d공간을 픽셀처럼 생각)
- part assembly(작은 부품의 집합)
- point cloud(3d포인트의 집합)
- mesh(graph cnn에 사용,vertex와 edge의 형태로 삼각형모양)
- implicit shape(고차원의 함수 형태)
- 데이터셋
- shapeNet
- partnet
- scenenet
- scannet
- outdoor 3d scene datasets
- 3d task
- 3d recognition
- 3d semantic segmentation
- conditional 3d generation
얻은 지식
multimodal:captioning and speaking
- 한데이터뿐만아니라 다른 데이터도 같이 학습하는것
multimodal 이란?
- unimodal
- multimodal
- 다중감각
- 동시에 여러 감각기관으로 학습하는것
- 시각 + 청각
- 서로다른 modal끼리 차이
- 데이터형식
- 매칭의 불균형
- 학습시 쉬운 특정 modal에 bias된다.
visual data and text
- text data는?
- text embedding을 사용
- word2vec
- skip-gram model
- 하나의 단어가 들어오면 앞 뒤로 올 단어들을 예측하는것을 학습
joint embedding
- 공통된 embedding을 학습
- image tagging
- 이미지에 태그를 추천
- 태그로부터 이미지를 찾기
- 사전에 학습된 unimodal 모델을 결합
- 학습하는 방식 metric learning
- 매칭되는 pair에 대해서는 embedding space의 간격을 줄이는방향으로
- 매칭이 안되면 간격을 넓히는 방향으로 학습
- space는 이미지와 text둘의 정보를 가지게된다.
- 이미지와 text 의 관계를 embedding이 학습을 하게된다.
- multi modal analogy를 학습한다.
- 강아지사진 - 강아지 + 고양이 = 고양이 사진이 나온다.
- image & food recipe 연결도 가능
- 이미지를 입력하면 재료를 출력, 재료를 입력하면 이미지를 출력
- 레시피는 순서가 있어야 하므로 rnn으로 제작
cross modal translation
- image captioning
- show and tell
- 이미지를 입력하면 이미지를 표현하는 텍스트를 출력
- image는 cnn, 텍스트는 rnn
- 인코더(cnn), 디코더(lstm)
- 이미지를 입력하여 cnn을 통해 featrue 추출
- 추출된 featrue를 lstm을 통해 텍스트로 변환
- show attend and tell
- 집중하는 attention을 추가
-
- text to image by generative model
- 텍스트로 이미지를 생성모델로 생성
- generator(conditional GAN 텍스트로 이미지 만들기), discriminator(이미지와 텍스트를 매칭하도록 학습)
cross modal reasoning
- 다른 모달을 참조해서 결과를 도출하는것
- visual question answering
- 이미지와 질문이 주어지면 답을 도출
- qeustion은 lstm, 이미지는 cnn
- 전체적으로 end-to-end로 학습이 진행
visual data and audio
- 사운드를 어떻게 표현?
- 사운드는 시간축을 기준으로 신호(waveform)로 존재
- 머신러닝에서 사용하기 위해서는 acoustic feature인 spectrogram으로 변환해야한다.
- Fourier trasform
- STFT(short time fourier tranform)
-
- 타임축 기준으로 쌓는다.
- melspectrogrma
- MFC
joint embedding
- soundnet
- autio representation을 비디오의 한 프레임에 맞춰 학습
- 영상에서 음성은 row waveform을 이용
- 각 프레임마다 이미지 인식 진행
- 물체인식과 장면인식을 오디오쪽 cnn을 학습시킨다.
cross modal translation
- speech2face
- 음성을 통해 얼굴을 상상하는것
- module networks
- 얼굴인식모듈(vgg face model)을 미리 학습
- face decoder라는 얼굴 feature가 오면 정면의 얼굴을 출력하는 모듈
- speech2face model의 feature가 얼굴인식 feature를 따라가도록 학습을 진행
- image-tospeech
- 이미지로부터 음성을 만들기
- ![그림]
- 이미지 입력으로 unit 추출, unit으로 음성 출력
- 두 부분으로 나눠서 학습을 진행
- 한번에 학습이 되는건 아니라고 한다.
- sound source localization
- 영상에서 음성이 어디서 나는지 보여주기
- 이미지 프레임과 오디오가 입력
- supervised loss 로 정답위치를 제공해줘야한다.
- looking to listen at the cocktail party
- 여러 인물이 말할때 특정 사람의 인물의 음성만 듣기
- 학습시에는?
- 이미 음성이 섞여서 학습이 어렵다.
- 두개의 영상파일을 합쳐서 각각의 label를 이용하여 학습을 진행
- lib movements generation
3d
- 실세계는 3d로 이뤄져있다.
- 3d는 2d로 인식이된다.(projection)
- 두개의 view로 3d로 변환이 가능하다.
- 표현은?
- 2d는 각 픽셀별로 값을 가진다.
-
- multi-view images
- volumetric(3d공간을 픽셀처럼 생각)
- part assembly(작은 부품의 집합)
- point cloud(3d포인트의 집합)
- mesh(graph cnn에 사용,vertex와 edge의 형태로 삼각형모양)
- implicit shape(고차원의 함수 형태)
- 데이타셋
- shapeNet
- partnet
- scenenet
- scannet
- outdoor 3d scene datasets
- 자율주행관련
- kitti, semantic kitti, waymo open dataset
3d task
3d recognition
- 3d물체 인식, detection 등
- 3d cnn(volumetric cnn)을 이용
3d semantic segmentation
- 각 파트별로 segmentation
conditional 3d generation
- mesh r-cnn
- 2d이미지->3d mesh로 물체인식을 한다.
-
- mask r-cnn에 3d branch를 추가한 형태
3d application 예제
- 포토 리포커싱
- 특정 물체만 포커싱하고 나머지는 날려주는 효과
좀더 찾아보기
- melspectrogrma
- MFC
- spectrogram
피어세션 정리
- spectrogram
- 이미지처럼 변형
- 의미이면 rnn, 음성의 특징은 spectrogram
마스터클래스
- 어느정도의 논문 이해수준
- 너무많은 논문이 있었다.
- 전반적인 입력과 출력, 모델의 큰 그림을 보여주고 싶었다.
- 코드의 블럭을 보고 모델의 구조를 파악하는 정도를 알 수 있게
- 회사가 원하는 능력은?
- transformer의 전망은?
- 데이터가 많은면 transformer가 잘되는걸 많이 보여줌
- 데이터가 많은 기준은?
- c언어와 python
- c가 좀더 빨라서 서비스에 사용된다고한다.
- 자동으로 python에서 c로 컨버트해주는게 있다.
- 마지막은?
- 영어를 배워라!
- 자신만의 기준을 만들고 감을 익혀라!
후기
- 전체적으로 어려운 분야였다.
- 한 강의에서 많은 논문을 다루다보니 전체적으로 입력과 출력과 특징만 알고 넘어가게되었다.
- 아무래도 transformer가 많은 연구에 큰 영향을 주었나보다.