전체 글

    [ICLR 2020] On the 'steerability' of generative adversarial networks 논문 리뷰

    논문 : arxiv.org/abs/1907.07171 사이트 : ali-design.github.io/gan_steerability/ GAN 스터디 때 나온 주제 중 latent space를 조작하는 연구 분야가 흥미롭게 느껴져서 리뷰하게 된 논문이다. 제목에서 알 수 있듯이 GAN을 latent space에서 "steering" 즉, 조종하려고 한 논문이다. source image를 edit해서 사용하는 self-supervised 방법을 통해 학습을 진행한다. 1. Introduction GAN은 학습된 데이터셋 내에서의 변환은 잘 하지만 학습 데이터셋에서 완전 벗어난 이미지는 만들 수 없다는 한계가 존재한다. 예를 들어, 트레이닝 데이터셋에 긴 머리를 가진 남자의 이미지는 없다고 가정하면 "남자 =..

    [ICLR 2016] DCGAN 개념 및 PyTorch 코드 구현

    GAN의 가장 기본적인 논문이라고 할 수 있는 DCGAN을 간단히 리뷰하고 코드 구현까지 담아보려고 한다. Ian Goodfellow가 GAN을 발표한 이후로 많은 분야의 GAN 연구가 진행되었지만 그 때마다 항상 불안정한 구조로 인한 문제가 따라붙었다. 따라서 큰 이슈였던 부분이 바로 "GAN의 안정화"였다. Minimax 혹은 saddle problem을 풀어야하는 GAN은 어쩔 수 없이 태생적으로 불안정할 수 밖에 없었다. 이론적으로는 fixed solution으로 수렴하는 것이 보장되어 있지만, 실제 적용에서는 이론적 가정이 깨지면서 생기는 불안정한 구조적 단점을 보이곤 했다. 또한 MNIST와 같이 비교적 단순한 이미지는 괜찮은 이미지를 생성하였지만, CIFAR-10과 같은 복잡한 영상에 대해서..

    GAN 종류 정리

    출처 : ysbsb.github.io/gan/2020/06/17/GAN-newbie-guide.html

    GAN(Generative Adversarial Networks) 개념 정리 - 2

    논문 : arxiv.org/abs/1406.2661 [NIPS 2014] 이전 포스팅인 개념 정리 1에서는 GAN의 개념, 구조, 최적화 과정, 비용함수, 코드 설명에 관해 다뤘다면 이번 포스팅에서는 논문에 나온 이론적 증명 부분을 자세히 다루고자 한다. GAN의 비용함수는 다음과 같은 Minmax Problem이다. 이 비용함수가 잘 작동하는지 알아보기 위해서는 다음과 같은 질문 2개에 대해 답할 수 있어야 한다. 1. 과연 극값(최대/최소값)이 존재하는가? (최적화 과정과 밀접한 관련이 있음. 극값이 있으면 최적화가 쉬워짐.) 2. 최대/최소의 값이 존재하며 찾을 수 있는가? (극값이 존재하더라도 local minima에 빠질 수 있기 때문에) 1. 과연 극값(최대/최소값)이 존재하는가? GAN의 비..

    GAN(Generative Adversarial Networks) 개념 정리 - 1

    논문 : arxiv.org/abs/1406.2661 [NIPS 2014] 1. GAN이란? GAN(Generative Adversarial Networks)이란 말 그대로 '적대적 생성 모델'이라고 할 수 있다. Ian Goodfellow는 논문에서 지폐위조범과 경찰로 예를 들어 설명하고 있다. 이와 같이 GAN은 "이미지를 만들어 내는 생성자(Generator)와 이렇게 만들어진 녀석을 평가하는 판별자(Discriminator)가 서로 대립(Adversarial)하며 서로의 성능을 점차 개선해 나가는 모델"이다. - Generator : 임의의 설정된 정보(latent space)를 바탕으로 가상의 이미지를 만들어 내는 신경망 구조의 생성 시스템. - Discriminator : 입력된 이미지가 진짜 ..

    R-CNN(2013), Fast R-CNN(2015), Faster R-CNN(2015), Mask R-CNN(2017)

    1. Rich feature hierarchies for accurate object detection and semantic segmentation (2013) 2. Fast R-CNN (2015) 3. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (2015) 4. Mask R-CNN (2017) 1. R-CNN Architecture Region Proposal + Convolutional Neural Network (CNN) Object Detection에서 sliding window 방식은 비효율적이다. 이를 개선하기 위한 방법으로 입력 영상에서 ‘물체가 있을 법한’ 영역을 빠른 속도로 찾아내는 reg..

    CNN의 parameter 개수와 tensor 사이즈 계산

    더보기 https://seongkyun.github.io/study/2019/01/25/num_of_parameters/ 위 포스팅을 요약한 글이다. AlexNet의 구조 Input: 227*273*3 크기의 컬러 이미지. Conv-1: 11*11 크기의 커널 96개, stride=4, padding=0 MaxPool-1: stride 2, 3*3 max pooling layer Conv-2: 5*5 크기의 커널 256개, stride=1, padding=2 MaxPool-2: stride 2, 3*3 max pooling layer Conv-3: 3*3 크기의 커널 384개, stride=1, padding=1 Conv-4: 3*3 크기의 커널 384개, stride=1, padding=1 Conv-5..

    [CVPR 2020 Best Paper Award] Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild 논문 리뷰

    논문 : https://arxiv.org/pdf/1911.11130.pdf 발표 : https://www.youtube.com/watch?v=p3KB3eIQw24&t=27s 키워드 : Deformable 3D Objects 3D reconstruction에는 많은 supervision이 있지만 이것들을 만드는데는 비싼 비용이 든다는 단점이 있다. 따라서 본 논문에서는 다른 additional supervision 없이 오직 single view images만 가지고 학습시키고자 했다. Key idea는 좌우 대칭(bilateral symmetry)을 이용하는 것이다. 이를 위해 Photo-Geometric Autoencoding이란 framework를 만들었다. 0. Abstract 본 논문은 exter..