[논문 읽기] Camera View Adjustment Prediction for Improving Image Composition

2023. 7. 1. 05:19배움엔 끝이없다/머신러닝

논문 제목 : Camera View Adjustment Prediction for Improving Image Composition

저자 : Yu-Chuan Su, Raviteja Vemulapalli, Ben Weiss, Chun-Te Chu, Philip Andrew Mansfield, Lior Shapira, Colvin Pitts

arxiv 등록일 : 2021/04/15

링크 : https://arxiv.org/abs/2104.07608

요약

구도 가이드 모델을 만들었음.

구도가 잘 찍힌 사진 데이터를 왼쪽으로 10% 움직인 후,

움직인 사진을 input으로 하고 [오른쪽으로 10%]를 output으로 하는 데이터를 만듬

 

만든 것

구도 평가 모델

수도 라벨링을 위해서 구도 평가모델을 제작함

MobileNet 기반 CNN 모델로, 이미지를 input으로 받아 점수를 output으로 냄

구도 가이드 모델

input으로 이미지를 받고, output으로 [조정이 필요한지, 조정 방법, 조정 강도]를 냄

조정 방법: 상하좌우 이동, 시계/반시계 회전, 줌 인/아웃

 역시 MobileNet 기반 CNN 모델 

 

데이터 셋

크롭 데이터 셋을 많이 활용함

크롭 데이터 셋 (FCDB, GAICD, CPC), 사진작가의 사진 데이터 (Unsplash, OpenImages)를 사용함

추가로 구도 평가 모델에는 AVA 데이터셋을 사용함

 

학습 과정

Pairwise ranking loss를 사용함

두 이미지 중 positive image의 점수는 높게, negative image의 점수는 낮게 해주는 loss 함수임

이 loss 함수를 쓰기 위해 [positive image, negative image]의 pair 형태로 데이터를 만듬

 

구도 평가 모델

다양한 포맷의 데이터를 활용해 이미지 pair 데이터를 만듬

- Scored crop data: N개 크롭들의 score가 나와있으므로, 모두 연결해 N(N-1)/2개 pair를 만듬

- Best crop data: Best 크롭과 랜덤 크롭 K개를 이용해 K개 pair를 만듬

- Unlabeled data: 사진이 구도적으로 아름답다는 가정을 하고, 사진을 여러가지로 transform 해 negative image로 가정, P개 pair를 만듬

 

구도 가이드 모델

위 구도 평가 모델을 활용해, unlabeled 데이터를 수도 라벨링 함

한 이미지를 여러 방법으로 transform 해, 구도 평가 모델에 넣어보고 최고점을 받은 이미지가 원본보다 0.2 이상 높으면 데이터로 채택함

그렇지 않으면 조정이 필요 없다고 라벨링 함

 

결론

베이스라인 모델로 잡은 Pano2Vid 에 비해 주관적 심사 결과가 아주 조금 좋은 성능을 보여줌 (80%가 조정이 도움이 됐다고 응답)

 

 

반응형