2023. 7. 1. 05:19ㆍ배움엔 끝이없다/머신러닝
논문 제목 : Camera View Adjustment Prediction for Improving Image Composition
저자 : Yu-Chuan Su, Raviteja Vemulapalli, Ben Weiss, Chun-Te Chu, Philip Andrew Mansfield, Lior Shapira, Colvin Pitts
arxiv 등록일 : 2021/04/15
링크 : https://arxiv.org/abs/2104.07608
요약
구도 가이드 모델을 만들었음.
구도가 잘 찍힌 사진 데이터를 왼쪽으로 10% 움직인 후,
움직인 사진을 input으로 하고 [오른쪽으로 10%]를 output으로 하는 데이터를 만듬
만든 것
구도 평가 모델
수도 라벨링을 위해서 구도 평가모델을 제작함
MobileNet 기반 CNN 모델로, 이미지를 input으로 받아 점수를 output으로 냄
구도 가이드 모델
input으로 이미지를 받고, output으로 [조정이 필요한지, 조정 방법, 조정 강도]를 냄
조정 방법: 상하좌우 이동, 시계/반시계 회전, 줌 인/아웃
역시 MobileNet 기반 CNN 모델
데이터 셋
크롭 데이터 셋을 많이 활용함
크롭 데이터 셋 (FCDB, GAICD, CPC), 사진작가의 사진 데이터 (Unsplash, OpenImages)를 사용함
추가로 구도 평가 모델에는 AVA 데이터셋을 사용함
학습 과정
Pairwise ranking loss를 사용함
두 이미지 중 positive image의 점수는 높게, negative image의 점수는 낮게 해주는 loss 함수임
이 loss 함수를 쓰기 위해 [positive image, negative image]의 pair 형태로 데이터를 만듬
구도 평가 모델
다양한 포맷의 데이터를 활용해 이미지 pair 데이터를 만듬
- Scored crop data: N개 크롭들의 score가 나와있으므로, 모두 연결해 N(N-1)/2개 pair를 만듬
- Best crop data: Best 크롭과 랜덤 크롭 K개를 이용해 K개 pair를 만듬
- Unlabeled data: 사진이 구도적으로 아름답다는 가정을 하고, 사진을 여러가지로 transform 해 negative image로 가정, P개 pair를 만듬
구도 가이드 모델
위 구도 평가 모델을 활용해, unlabeled 데이터를 수도 라벨링 함
한 이미지를 여러 방법으로 transform 해, 구도 평가 모델에 넣어보고 최고점을 받은 이미지가 원본보다 0.2 이상 높으면 데이터로 채택함
그렇지 않으면 조정이 필요 없다고 라벨링 함
결론
베이스라인 모델로 잡은 Pano2Vid 에 비해 주관적 심사 결과가 아주 조금 좋은 성능을 보여줌 (80%가 조정이 도움이 됐다고 응답)
'배움엔 끝이없다 > 머신러닝' 카테고리의 다른 글
[논문 읽기] Where and Who? Automatic Semantic-Aware Person Composition (0) | 2023.08.28 |
---|---|
[논문 읽기] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications (0) | 2023.07.20 |
인공지능 관련 용어정리 (0) | 2021.10.22 |
머신러닝 배워보자 (2) Decision Tree (Rule Based Learning) (0) | 2021.02.08 |
머신러닝 배워보자 (1) MLE와 MAP (0) | 2021.02.04 |