[논문 읽기] Where and Who? Automatic Semantic-Aware Person Composition

2023. 8. 28. 14:27배움엔 끝이없다/머신러닝

논문 제목 : Where and Who? Automatic Semantic-Aware Person Composition

저자 : Fuwen Tan, Crispin Bernier, Benjamin Cohen, Vicente Ordonez, Connelly Barnes

arxiv 등록일 : 2017/06/04

 

요약

이미지 합성을 할 때 배경 이미지가 들어오면, 여러개의 foreground segments로 부터 가장 적절한 사람 사진을 골라 합성해주는 모델을 개발함.

 

만든 것

Bounding box prediction

2-branch CNN 모델기반으로, potential segment의 bounding box를 알아냄 

Person segment retrieval

사람 segment pool에서, local context와 global scene을 모두 고려해 가장 적절한 사람을 고르고, Alpha matting (foreground만 잘라오기)를 이용해 정해진 위치에 합성함

 

데이터 셋

MS-COCO (segments 데이터)

 

학습 과정

Bounding box prediction

1. 이미지에서 사람을 inpainting으로 지우고, 원래 있던 bounding box를 데이터로 학습시킴
2. inpainting은 포토샵에서 쓰고있는 방식을 씀 
3. 그 후 articfact를 지우기 위해 가우시안 3.2 블러를 씀
4. Faster RCNN object detector의 결과물 (핵심 오브젝트들의 바운딩 박스)를 빈 이미지에 다른 색상으로 렌더링한 이미지를 함께 concat 해 인풋으로 사용 
5. image를 normalize할 때 resolution을 유지하기위해 padding 사용 (색상은 평균 색상)
6. 연속된 값을 이산화 하기 위해 box의 위치를 15*15 grid에서 선택하게 했고, w,h도 15*15 grid에서 고르게 함 = 15*15 classification이 됨
7. 위치 / 크기 브랜치로 중간에 나뉨. 위치를 먼저 하고 크기를 위치를 기반으로 도출함

Person segment retrieval

1. 이미지에서 global scene semantic 피쳐를 뽑아냄 (ResNet50의 mean pooling output 사용)
2. 각각의 사람 사진의 background에서 피쳐를 뽑아내서 거리를 잼
3. 바운딩박스의 2배 크기인 박스를 또 잘라서, 이걸 local patch로 사용, 이 이미지에서 똑같이 피쳐를 뽑아냄

4-1. 바운딩 박스 크기가 많이 다른것 거름 (40%이하)
4-2. global과 local 피쳐를 concat 한다음 가장 코사인 거리가 가까운 것 건택
4-3. 이 과정을 빠르게 하기 위해 kd-tree 구조를 만듬

 

결론

이 방법을 사용해 합성한 사진이 약 44~51% 정도 진짜 사진으로 인식됐고,

실루엣만 합성한 경우 56~74%까지 그럴싸하다고 인식했다.

반응형