The Visionary Researcher

"Direct Prediction of 3D Body Poses from Motion Compensated Sequences"

2016 CVPR

author : Bugra Tekin et al.

논문 : Click


<Key Point>

1. 연속적인 Video에서 3D pose 추정

2. 기존 방법들 : 각 프레임마다 포즈 주정하고, 후처리과정으로 그들을 잇는다

3. 제안하는 방법 : bounding box의 spatial temporal volume으로부터 한번에 3D pose를 regression한다.

4. 연속적인 프레임에서 motion compensation을 수행한다.


<Introduction>

1. 3D pose estimation의 중요성, 흥미

- Depth 카메라를 이용해서 비디오에서 3D 정보를 얻는 방법은 쉽게 가능하지만, 뎁스카메라 없이 하는 것은 힘들지만 흥미로운 일이다.

2. 3D pose estimation의 최신 연구 동향

- Monocular 3D pose tracking(frame to frame tracking 포함) -> distraction과 occlusion때문에 힘듬[1]

- tracking by detection(연속 frame 말고, across the frame) -> 더 나음[2] [3]

- 효과적인 single frame 접근방법 -> 2D HOG features를 3D pose로 kernel embedding하여 regressor 학습하는 방법[4]

- Neural Net 이용한 방법[5]

3. 한계점

- 3D에서 2D로 projection하는 것에서 내제된 모호성(self occlusion, mirroring)은 여전히 힘들게 한다.

- 연속적인 프레임에서 호환이 되는 후보자를 선택하면서 문제가 있는 프레임을 제거하는 결과에 의해서 원인을 분석(귀납적)하는 방법인 연결정보를 이용함으로써 이러한 어느정도의 모호성을 바로세울 수 있다.

- 그러나 이러한 문제가 있는 프레임이 자주 발생할 때, 시간적인 일치성을 나중에 강조하는것은(귀납적으로 분석하는 것은) 충분하지 않다. 

 4. 제안하는 방법 소개

- 귀납적이 아닌 시작할때 모션 정보를 이용한다.

- spatio temporal volume으로부터 한번에 3D pose를 예측하고, regression을 학습한다.

- 이 volume은 연속적인 프레임에서 사람을 둘러싸고 있는 bounding box로 구성된다.

- 이 방법은 첫 추정치를 귀납적으로 분석하는 것보다 훨씬 효과적이라는 것을 말해준다.

- image volume에 spatio temporal feature[6][7]를 추출하여 Deep network를 적용한 것과 다른 regression 스킴을 비교한다.

- 사람이 volume에 중심이 되는 것이 필수적이라는 것을 보여준다.

- 2개의 CNN(1개는 연속적은 프레임 사이에서 몸이 움직이는 것을 예측해주는것, 다른 1개는 refine하는 것)을 학습한다.

- 이러한 motion compensation은 기존의 것을 능가하고, 3D human pose estimation의 accuracy를 증가시켜주는 것을 보여준다.
(Human3.6, HumanEva, KTH Multivuew Foot ball 3D human pose estimation benchmarks)

- 3D body pose에서 차별적인 태도를 예측하기 위해 appearance와 motion단서를 결합한다.

- 무엇이 motion compensation을 실용적이고 효과적으로 만드는지 증명한다.


<Related Works>

1. Single image에서 3D pose 추정

- generative model 




2. 비디오에서 3D pose 추정





<References>

[1] R. Urtasun, D. Fleet, A. Hertzman, and P. Fua. Priors for People Tracking from Small Training Sets. In ICCV, 2005.

[2] D. Ramanan, A. Forsyth, and A. Zisserman. Strike a Pose: Tracking People by Finding Stylized Poses. In CVPR, 2005.

[3] M. Andriluka, S. Roth, and B. Schiele. Monocular 3D Pose Estimation and Tracking by Detection. In CVPR, 2010.

[4] C. Ionescu, I. Papava, V. Olaru, and C. Sminchisescu. Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments. PAMI, 2014.

[5] S. Li and A. B. Chan. 3D Human Pose Estimation from Monocular Images with Deep Convolutional Network. In ACCV, 2014.

[6] A. Kl¨aser, M. Marszałek, and C. Schmid. A Spatio-Temporal Descriptor Based on 3D-Gradients. In BMVC, 2008.

[7] D.Weinland, M. Ozuysal, and P. Fua. Making Action Recognition Robust to Occlusions and Viewpoint Changes. In ECCV, 2010.


Comment 0