본문 바로가기

개발

[Pose estimation] Yolo VS Mediapipe

원래는 mediapipe만 잡고 수화 인식을 진행해보려고 했는데, 다른 프로젝트를 하는 중, yolo에서도 pose estimation model이 있다는 것을 찾게되었다.

 

한국어 문서로는 두 가지를 비교하는 글들이 많이 없는 것 같아 정리

https://learnopencv.com/yolov7-pose-vs-mediapipe-in-human-pose-estimation/

 

YOLOv7 Pose vs MediaPipe in Human Pose Estimation

YOLOv7 Pose is a real time, multi person keypoint detection model capable of giving highly accurate pose estimation results. We compared it with MediaPipe Pose.

learnopencv.com

-> 해당 링크를 참고하였다.

 

Mediapipe

많은 컴퓨팅 자원 없이 CPU로도 real time 으로 pose estimation가능

33개의 랜드마크 존재

blaze pose 이용해서 pose estimation수행, 33개의 landmarks 각 위치마다 x, y, z의 3차원 좌표값과 visibility 가시성 정보까지 받을 수 있

YOLOv7

COCO dataset으로 학습, 17개의 랜드마크 활용

사전훈련된 모델 volov7-w6-pose.pth 모델 존재

사람을 바운딩 박스로 인식 후, 그 안에서 관절 좌표를 인식하기에 여러 사람 인식이 가능하다 

 

multi-person detection 여부, cpu gpu 사용 여부에 따라 정하면 되는 듯 하다.

위에 있는 해당 링크에 yolov7 , mediapipe를 가지고 이것저것 실험한 영상이 많이 있다.

 

mediapipe는 point는 많으나, 어려운 포즈나, 포즈가 옷이나 다른 걸로 인해 가려질때는 yolov7이 성능이 좋은 듯