원래는 mediapipe만 잡고 수화 인식을 진행해보려고 했는데, 다른 프로젝트를 하는 중, yolo에서도 pose estimation model이 있다는 것을 찾게되었다.
한국어 문서로는 두 가지를 비교하는 글들이 많이 없는 것 같아 정리
https://learnopencv.com/yolov7-pose-vs-mediapipe-in-human-pose-estimation/
-> 해당 링크를 참고하였다.
Mediapipe
많은 컴퓨팅 자원 없이 CPU로도 real time 으로 pose estimation가능
33개의 랜드마크 존재
blaze pose 이용해서 pose estimation수행, 33개의 landmarks 각 위치마다 x, y, z의 3차원 좌표값과 visibility 가시성 정보까지 받을 수 있
YOLOv7
COCO dataset으로 학습, 17개의 랜드마크 활용
사전훈련된 모델 volov7-w6-pose.pth 모델 존재
사람을 바운딩 박스로 인식 후, 그 안에서 관절 좌표를 인식하기에 여러 사람 인식이 가능하다
multi-person detection 여부, cpu gpu 사용 여부에 따라 정하면 되는 듯 하다.
위에 있는 해당 링크에 yolov7 , mediapipe를 가지고 이것저것 실험한 영상이 많이 있다.
mediapipe는 point는 많으나, 어려운 포즈나, 포즈가 옷이나 다른 걸로 인해 가려질때는 yolov7이 성능이 좋은 듯
'개발' 카테고리의 다른 글
[자연어처리] QLoRA (0) | 2024.05.02 |
---|---|
[Linux] 오래된 컴퓨터에서 wifi 5ghz 연결 (0) | 2024.04.14 |
인식 안되는 USB 포맷 / 안 쓰는 컴퓨터에 리눅스 깔기 (0) | 2024.04.13 |
WSL 저장공간 관리 (0) | 2024.03.31 |
zip.part ~ 로 이루어진 파일 병합하기 (0) | 2024.03.31 |