PhysHSI: Towards a Real-World Generalizable and Natural Humanoid-Scene Interaction System
์ ์: Huayi Wang, Wentao Zhang, Runyi Yu, Tao Huang, Junli Ren, Feiyu Jia, Zirui Wang, Xiaojie Niu, Xiao Chen, Jiahe Chen, Qifeng Chen, Jingbo Wang, Jiangmiao Pang | ๋ ์ง: 2025-10-13 | DOI: 10.48550/arXiv.2510.11072 📄 PDF
Essence
Fig. 2: Overview of PhysHSI. (a) Dataset Preparation: Human motions from a MoCap dataset are retargeted to humanoid moti
PhysHSI๋ humanoid ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ๋ฌผ์ฒด ์ด๋ฐ, ์๊ธฐ, ๋์ฐ๊ธฐ ๋ฑ ๋ค์ํ ์ํธ์์ฉ์ ์์ฐ์ค๋ฝ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ๊ฒ ์ํํ ์ ์๋๋ก ํ๋ ํตํฉ ์์คํ
์ผ๋ก, simulation ๊ธฐ๋ฐ AMP ์ ์ฑ
ํ์ต๊ณผ ์ค์๊ฐ LiDAR-camera ๊ธฐ๋ฐ ๊ฐ์ฒด ์ธ์ ๋ชจ๋์ ๊ฒฐํฉํ๋ค.
Motivation
- Known: Humanoid ๋ก๋ด์ ๊ฐ๋ณ ๋ฅ๋ ฅ(๋์ ์์ฑ, ๋ฌผ์ฒด ์ธ์)์ ๊ฐ๊ฐ ๋ฐ์ ํ์ผ๋, ์ด๋ค์ ํตํฉํ์ฌ ์์ฐ์ค๋ฝ๊ณ ์ผ๋ฐํ๋ ์ค์ธ๊ณ ์ํธ์์ฉ์ ๊ตฌํํ๋ ์์ ํ ์์คํ
์ ๋ถ์ฌํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ MoCap ๊ธฐ๋ฐ ์ ๊ทผ์ด simulation์๋ง ๊ตญํ๋๊ณ perfect scene observation์ ๊ฐ์ ํ๋ฉฐ, RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์์์
reward shaping์ด ํ์ํ๊ณ , ์ค์ธ๊ณ robust ๊ฐ์ฒด ์ธ์๊ณผ natural motion์ ๋์์ ๋ฌ์ฑํ์ง ๋ชปํ๋ค.
- Why: ์ค์ ํ๊ฒฝ์์ humanoid ๋ก๋ด์ ์ค์ฉ์ ๋ฐฐํฌ๋ ์์ฐ์ค๋ฌ์ด ๋์, ๋ค์ํ ์๋๋ฆฌ์ค ์ ์, ๊ทธ๋ฆฌ๊ณ ๊ฒฌ๊ณ ํ scene perception์ ๋ชจ๋ ๋ง์กฑํด์ผ ํ๋ฉฐ, ์ด๋ ๊ฐ์ ์ฉยท์ฐ์
์ฉ ๋ก๋ด ์๋ํ์ ํต์ฌ ๊ณผ์ ์ด๋ค.
- Approach: Simulation์์ AMP ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต์ผ๋ก retargeted MoCap ๋ฐ์ดํฐ๋ก๋ถํฐ naturalํ๊ณ generalizableํ policy๋ฅผ ํ์ตํ๊ณ , ์ค์ธ๊ณ ๋ฐฐํฌ์์๋ LiDAR odometry์ camera-based AprilTag detection์ ๊ฒฐํฉํ coarse-to-fine localization ๋ชจ๋๋ก robust scene perception์ ์ ๊ณตํ๋ค.
Achievement
Fig. 1: Our system PhysHSI enables humanoid robots to perform diverse real-world interactions indoors and outdoors with
- ํตํฉ ์ค์ธ๊ณ ์์คํ
: AMP ๊ธฐ๋ฐ simulation ํ์ต๊ณผ LiDAR-camera ๊ธฐ๋ฐ ์ธ์์ ํตํฉํ์ฌ ์ค์ Unitree G1 ๋ก๋ด์์ box carrying, sitting, lying, standing up ๋ฑ 4๊ฐ์ง ์ฃผ์ ์์
์ฑ๊ณต
- ์์ฐ์ค๋ฌ์ด ๋์: Adversarial motion prior์ ํ์ฉํ์ฌ human MoCap ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ lifelike behavior๋ฅผ ๋ฌ์ฑํ๋ฉฐ, stylized locomotion ํ์ต๋ ๊ฐ๋ฅ
- ๊ฐํ ์ผ๋ฐํ ์ฑ๋ฅ: ๋ค์ํ object goal, scene layout, ํ๊ฒฝ์์ ์ผ๊ด๋๊ฒ ๋์ success rate ์ ์ง ๋ฐ ๊ณต๊ฐ/์ค์ธ๊ณ ์ผ๋ฐํ ๊ฒ์ฆ
- Robust ๊ฐ์ฒด ์ธ์: Coarse (LiDAR odometry) + Fine (camera AprilTag) ๋ฐฉ์์ผ๋ก long-horizon task ์ค ๊ฐ์ฒด ์์ผ ๋ฒ์ด๋จ ์ํฉ ์ฒ๋ฆฌ ๋ฐ ์ ๋ฐ ์์น ์ถ์
How
Fig. 2: Overview of PhysHSI. (a) Dataset Preparation: Human motions from a MoCap dataset are retargeted to humanoid moti
- Data Preparation: AMASS/SAMP ๋ฐ์ดํฐ์
์ human motion์ ์ต์ ํ ๊ธฐ๋ฐ retargeting์ผ๋ก humanoid ๋์์ผ๋ก ๋ณํํ๊ณ , manual annotation์ ํตํด key contact frame๊ณผ ๊ฐ์ฒด ๊ถค์ ์ ๋ณด๋ฅผ augment
- AMP ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต: Discriminator๊ฐ reference motion๊ณผ policy ์์ฑ motion์ ๊ตฌ๋ณํ๋๋ก adversarial trainingํ์ฌ natural style ์ ์งํ๋ฉด์ task completion ๋ฌ์ฑ, stage conditioning (ฯ1 pickup, ฯ2 placement)์ผ๋ก multi-phase task ์ง์
- Coarse-to-Fine Localization: LiDAR odometry (10Hz)๋ก object๊ฐ camera FOV ๋ฐ์ผ ๋ long-range directional cue ์ ๊ณต, FOV ๋ด ์ง์
์ AprilTag detection (30Hz) + odometry ์ตํฉ์ผ๋ก precise pose ์ถ์
- Multi-Frequency Control Pipeline: LiDAR odometry (10Hz) โ Forward Kinematic (25Hz) โ Policy inference (50Hz) โ PD Controller (500Hz)์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ์ค์๊ฐ ์คํ
- Diverse Simulation Environment: ๋ค์ํ object size, shape, scene layout์ผ๋ก ํ์ตํ์ฌ real-world generalization ํฅ์
Originality
- ์ค์ธ๊ณ AMP ์ ์ฉ์ ์ ๋ก: Existing AMP ๋ฐฉ๋ฒ๋ค์ด simulation์ ๊ตญํ๋๊ฑฐ๋ ๊ธฐ๋ณธ locomotion์๋ง ์ฌ์ฉ๋ ๋ฐ๋ฉด, ๋ณธ ๋
ผ๋ฌธ์ complex object interaction (carrying, sitting, lying)๊น์ง ํ์ฅํ ์ฒซ real-world AMP ์์คํ
- Coarse-to-Fine ์ธ์ ์ค๊ณ: LiDAR odometry์ camera vision์ ๋ช
์์ ์ผ๋ก ๋ณด์ํ๋ hybrid localization์ผ๋ก long-horizon task ์ค ๊ฐ์ฒด occlusion ๊ทน๋ณต
- Post-Annotation ์ ๋ต: Retargeted motion์ ์ฌํ์ ์ผ๋ก ๊ฐ์ฒด ์ ๋ณด๋ฅผ annotationํ๋ ๋ฐฉ์์ผ๋ก physically plausible humanoid-object interaction ๋ฐ์ดํฐ ์์ฑ์ ์ค์ง์ ํด๊ฒฐ์ฑ
์ ์
- ํฌ๊ด์ ์ค์ธ๊ณ ๊ฒ์ฆ: Spatial generalization, real-world scenario generalization, localization accuracy ๋ถ์ ๋ฑ ๋ค์ธต์ ํ๊ฐ๋ฅผ ํตํ system-level ๊ฒ์ฆ
Limitation & Further Study
- ์์์
annotation ํ์: Contact frame๊ณผ ๊ฐ์ฒด ๊ถค์ ์ manualํ๊ฒ annotateํด์ผ ํ๋ฏ๋ก ๋ฐ์ดํฐ ํ์ฅ์ฑ ๋ฐ ์๋ํ ์์ค์ด ์ ํ๋จ
- AprilTag ์์กด์ฑ: Fine localization์ด AprilTag ๊ธฐ๋ฐ์ด๋ฏ๋ก ํ๊ฒฝ์ ์ฌ์ ์ marker ์ค์น ํ์ํ๋ฉฐ, ์ผ๋ฐ์ ์ธ real-world object์ ๋ํ generalization ๋ฏธํก
- Task ์์ญ ์ ํ: Box carrying, sitting, lying, standing up 4๊ฐ์ง task๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ณต์กํ ์กฐ์(opening drawers, assembling) ๋ฑ์ผ๋ก์ ํ์ฅ ๋ฏธ์ ์
- Perception ๋ฒ์: ์นด๋ฉ๋ผ FOV์ LiDAR ๊ฐ์ ๋ฒ์์ ์ ์ฝ์ผ๋ก ๋งค์ฐ ๋์ ์ค๋ด/์ค์ธ ํ๊ฒฝ์์์ ๋๊ท๋ชจ navigation์ด ์ ํ๋ ์ ์์
- ํ์ ์ฐ๊ตฌ: (1) Self-supervised ๋๋ semi-automatic annotation ๊ธฐ๋ฒ์ผ๋ก ๋ฐ์ดํฐ ํ์ฅ, (2) Vision-based object detection/tracking์ผ๋ก marker-free ์ธ์ ํ๋, (3) ๋ ๋ค์ํ interaction task ๋ฒ์ ํ์ฅ, (4) Sim-to-Real ๋๋ฉ์ธ ๊ฐญ ์ ๋์ ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: PhysHSI๋ AMP ๊ธฐ๋ฐ motion learning๊ณผ hybrid sensor fusion์ ํตํฉํ์ฌ humanoid์ ์ค์ธ๊ณ scene interaction์ ์ฒ์ ์คํํ high-impact system์ผ๋ก, ์์ฐ์ค๋ฌ์ด ๋์๊ณผ robust generalization์ ๋์์ ๋ฌ์ฑํ์ผ๋, annotation ์๋ํ์ marker-free perception ํ๋๊ฐ ์ค์ฉ ๋ฐฐํฌ์ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์