Frontier · World Model

项目13:世界模型与 World Action Model 实验

训练一个小型 latent dynamics model,让机器人在执行前预测未来状态、动作后果和失败风险。

项目概述

前沿具身智能正在从 VLA 走向“世界模型 + 动作生成”的结合:模型不仅输出动作,还预测动作会让世界如何变化。本项目让学习者实现最小 World Action Model:输入当前观测和候选动作,预测未来图像/状态/奖励/碰撞风险。

项目目标

  • 构建 latent encoder、dynamics predictor、reward/success head。
  • 实现 model predictive control:采样候选动作,选择预测成功率最高的轨迹。
  • 对比无世界模型策略、纯 BC 策略和 WAM-guided 策略。

项目结构与运行命令

world_model_wam/
├── models/encoder.py
├── models/dynamics.py
├── scripts/train_world_model.py
├── scripts/plan_with_wam.py
├── eval/rollout_metrics.py
└── reports/world_model_report.md

python scripts/train_world_model.py --dataset datasets/push_block
python scripts/plan_with_wam.py --checkpoint runs/world_model.pt --horizon 8

实验任务

  1. 用二维 pushing 或 tabletop manipulation 数据训练未来状态预测。
  2. 可视化预测帧与真实帧差异,定位模型不懂的物理现象。
  3. 加入候选动作采样,做短视野 MPC。
  4. 测试遮挡、碰撞、滑动摩擦变化下的预测稳定性。

实验结果、性能评估与可视化

指标目标说明
State Prediction Error持续下降未来状态误差
Action Plausibility>80%动作是否物理合理
Planning Success高于 BC baseline世界模型是否提升决策
OOD Failure Recall>70%能否预测危险/失败

可视化:真实 vs 预测 rollout、latent t-SNE、候选动作树、失败风险热力图。

交付清单、Troubleshooting 与扩展

推荐论文和开源项目

Dreamer、PlaNet、Genie/Cosmos 类世界模型、World Action Models、Robotics diffusion/world model planning。