Frontier · World Model

项目13：世界模型与 World Action Model 实验

训练一个小型 latent dynamics model，让机器人在执行前预测未来状态、动作后果和失败风险。

项目概述

前沿具身智能正在从 VLA 走向“世界模型 + 动作生成”的结合：模型不仅输出动作，还预测动作会让世界如何变化。本项目让学习者实现最小 World Action Model：输入当前观测和候选动作，预测未来图像/状态/奖励/碰撞风险。

项目目标

构建 latent encoder、dynamics predictor、reward/success head。
实现 model predictive control：采样候选动作，选择预测成功率最高的轨迹。
对比无世界模型策略、纯 BC 策略和 WAM-guided 策略。

项目结构与运行命令

world_model_wam/
├── models/encoder.py
├── models/dynamics.py
├── scripts/train_world_model.py
├── scripts/plan_with_wam.py
├── eval/rollout_metrics.py
└── reports/world_model_report.md

python scripts/train_world_model.py --dataset datasets/push_block
python scripts/plan_with_wam.py --checkpoint runs/world_model.pt --horizon 8

实验任务

用二维 pushing 或 tabletop manipulation 数据训练未来状态预测。
可视化预测帧与真实帧差异，定位模型不懂的物理现象。
加入候选动作采样，做短视野 MPC。
测试遮挡、碰撞、滑动摩擦变化下的预测稳定性。

实验结果、性能评估与可视化

指标	目标	说明
State Prediction Error	持续下降	未来状态误差
Action Plausibility	>80%	动作是否物理合理
Planning Success	高于 BC baseline	世界模型是否提升决策
OOD Failure Recall	>70%	能否预测危险/失败

可视化：真实 vs 预测 rollout、latent t-SNE、候选动作树、失败风险热力图。

交付清单、Troubleshooting 与扩展

训练脚本、预测可视化、MPC demo、指标报告、失败案例库。
Troubleshooting：预测模糊看 latent bottleneck；长期漂移看 horizon；动作不可行看动作采样边界；碰撞预测差看负样本覆盖。
扩展挑战：接入 VLA，把 WAM 作为动作候选的安全评估器。