VLA Model Architecture

视觉-语言-动作 (Vision-Language-Action) 模型架构文档集合

Pi0

Pi0 是 Physical Intelligence 提出的视觉-语言-动作 (VLA) 模型，采用 PaliGemma (SigLIP + Gemma 2B) 作为视觉语言主干网络，配合独立的 Gemma 300M Action Expert 进行动作生成。其核心创新在于双流 Transformer 注意力机制——VLM 前缀序列与动作专家后缀序列共享同一组 Tran...

Pi0.5 (Physical Intelligence 0.5) 是 Physical Intelligence 推出的视觉-语言-动作 (VLA) 模型，在架构上与 Pi0 几乎完全相同，均采用 PaliGemma 视觉语言模型作为感知主干、Gemma 300M 作为动作专家 (Action Expert)，通过双流 Transformer 实现视觉语言特征与动作特征的联合处理，并使用 Flo...

Pi0-FAST

Pi0-FAST (Fast Action Sequence Tokenizer) 是 Physical Intelligence 提出的一种高效视觉-语言-动作 (VLA) 模型。与 Pi0 使用 Flow Matching 扩散生成连续动作不同，Pi0-FAST 将连续动作离散化为 token，然后通过 PaliGemma 视觉语言模型进行自回归 next-token 预测。...

ACT

ACT (Action Chunking Transformer) 是一种基于 Transformer 编码器-解码器结构的机器人操作策略模型，出自论文 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (Zhao et al., 2023)。其核心思想是动作分块 (Action Chunking)：...

SmolVLA

SmolVLA (Small Vision-Language-Action) 是由 Hugging Face 设计的轻量级视觉-语言-动作 (VLA) 模型，采用 SmolVLM2-500M-Video-Instruct 作为视觉语言主干网络，并引入独立的 Action Expert 网络通过交叉注意力机制从 VLM 中提取特征来生成机器人动作。SmolVLA 使用 Flow ...

WALL-OSS / WALL-X

WALL-OSS (WALL-X) 是一个跨具身的视觉-语言-动作 (VLA) 模型，以 Qwen2.5-VL + 混合专家 (MoE) 作为视觉语言骨干网络，结合 Flow Matching 动作头进行机器人连续动作预测。与 GR00T N1.5 等模型不同，WALL-X 采用当前最强的 VLM (Qwen2.5-VL) 作为骨干，通过 3D RoPE 位置编码对图像...

X-VLA

X-VLA (Extended Vision-Language-Action) 是一个基于扩散的跨具身视觉-语言-动作模型，将 Florence2 视觉语言模型作为感知主干网络，配合软提示 Transformer (SoftPromptedTransformer) 动作头进行机器人动作预测。其核心设计思路为：Florence2 的 Vision Tower 和 BART 编码器提取多模态特征（...

DreamZero

DreamZero 是一个世界动作模型 (World Action Model, WAM)，通过联合预测未来视频帧与机器人动作序列，实现对未见任务的零样本泛化。其核心创新在于：基于 Wan2.1 视频扩散模型构建 Causal WAN DiT，以 Flow Matching 框架在视频 latent 空间和动作空间上同步去噪，配合多机器人体 Category-specific MLP 支持...