VLA Model Architecture
视觉-语言-动作 (Vision-Language-Action) 模型架构文档集合
Pi0
Pi0 是 Physical Intelligence 提出的视觉-语言-动作 (VLA) 模型,采用 PaliGemma (SigLIP + Gemma 2B) 作为视觉语言主干网络,配合独立的 Gemma 300M Action Expert 进行动作生成。其核心创新在于 双流 Transformer 注意力机制——VLM 前缀序列与动作专家后缀序列共享同一组 Tran...
Pi0.5
Pi0.5 (Physical Intelligence 0.5) 是 Physical Intelligence 推出的视觉-语言-动作 (VLA) 模型,在架构上与 Pi0 几乎完全相同,均采用 PaliGemma 视觉语言模型作为感知主干、Gemma 300M 作为动作专家 (Action Expert),通过双流 Transformer 实现视觉语言特征与动作特征的联合处理,并使用 Flo...
Pi0-FAST
Pi0-FAST (Fast Action Sequence Tokenizer) 是 Physical Intelligence 提出的一种高效视觉-语言-动作 (VLA) 模型。与 Pi0 使用 Flow Matching 扩散生成连续动作不同,Pi0-FAST 将连续动作离散化为 token,然后通过 PaliGemma 视觉语言模型进行 自回归 next-token 预测。...
ACT
ACT (Action Chunking Transformer) 是一种基于 Transformer 编码器-解码器结构的机器人操作策略模型,出自论文 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (Zhao et al., 2023)。其核心思想是 动作分块 (Action Chunking):...
SmolVLA
SmolVLA (Small Vision-Language-Action) 是由 Hugging Face 设计的轻量级视觉-语言-动作 (VLA) 模型,采用 SmolVLM2-500M-Video-Instruct 作为视觉语言主干网络,并引入独立的 Action Expert 网络通过交叉注意力机制从 VLM 中提取特征来生成机器人动作。SmolVLA 使用 Flow ...
WALL-OSS / WALL-X
WALL-OSS (WALL-X) 是一个跨具身的 视觉-语言-动作 (VLA) 模型,以 Qwen2.5-VL + 混合专家 (MoE) 作为视觉语言骨干网络,结合 Flow Matching 动作头 进行机器人连续动作预测。与 GR00T N1.5 等模型不同,WALL-X 采用当前最强的 VLM (Qwen2.5-VL) 作为骨干,通过 3D RoPE 位置编码对图像...
X-VLA
X-VLA (Extended Vision-Language-Action) 是一个基于扩散的跨具身视觉-语言-动作模型,将 Florence2 视觉语言模型作为感知主干网络,配合软提示 Transformer (SoftPromptedTransformer) 动作头进行机器人动作预测。其核心设计思路为:Florence2 的 Vision Tower 和 BART 编码器提取多模态特征(...