面向接触丰富操作任务的触觉-语言-动作(TLA)模型
Date:
针对接触丰富操作任务中触觉感知与语言指令协同建模的挑战,我们提出触觉-语言-动作模型(TLA),通过跨模态对齐机制将时序触觉反馈与语言指令动态融合,实现精密装配等场景的鲁棒策略生成。研究构建了包含24k触觉-动作指令对的指尖钉孔装配数据集,并设计多模态编码器联合优化触觉、语言与动作表征,同时引入触觉特征补偿机制提升动态接触的鲁棒性。实验表明,TLA在有效动作生成率和操作精度上分别较传统模仿学习方法(如扩散策略)提升32%和27%,对未见过的装配间隙与钉形状的泛化成功率超过85%。该工作突破了现有视觉-语言模型在接触物理推理中的局限性,为工业精密装配、医疗机器人等需高精度触觉交互的场景提供了新范式。