胡洁教授、戚进副研究员团队利用多模态大模型为人机协作提出创新性解决方法
发布时间:2025-04-07   阅读:35

机电设计与知识工程研究所胡洁教授和戚进副研究员利用大语言模型和少样本学习,提出了人机协作中意图识别的创新性解决思路。该团队近日在Journal of Manufacturing Systems上发表了题为“H2R Bridge: Transferring vision-language models to few-shot intention meta-perception in human robot collaboration”的研究论文,为推进工业智能化中的人机语义协同提供了重要技术支撑。博士生武对娣为第一作者,胡洁教授、戚进副研究员、香港理工大学郑湃教授为共同通讯作者。


微信图片_20250407213753.png


在工业4.0与5.0背景下,人机协作(HRC)成为现代制造系统智能化转型的关键。意图识别作为人机协作的核心环节,现有的方法普遍依赖特定场景的大量标注数据,缺乏对新任务与未见类别的泛化能力,难以应对实际工业环境中“数据稀缺”的挑战。


研究提出了一种新的视觉-语言-时间(Visual-Language-Temporal)多模态方法,基于GPT2语言编码器和CLIP视觉编码器构建,包含四个关键步骤。结合工业场景提示,利用大模型的先验知识,并通过微调赋予其工业和机械装配领域的专业能力。在下游任务中,引入语言作为监督信号,利用少样本学习实现知识的高效迁移与泛化,实现跨域意图的“元感知”。 


胡洁2.png


在多机械工具、多相机视角、多交互方式的人机交互数据集上的实验表明,该方法在意图识别准确性和模型泛化能力方面均优于现有方法。在与香港理工大学联合开展的少样本实验中,在每类仅有5个样本的条件下,模型在工业任务中仍可达到92%的准确率,展现出显著的样本学习效率。通过3种大型语言模型将感知动作解码映射为语义指令,为语言条件策略奠定基础。


胡洁3.png


该研究实现了从动作感知到语义意图的高效转换,在人机交互中构建了“Human-to-Robot”的语义桥梁(H2R Bridge),为实现语言条件策略学习、主动交互与低成本任务迁移奠定了坚实基础,并为大型多模态模型在智能制造领域的应用迈出了关键一步。


论文链接:https://doi.org/10.1016/j.jmsy.2025.03.016





供稿:机电设计与知识工程研究所