• CN:11-2187/TH
  • ISSN:0577-6686

机械工程学报 ›› 2019, Vol. 55 ›› Issue (5): 36-44.doi: 10.3901/JME.2019.05.036

• 机构学及机器人 • 上一篇    下一篇

基于增强学习的六足机器人自由步态规划

李满宏, 张明路, 张建华, 田颖, 马艳悦   

  1. 河北工业大学机械工程学院 天津 300130
  • 收稿日期:2018-05-11 修回日期:2018-12-28 出版日期:2019-03-05 发布日期:2019-03-05
  • 通讯作者: 田颖(通信作者),女,1987年出生,博士,讲师。主要研究方向为机器人动力学与运动控制。E-mail:flyserelo@126.com.cn
  • 作者简介:李满宏,男,1987年出生,博士,讲师。主要研究方向为六足机器人步态规划与运动控制。E-mail:lmh9181219@163.com.cn;张明路,男,1964年出生,博士,教授,博士研究生导师。主要研究方向为智能机器人技术。E-mail:zhangml@hebut.edu.cn;张建华,男,1979年出生,博士,教授,博士研究生导师。主要研究方向为机器人柔性控制与安全作业方法。E-mail:jhzhang@hebut.edu.cn;马艳悦,男,1993年出生,硕士研究生。主要研究方向为机器人关节柔性控制方法。E-mail:Mayuanyue@hebut.edu.cn
  • 基金资助:
    国家自然科学基金(61803142,61473113,61503119)、河北省自然科学基金(F2018202210)和河北省高等学校科学技术研究(QN2017047)资助项目。

Free Gait Planning for a Hexapod Robot Based on Reinforcement Learning

LI Manhong, ZHANG Minglu, ZHANG Jianhua, TIAN Ying, MA Yanyue   

  1. School of Mechanical Engineering, Hebei University of Technology, Tianjin 300130
  • Received:2018-05-11 Revised:2018-12-28 Online:2019-03-05 Published:2019-03-05

摘要: 为解决六足机器人步态规划问题,实现特定地形上机器人自由步态的优化学习,基于机器人单足步距的离散化处理,融合CPG模型的时间节拍原理与反射模型的空间规则约束机制,构建六足机器人离散化步态模型。通过机器人稳定性分析与步态规划策略研究,将复杂的步态规划问题转化为以振荡周期为时间间隔的位置状态间的排序问题,从新的视角提出了一种六足机器人自由步态规划的基本框架与方法。在此基础上,模仿生物步态的学习行为,基于步态序列的离散化处理,构建了基于增强学习的步态模型,并以机器人平均稳定裕量为优化目标,通过制定步态离散单元间动态转换概率的调整策略,提出了基于增强学习的自由步态规划方法。样机试验显示,自由步态规划方法与基于增强学习的自由步态规划方法均可规划出相对符合生物步态行为特征的稳定自由步态,且后者可利用步态历史信息实现特定地形上自由步态的优化学习。

关键词: 步态规划, 离散化, 六足机器人, 增强学习, 自由步态

Abstract: In order to solve the problem of gait planning for hexapod robots and achieve the optimization and learning of free gaits on specific terrains, a discrete gait model is built based on the discretization of strides and the fusion of CPG mode and reflect model. Through the analysis of robot stability and the study of gait planning strategies, the complex gait planning problem is transformed into the reorder problem of states with the interval of oscillation period. Inspired by this idea, a free gait planning method is proposed from a new perspective. Then a gait model based on reinforcement learning is constructed based on the discretization of gait sequences to imitate the learning behaviour of biological gaits. And using the average stability margin as performance index, a free gait planning method based on reinforcement learning is proposed by developing the adjustment strategies of dynamic conversion probabilities between discrete gait units. The prototype gait experiment results show that both the free gait planning method and the free gait planning method based on reinforcement learning can generate free gaits in line with the laws of biological movements, and the free gait planning method based on reinforcement learning can achieve the optimization and learning of free gaits on specific terrains using gait history information.

Key words: discretization, free gait, gait planning, hexapod robot, reinforcement learning

中图分类号: